Команда Qwen компанії Alibaba Cloud запустила Qwen-Image-Edit, сучасну модель редагування зображень, яка поєднує семантичне та візуальне редагування з точним двомовним модифікуванням тексту, забезпечуючи розширені можливості для творчих та практичних застосувань.
Команда Qwen Alibaba Cloud представила Qwen-Image-Edit, просунутий модель редагування зображень, що походить з 20B Qwen-Image фреймворку. Нова система розширює унікальні можливості текстового рендерингу Qwen-Image, застосовуючи їх до редагування зображень, з особливим акцентом на точність змін тексту. Qwen-Image-Edit обробляє вхідні зображення через два паралельні компоненти: Qwen2.5-VL, який управляє візуальним семантичним контролем, та VAE Encoder, який контролює візуальний вигляд. Цей подвійний підхід дозволяє моделі ефективно виконувати завдання редагування на семантичному та візуальному рівнях. Інструмент доступний через Qwen Chat у функції "Редагування зображень".
Qwen-Image-Edit розроблений для виконання в кількох вимірах редагування. Він підтримує як коригування на рівні зовнішнього вигляду, такі як додавання, видалення або модифікація візуальних елементів, зберігаючи при цьому всі інші області зображення недоторканими, так і редагування на семантичному рівні, такі як створення інтелектуальної власності, обертання об'єктів або перенесення стилів, де дозволені більш широкі зміни пікселів, але семантична цілісність залишається збереженою. Він також надає вдосконалені можливості редагування тексту як китайською, так і англійською мовами, дозволяючи користувачам додавати, видаляти або коригувати текст у зображеннях, зберігаючи при цьому консистентність шрифтів, розміру та стилю. Результати бенчмаркових тестів на кількох широко визнаних наборах даних показують, що Qwen-Image-Edit досягає найсучасніших показників у редагуванні зображень, позиціонуючи його як потужну базову модель для майбутніх застосувань у цій сфері.
Семантичне та зовнішнє редагування Qwen-Image-Edit для творчих та практичних застосувань
Однією з визначальних рис Qwen-Image-Edit є його розширена функціональність як у семантичному, так і в редагуванні зовнішнього вигляду. Семантичне редагування передбачає зміну змісту зображення, при цьому забезпечуючи збереження основного візуального значення. Щоб ілюструвати цю функцію простим способом, розробницька команда підкреслює її використання з офіційним маскотом Qwen, капібарою, як практичний приклад.
Спостереження показує, що, хоча більшість пікселів у модифікованому зображенні відрізняються від тих, що в оригінальному вхідному зображенні зліва, загальна послідовність персонажа Капібари повністю зберігається. Це демонструє сильні можливості семантичного редагування Qwen-Image-Edit, що підтримує гнучкий і різноманітний розвиток оригінального інтелектуального контенту. Крім того, у Qwen Chat був створений спеціальний набір редакційних підказок, присвячений 16 типам особистості MBTI. Використовуючи ці підказки, була успішно створена повна колекція тематичних емодзі-паків MBTI з персонажем Капібари, що ефективно розширює як представлення, так і видимість персонажа.
Більше того, нова синтезування зображень представляє ще один важливий випадок використання в семантичному редагуванні. Qwen-Image-Edit здатен обертати об'єкти на 90 градусів або виконувати повне обертання на 180 градусів, що дозволяє безпосередньо візуалізувати задню сторону об'єкта. Ще один приклад семантичного редагування полягає в перенесенні стилю, де, наприклад, стандартний портрет може бути переосмислений в кількох художніх естетиках, включаючи стилі, що нагадують Studio Ghibli.
Поряд із семантичним редагуванням, редагування зовнішнього вигляду є часто необхідною функцією в модифікації зображень. Цей підхід зосереджується на збереженні певних областей зображення повністю незмінними, одночасно вводячи, видаляючи або змінюючи призначені елементи. Як демонструє приклад, коли вивіска безшовно інтегрується в сцену, редагування зовнішнього вигляду має широкий спектр застосувань, таких як налаштування фону для людей або модифікації одягу. Іншою визначальною можливістю Qwen-Image-Edit є її точність у редагуванні тексту, функція, що походить від передових технологій рендерингу тексту Qwen-Image.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Alibaba випустила Qwen-Image-Edit: 20B відкриту модель для просунутого редагування зображень та тексту
Коротко
Команда Qwen компанії Alibaba Cloud запустила Qwen-Image-Edit, сучасну модель редагування зображень, яка поєднує семантичне та візуальне редагування з точним двомовним модифікуванням тексту, забезпечуючи розширені можливості для творчих та практичних застосувань.
Команда Qwen Alibaba Cloud представила Qwen-Image-Edit, просунутий модель редагування зображень, що походить з 20B Qwen-Image фреймворку. Нова система розширює унікальні можливості текстового рендерингу Qwen-Image, застосовуючи їх до редагування зображень, з особливим акцентом на точність змін тексту. Qwen-Image-Edit обробляє вхідні зображення через два паралельні компоненти: Qwen2.5-VL, який управляє візуальним семантичним контролем, та VAE Encoder, який контролює візуальний вигляд. Цей подвійний підхід дозволяє моделі ефективно виконувати завдання редагування на семантичному та візуальному рівнях. Інструмент доступний через Qwen Chat у функції "Редагування зображень".
Qwen-Image-Edit розроблений для виконання в кількох вимірах редагування. Він підтримує як коригування на рівні зовнішнього вигляду, такі як додавання, видалення або модифікація візуальних елементів, зберігаючи при цьому всі інші області зображення недоторканими, так і редагування на семантичному рівні, такі як створення інтелектуальної власності, обертання об'єктів або перенесення стилів, де дозволені більш широкі зміни пікселів, але семантична цілісність залишається збереженою. Він також надає вдосконалені можливості редагування тексту як китайською, так і англійською мовами, дозволяючи користувачам додавати, видаляти або коригувати текст у зображеннях, зберігаючи при цьому консистентність шрифтів, розміру та стилю. Результати бенчмаркових тестів на кількох широко визнаних наборах даних показують, що Qwen-Image-Edit досягає найсучасніших показників у редагуванні зображень, позиціонуючи його як потужну базову модель для майбутніх застосувань у цій сфері.
Семантичне та зовнішнє редагування Qwen-Image-Edit для творчих та практичних застосувань
Однією з визначальних рис Qwen-Image-Edit є його розширена функціональність як у семантичному, так і в редагуванні зовнішнього вигляду. Семантичне редагування передбачає зміну змісту зображення, при цьому забезпечуючи збереження основного візуального значення. Щоб ілюструвати цю функцію простим способом, розробницька команда підкреслює її використання з офіційним маскотом Qwen, капібарою, як практичний приклад.
Спостереження показує, що, хоча більшість пікселів у модифікованому зображенні відрізняються від тих, що в оригінальному вхідному зображенні зліва, загальна послідовність персонажа Капібари повністю зберігається. Це демонструє сильні можливості семантичного редагування Qwen-Image-Edit, що підтримує гнучкий і різноманітний розвиток оригінального інтелектуального контенту. Крім того, у Qwen Chat був створений спеціальний набір редакційних підказок, присвячений 16 типам особистості MBTI. Використовуючи ці підказки, була успішно створена повна колекція тематичних емодзі-паків MBTI з персонажем Капібари, що ефективно розширює як представлення, так і видимість персонажа.
Більше того, нова синтезування зображень представляє ще один важливий випадок використання в семантичному редагуванні. Qwen-Image-Edit здатен обертати об'єкти на 90 градусів або виконувати повне обертання на 180 градусів, що дозволяє безпосередньо візуалізувати задню сторону об'єкта. Ще один приклад семантичного редагування полягає в перенесенні стилю, де, наприклад, стандартний портрет може бути переосмислений в кількох художніх естетиках, включаючи стилі, що нагадують Studio Ghibli.
Поряд із семантичним редагуванням, редагування зовнішнього вигляду є часто необхідною функцією в модифікації зображень. Цей підхід зосереджується на збереженні певних областей зображення повністю незмінними, одночасно вводячи, видаляючи або змінюючи призначені елементи. Як демонструє приклад, коли вивіска безшовно інтегрується в сцену, редагування зовнішнього вигляду має широкий спектр застосувань, таких як налаштування фону для людей або модифікації одягу. Іншою визначальною можливістю Qwen-Image-Edit є її точність у редагуванні тексту, функція, що походить від передових технологій рендерингу тексту Qwen-Image.