Команда Qwen Alibaba Cloud запустила Qwen-Image-Edit, современную модель редактирования изображений, которая сочетает в себе семантическое и визуальное редактирование с точной двуязычной модификацией текста, предоставляя продвинутые возможности для творческих и практических приложений.
Команда Qwen Alibaba Cloud представила Qwen-Image-Edit, продвинутую модель редактирования изображений, основанную на 20B Qwen-Image. Новая система расширяет уникальные возможности рендеринга текста Qwen-Image, применяя их к редактированию изображений, с особым акцентом на точность в модификациях текста. Qwen-Image-Edit обрабатывает входные изображения через два параллельных компонента: Qwen2.5-VL, который управляет визуальным семантическим контролем, и VAE Encoder, который регулирует визуальный вид. Этот двойной подход позволяет модели эффективно выполнять задачи редактирования как на семантическом, так и на уровне внешнего вида. Инструмент доступен через Qwen Chat в функции «Редактирование изображений».
Qwen-Image-Edit предназначен для работы в нескольких измерениях редактирования. Он поддерживает как изменения на уровне внешнего вида, такие как добавление, удаление или модификация визуальных элементов, при этом сохраняя все остальные области изображения нетронутыми, так и редактирование на семантическом уровне, такое как создание интеллектуальной собственности, вращение объектов или перенос стилей, где разрешены более широкие изменения пикселей, но семантическая целостность сохраняется. Он также предоставляет усовершенствованные возможности редактирования текста как на китайском, так и на английском языках, позволяя пользователям добавлять, удалять или настраивать текст в изображениях, сохраняя при этом согласованность шрифта, размера и стиля. Бенчмарковое тестирование по нескольким широко признанным наборам данных показывает, что Qwen-Image-Edit достигает передового уровня производительности в редактировании изображений, что позиционирует его как надежную базовую модель для будущих приложений в этой области.
Семантическое и внешнее редактирование Qwen-Image-Edit для креативных и практических приложений
Одним из определяющих аспектов Qwen-Image-Edit является его продвинутая функциональность как в семантическом, так и в визуальном редактировании. Семантическое редактирование включает в себя изменение содержания изображения при сохранении его основного визуального смысла. Чтобы наглядно продемонстрировать эту функцию, команда разработчиков подчеркивает ее использование с официальным маскотом Qwen, капибарой, в качестве практического примера.
Наблюдения показывают, что хотя большинство пикселей в измененном изображении отличаются от пикселей в оригинальном входном изображении слева, общая согласованность персонажа Капибары полностью сохраняется. Это демонстрирует сильные возможности семантического редактирования Qwen-Image-Edit, который поддерживает гибкую и разнообразную разработку оригинального контента интеллектуальной собственности. Кроме того, в Qwen Chat был создан специальный набор редакционных подсказок, основанный на 16 типах личности MBTI. С использованием этих подсказок была успешно произведена полная коллекция тематических наборов эмодзи MBTI с участием маскота Капибары, что эффективно расширяет как представление, так и видимость персонажа.
Более того, синтез новых видов представляет собой еще один важный случай использования в семантическом редактировании. Qwen-Image-Edit способен поворачивать объекты на 90 градусов или выполнять полный поворот на 180 градусов, что позволяет напрямую визуализировать заднюю сторону объекта. Еще один пример семантического редактирования заключается в переносе стиля, когда, например, стандартный портрет можно переосмыслить в несколько художественных эстетик, включая стили, напоминающие Studio Ghibli.
Наряду с семантическим редактированием, редактирование внешнего вида является часто требуемой функцией в модификации изображений. Этот подход сосредоточен на сохранении определенных областей изображения полностью неизменными, в то время как вводятся, удаляются или изменяются определенные элементы. Как показано на примере, где вывеска бесшовно интегрирована в сцену, редактирование внешнего вида подходит для широкого спектра приложений, таких как корректировка фонов для людей или изменения одежды. Еще одной определяющей способностью Qwen-Image-Edit является его точность в редактировании текста, функция, возникшая из передового опыта Qwen-Image в технологиях рендеринга текста.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Alibaba выпустила Qwen-Image-Edit: 20B открытая модель для продвинутого редактирования изображений и текста
Кратко
Команда Qwen Alibaba Cloud запустила Qwen-Image-Edit, современную модель редактирования изображений, которая сочетает в себе семантическое и визуальное редактирование с точной двуязычной модификацией текста, предоставляя продвинутые возможности для творческих и практических приложений.
Команда Qwen Alibaba Cloud представила Qwen-Image-Edit, продвинутую модель редактирования изображений, основанную на 20B Qwen-Image. Новая система расширяет уникальные возможности рендеринга текста Qwen-Image, применяя их к редактированию изображений, с особым акцентом на точность в модификациях текста. Qwen-Image-Edit обрабатывает входные изображения через два параллельных компонента: Qwen2.5-VL, который управляет визуальным семантическим контролем, и VAE Encoder, который регулирует визуальный вид. Этот двойной подход позволяет модели эффективно выполнять задачи редактирования как на семантическом, так и на уровне внешнего вида. Инструмент доступен через Qwen Chat в функции «Редактирование изображений».
Qwen-Image-Edit предназначен для работы в нескольких измерениях редактирования. Он поддерживает как изменения на уровне внешнего вида, такие как добавление, удаление или модификация визуальных элементов, при этом сохраняя все остальные области изображения нетронутыми, так и редактирование на семантическом уровне, такое как создание интеллектуальной собственности, вращение объектов или перенос стилей, где разрешены более широкие изменения пикселей, но семантическая целостность сохраняется. Он также предоставляет усовершенствованные возможности редактирования текста как на китайском, так и на английском языках, позволяя пользователям добавлять, удалять или настраивать текст в изображениях, сохраняя при этом согласованность шрифта, размера и стиля. Бенчмарковое тестирование по нескольким широко признанным наборам данных показывает, что Qwen-Image-Edit достигает передового уровня производительности в редактировании изображений, что позиционирует его как надежную базовую модель для будущих приложений в этой области.
Семантическое и внешнее редактирование Qwen-Image-Edit для креативных и практических приложений
Одним из определяющих аспектов Qwen-Image-Edit является его продвинутая функциональность как в семантическом, так и в визуальном редактировании. Семантическое редактирование включает в себя изменение содержания изображения при сохранении его основного визуального смысла. Чтобы наглядно продемонстрировать эту функцию, команда разработчиков подчеркивает ее использование с официальным маскотом Qwen, капибарой, в качестве практического примера.
Наблюдения показывают, что хотя большинство пикселей в измененном изображении отличаются от пикселей в оригинальном входном изображении слева, общая согласованность персонажа Капибары полностью сохраняется. Это демонстрирует сильные возможности семантического редактирования Qwen-Image-Edit, который поддерживает гибкую и разнообразную разработку оригинального контента интеллектуальной собственности. Кроме того, в Qwen Chat был создан специальный набор редакционных подсказок, основанный на 16 типах личности MBTI. С использованием этих подсказок была успешно произведена полная коллекция тематических наборов эмодзи MBTI с участием маскота Капибары, что эффективно расширяет как представление, так и видимость персонажа.
Более того, синтез новых видов представляет собой еще один важный случай использования в семантическом редактировании. Qwen-Image-Edit способен поворачивать объекты на 90 градусов или выполнять полный поворот на 180 градусов, что позволяет напрямую визуализировать заднюю сторону объекта. Еще один пример семантического редактирования заключается в переносе стиля, когда, например, стандартный портрет можно переосмыслить в несколько художественных эстетик, включая стили, напоминающие Studio Ghibli.
Наряду с семантическим редактированием, редактирование внешнего вида является часто требуемой функцией в модификации изображений. Этот подход сосредоточен на сохранении определенных областей изображения полностью неизменными, в то время как вводятся, удаляются или изменяются определенные элементы. Как показано на примере, где вывеска бесшовно интегрирована в сцену, редактирование внешнего вида подходит для широкого спектра приложений, таких как корректировка фонов для людей или изменения одежды. Еще одной определяющей способностью Qwen-Image-Edit является его точность в редактировании текста, функция, возникшая из передового опыта Qwen-Image в технологиях рендеринга текста.