Alibaba Cloud'un Qwen ekibi, anlam ve görünüm düzenlemelerini hassas iki dilli metin değişikliği ile birleştiren, son derece gelişmiş bir görüntü düzenleme modeli olan Qwen-Image-Edit'i piyasaya sürdü. Yaratıcı ve pratik uygulamalar için gelişmiş yetenekler sunuyor.
Alibaba Cloud’un Qwen ekibi, 20B Qwen-Image çerçevesinden türetilen ileri düzey bir resim düzenleme modeli olan Qwen-Image-Edit’i tanıttı. Yeni sistem, Qwen-Image’in belirgin metin işleme yeteneklerini resim düzenlemeye uygulayarak, metin değişikliklerinde hassasiyete özel bir vurgu yaparak genişletmektedir. Qwen-Image-Edit, giriş görüntülerini iki paralel bileşen aracılığıyla işler: görsel anlamsal kontrolü yöneten Qwen2.5-VL ve görsel görünümü yöneten VAE Encoder. Bu çift yaklaşım, modelin hem anlamsal düzeyde hem de görünüm düzeyinde düzenleme görevlerini etkili bir şekilde gerçekleştirmesine olanak tanır. Araç, “Resim Düzenleme” özelliği altında Qwen Chat üzerinden erişilebilir.
Qwen-Image-Edit, birden fazla düzenleme boyutunda performans göstermek üzere tasarlanmıştır. Görsel unsurların eklenmesi, çıkarılması veya değiştirilmesi gibi görünüm düzeyi ayarlamalarını desteklerken, görüntünün diğer tüm alanlarını sağlam tutar ve fikri mülkiyet yaratımı, nesne döndürme veya stil aktarımı gibi anlam düzeyinde düzenlemeleri de destekler; burada daha geniş piksel değişikliklerine izin verilirken, anlam bütünlüğü korunur. Ayrıca, kullanıcıların görüntüler içindeki metni eklemelerine, çıkarmalarına veya ayarlamalarına olanak tanıyan, hem Çince hem de İngilizce olarak rafine metin düzenleme yetenekleri sunar; bu, font, boyut ve stil tutarlılığını koruyarak gerçekleştirilir. Birçok yaygın olarak tanınan veri kümesi üzerinde yapılan kıyaslama testleri, Qwen-Image-Edit'in görüntü düzenlemede en son teknoloji performansına ulaştığını ve bu alan için gelecekteki uygulamalar için güçlü bir temel model olarak konumlandığını göstermektedir.
Qwen-Image-Edit’in Yaratıcı ve Pratik Uygulamalar İçin Anlamsal ve Görünüm Düzenleme
Qwen-Image-Edit'in tanımlayıcı yönlerinden biri, hem anlamsal hem de görünüm düzenlemesindeki gelişmiş işlevselliğidir. Anlamsal düzenleme, bir görüntünün içeriğini değiştirirken, temel görsel anlamın sağlam kalmasını sağlamak anlamına gelir. Bu işlevi basit bir şekilde göstermek için, geliştirme ekibi Qwen'in resmi maskotu Capybara'nın pratik bir örnek olarak kullanımını vurgulamaktadır.
Gözlemler, modifiye edilmiş görüntüdeki piksellerin çoğunluğunun soldaki orijinal giriş görüntüsündekilerden farklı olduğunu gösterse de, Capybara karakterinin genel tutarlılığının tamamen korunduğunu ortaya koyuyor. Bu, Qwen-Image-Edit'in güçlü anlam düzenleme yeteneğini gösteriyor; bu yetenek, orijinal fikir mülkiyeti içeriğinin esnek ve çeşitli bir şekilde geliştirilmesini destekliyor. Ayrıca, Qwen Chat içinde, 16 MBTI kişilik türü etrafında özel bir dizi düzenleme istemi oluşturuldu. Bu istemleri kullanarak, Capybara maskotunu içeren MBTI temalı emoji paketlerinin tamamı başarıyla üretildi ve karakterin temsilinin ve görünürlüğünün etkili bir şekilde genişletilmesi sağlandı.
Ayrıca, yeni görünüm sentezi, anlamsal düzenleme içinde başka bir önemli kullanım durumu temsil eder. Qwen-Image-Edit, nesneleri 90 derece döndürme veya tam 180 derece döndürme yeteneğine sahiptir, bu da bir nesnenin arka yüzünün doğrudan görselleştirilmesine olanak tanır. Anlamsal düzenlemenin bir başka örneği, bir standart portreyi, örneğin, Studio Ghibli'yi anımsatan stiller de dahil olmak üzere, çok sayıda sanatsal estetiğe yeniden yorumlama olan stil transferidir.
Anlamsal düzenlemenin yanı sıra, görünüş düzenlemesi, görüntü modifikasyonunda sıkça gereken bir işlevdir. Bu yaklaşım, bir görüntünün belirli bölgelerini tamamen değişmeden korumaya odaklanırken, belirlenen unsurları ekleme, kaldırma veya değiştirme işlemlerini içerir. Bir tabelanın bir sahneye sorunsuz bir şekilde entegre edildiği bir örnekte gösterildiği gibi, görünüş düzenlemesi, bireyler için arka plan ayarlamaları veya giysi değişiklikleri gibi çok çeşitli uygulamalara uygundur. Qwen-Image-Edit'in bir diğer belirleyici yeteneği, Qwen-Image’in metin işleme teknolojilerindeki ileri düzey uzmanlığından kaynaklanan metin düzenlemedeki hassasiyetidir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Alibaba, Gelişmiş Görüntü ve Metin Düzenlemesi İçin 20B Açık Kaynak Modeli Olan Qwen-Image-Edit'i Yayınladı
Kısaca
Alibaba Cloud'un Qwen ekibi, anlam ve görünüm düzenlemelerini hassas iki dilli metin değişikliği ile birleştiren, son derece gelişmiş bir görüntü düzenleme modeli olan Qwen-Image-Edit'i piyasaya sürdü. Yaratıcı ve pratik uygulamalar için gelişmiş yetenekler sunuyor.
Alibaba Cloud’un Qwen ekibi, 20B Qwen-Image çerçevesinden türetilen ileri düzey bir resim düzenleme modeli olan Qwen-Image-Edit’i tanıttı. Yeni sistem, Qwen-Image’in belirgin metin işleme yeteneklerini resim düzenlemeye uygulayarak, metin değişikliklerinde hassasiyete özel bir vurgu yaparak genişletmektedir. Qwen-Image-Edit, giriş görüntülerini iki paralel bileşen aracılığıyla işler: görsel anlamsal kontrolü yöneten Qwen2.5-VL ve görsel görünümü yöneten VAE Encoder. Bu çift yaklaşım, modelin hem anlamsal düzeyde hem de görünüm düzeyinde düzenleme görevlerini etkili bir şekilde gerçekleştirmesine olanak tanır. Araç, “Resim Düzenleme” özelliği altında Qwen Chat üzerinden erişilebilir.
Qwen-Image-Edit, birden fazla düzenleme boyutunda performans göstermek üzere tasarlanmıştır. Görsel unsurların eklenmesi, çıkarılması veya değiştirilmesi gibi görünüm düzeyi ayarlamalarını desteklerken, görüntünün diğer tüm alanlarını sağlam tutar ve fikri mülkiyet yaratımı, nesne döndürme veya stil aktarımı gibi anlam düzeyinde düzenlemeleri de destekler; burada daha geniş piksel değişikliklerine izin verilirken, anlam bütünlüğü korunur. Ayrıca, kullanıcıların görüntüler içindeki metni eklemelerine, çıkarmalarına veya ayarlamalarına olanak tanıyan, hem Çince hem de İngilizce olarak rafine metin düzenleme yetenekleri sunar; bu, font, boyut ve stil tutarlılığını koruyarak gerçekleştirilir. Birçok yaygın olarak tanınan veri kümesi üzerinde yapılan kıyaslama testleri, Qwen-Image-Edit'in görüntü düzenlemede en son teknoloji performansına ulaştığını ve bu alan için gelecekteki uygulamalar için güçlü bir temel model olarak konumlandığını göstermektedir.
Qwen-Image-Edit’in Yaratıcı ve Pratik Uygulamalar İçin Anlamsal ve Görünüm Düzenleme
Qwen-Image-Edit'in tanımlayıcı yönlerinden biri, hem anlamsal hem de görünüm düzenlemesindeki gelişmiş işlevselliğidir. Anlamsal düzenleme, bir görüntünün içeriğini değiştirirken, temel görsel anlamın sağlam kalmasını sağlamak anlamına gelir. Bu işlevi basit bir şekilde göstermek için, geliştirme ekibi Qwen'in resmi maskotu Capybara'nın pratik bir örnek olarak kullanımını vurgulamaktadır.
Gözlemler, modifiye edilmiş görüntüdeki piksellerin çoğunluğunun soldaki orijinal giriş görüntüsündekilerden farklı olduğunu gösterse de, Capybara karakterinin genel tutarlılığının tamamen korunduğunu ortaya koyuyor. Bu, Qwen-Image-Edit'in güçlü anlam düzenleme yeteneğini gösteriyor; bu yetenek, orijinal fikir mülkiyeti içeriğinin esnek ve çeşitli bir şekilde geliştirilmesini destekliyor. Ayrıca, Qwen Chat içinde, 16 MBTI kişilik türü etrafında özel bir dizi düzenleme istemi oluşturuldu. Bu istemleri kullanarak, Capybara maskotunu içeren MBTI temalı emoji paketlerinin tamamı başarıyla üretildi ve karakterin temsilinin ve görünürlüğünün etkili bir şekilde genişletilmesi sağlandı.
Ayrıca, yeni görünüm sentezi, anlamsal düzenleme içinde başka bir önemli kullanım durumu temsil eder. Qwen-Image-Edit, nesneleri 90 derece döndürme veya tam 180 derece döndürme yeteneğine sahiptir, bu da bir nesnenin arka yüzünün doğrudan görselleştirilmesine olanak tanır. Anlamsal düzenlemenin bir başka örneği, bir standart portreyi, örneğin, Studio Ghibli'yi anımsatan stiller de dahil olmak üzere, çok sayıda sanatsal estetiğe yeniden yorumlama olan stil transferidir.
Anlamsal düzenlemenin yanı sıra, görünüş düzenlemesi, görüntü modifikasyonunda sıkça gereken bir işlevdir. Bu yaklaşım, bir görüntünün belirli bölgelerini tamamen değişmeden korumaya odaklanırken, belirlenen unsurları ekleme, kaldırma veya değiştirme işlemlerini içerir. Bir tabelanın bir sahneye sorunsuz bir şekilde entegre edildiği bir örnekte gösterildiği gibi, görünüş düzenlemesi, bireyler için arka plan ayarlamaları veya giysi değişiklikleri gibi çok çeşitli uygulamalara uygundur. Qwen-Image-Edit'in bir diğer belirleyici yeteneği, Qwen-Image’in metin işleme teknolojilerindeki ileri düzey uzmanlığından kaynaklanan metin düzenlemedeki hassasiyetidir.