QVABO STUDIO

Alibaba представила Qwen-Image-2.0: сжатие увеличено вдвое, шаги генерации сокращены с 40 до 4

Alibaba опубликовала технический отчет по Qwen-Image-2.0 - новой модели генерации изображений. Главные улучшения: VAE с 16-кратным сжатием (вместо обычных 8x), переработанный трансформер и отдельный модуль для обогащения коротких пользовательских запросов.

Alibaba представила Qwen-Image-2.0: сжатие увеличено вдвое, шаги генерации сокращены с 40 до 4

Более агрессивное сжатие обычно уничтожает детали, но инженеры решили проблему двумя способами: добавили skip-соединения в VAE и настроили латентное пространство так, чтобы оно сохраняло семантически значимые структуры. При этом из архитектуры полностью убрали дискриминатор - второй нейросетевой компонент, который традиционно используется для повышения резкости. В Alibaba назвали его «излишним» и источником нестабильности.

Полная версия — в Telegram

Читать пост полностью

~1 мин чтения · @qvabo_studio

В Telegram
Оригинал
Tier-1 пресса
Qvabo Studio
Редакция
Открыть в Telegram