Парти
Мы представляем модель генерации изображений на основе текста Парти (Parti), которая представляет собой авторегрессивную модель генерации изображений, обеспечивающую высококачественное фотореалистичное создание изображений и поддерживающую синтез контента, включающего сложные композиции и знания о мире. Недавние достижения в области диффузионных моделей для генерации изображений по тексту, таких как Imagen от Google, также продемонстрировали впечатляющие возможности и передовые результаты на исследовательских тестах. Парти и Imagen дополняют друг друга, исследуя два разных семейства генеративных моделей — авторегрессионные и диффузионные соответственно, открывая захватывающие возможности для сочетания этих двух мощных моделей.
Парти рассматривает генерацию изображений по тексту как задачу моделирования «последовательность-последовательность», аналогичную машинному переводу, что позволяет ему воспользоваться преимуществами достижений в больших языковых моделях, особенно возможностями, которые раскрываются при масштабировании данных и размеров модели. В этом случае целевыми выходами являются последовательности токенов изображений вместо токенов текста на другом языке. Парти использует мощный токенизатор изображений ViT-VQGAN для кодирования изображений в виде последовательностей дискретных токенов и использует его способность реконструировать такие последовательности токенов изображения в качестве высококачественных визуально разнообразных изображений.
Мы наблюдали следующие результаты:
PartiPrompts (P2) — это обширный набор из более чем 1600 запросов на английском языке, который мы публикуем в рамках этой работы. P2 можно использовать для измерения возможностей модели в различных категориях и аспектах сложности.
P2 запросы могут быть простыми, позволяя нам оценить прогресс от масштабирования. Они также могут быть сложными, например, следующее описание из 67 слов, которое мы создали для картины Винсента Ван Гога «Звёздная ночь» (1889):
«Картина маслом на холсте с изображением синего ночного неба с бурлящей энергией. Нечёткий и ярко-жёлтый полумесяц сияет вверху. Под взрывающимися жёлтыми звёздами и излучающими вихрями синего цвета вдалеке тихо расположилась деревня справа. Соединяет землю и небо пламенеющее кипарисовое дерево с изогнутыми и покачивающимися ветвями слева. Церковный шпиль возвышается как маяк над холмами».
Парти — это сотрудничество, объединяющее авторов из нескольких команд Google Research:
Джиахуи Ю*, Юаньчжун Сюй†, Цзин Ю Кох†, Тханг Луонг†, Гуньян Байд†, Зируй Ван†, Виджей Васудеван†, Александр Ку†, Иньфэй Ян, Бурку Карагол Аян, Бен Хаттчинсон, Вэй Хан, Зарана Парех, Синь Ли, Хань Чжан, Джейсон Болдридж†, Ёнгхуй Ву*.
Равный вклад. †Основной вклад.
Мы хотели бы поблагодарить Элизабет Адкисон, Фреда Алкобера, Таню Бедракс-Вайс, Кришну Бхарата, Николь Брихтову, Юаня Цао, Уильяма Чана, Чжифэна Чена, Эли Коллинза, Клэр Цуй, Эндрю Дая, Джеффа Дина, Эмили Дентон, Тоджу Дьюка, Думитру Эрхана, Брайана Габриэля, Зубина Гахрамани, Джонатана Хо, Майкла Джонса, Сару Ласло, Квока Ле, Лалу Ли, Чжэнь Ли, Сару Махдави, Кэти Мейер-Хелльстерн, Кевина Мёрфи, Пола Нацева, Пола Николаса, Мохаммада Норузи, Руоминга Панга, Ники Пармар, Фернандо Перейры, Слава Петрова, Винодкхумара Прабхакарана, Утсава Прабху, Эвана Рапопорта, Керана Ронга, Негара Ростамзаде, Читвана Сахариа, Джии Соулс, Остина Таранго, Ашиша... Мы хотели бы выразить особую благодарность команде Imagen, в частности Мохаммаду Норузи, Читвану Сахарии, Джонатану Хо и Уильяму Чану, за то, что они поделились своими почти полными результатами перед выпуском Imagen; их выводы о важности CF-руководства были особенно полезны для окончательной модели Parti.
Мы также благодарим команду Make-a-Scene, особенно Орана Гафни, за полезное обсуждение реализации CF-руководства в авторегрессионных моделях. Благодарим авторов DALL-E 2, особенно Адитью Рамеша, за полезные обсуждения по оценке MS-COCO. Также благодарим авторов DALL-Eval, особенно Джемина Чо, за помощь в воспроизведении их результатов.
Это не официально поддерживаемый продукт Google.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )