2 weeks ago 0 Comments

Недавние достижения в генерации текста в изображение достигли значительного прогресса в синтезе реалистичных фотографий человека, обусловленных заданными текстовыми подсказками. Однако существующие методы персонализированной генерации не могут одновременно удовлетворять требованиям высокой эффективности, многообещающей точности идентификации (ID) и гибкой управляемости текста. В этой работе мы представляем PhotoMaker, эффективный метод персонализированной генерации текста в изображение, который в основном кодирует произвольное количество входных изображений ID в стековое внедрение ID для сохранения информации ID. Такое внедрение, выступающее в качестве унифицированного представления ID, может не только всесторонне инкапсулировать характеристики одного и того же входного ID, но и учитывать характеристики различных ID для последующей интеграции. Это прокладывает путь для более интригующих и практически ценных приложений. Кроме того, для управления обучением нашего PhotoMaker мы предлагаем конвейер построения данных, ориентированный на ID, для сборки обучающих данных. Благодаря использованию набора данных, созданного с помощью предлагаемого конвейера, наш PhotoMaker демонстрирует лучшую способность сохранения идентификаторов, чем методы, основанные на тонкой настройке во время тестирования, при этом обеспечивая значительное повышение скорости, высококачественные результаты генерации, сильные возможности обобщения и широкий спектр приложений.

 

Ссылка на Github

New Comment

Page loader