Как весьма практичное приложение, редактирование изображений сталкивается с различными требованиями пользователей и, таким образом, отдает приоритет превосходной простоте использования. В этой статье мы представляем MagicQuill, интегрированную систему редактирования изображений, разработанную для поддержки пользователей в быстрой реализации их творческих способностей. Наша система начинается с оптимизированного, но функционально надежного интерфейса, позволяющего пользователям формулировать свои идеи (например, вставлять элементы, стирать объекты, изменять цвет и т. д.) всего несколькими штрихами. Затем эти взаимодействия отслеживаются мультимодальной большой языковой моделью (MLLM) для предугадывания намерений пользователя в реальном времени, минуя необходимость быстрого ввода. Наконец, мы применяем мощный диффузионный априор, улучшенный тщательно изученным подключаемым модулем с двумя ветвями, для обработки запроса на редактирование с точным контролем.
Ссылка на сайт
Ссылка на Github