1 неделю назад 0 Комментарии

Масштабируемая векторная графика (SVG) стала неотъемлемой частью современных приложений рендеринга изображений благодаря своей бесконечной масштабируемости разрешения, универсальности использования и возможностям редактирования. SVG особенно популярны в областях веб-разработки и графического дизайна. Существующие подходы к моделированию SVG с использованием глубокого обучения часто испытывают трудности с созданием сложных SVG и ограничиваются более простыми, требующими обширной обработки и упрощения. В этой статье представлен StarVector, многомодальная модель генерации SVG, которая эффективно интегрирует модели генерации кода больших языков (CodeLLM) и модели зрения. Наш подход использует кодировщик изображений CLIP для извлечения визуальных представлений из пиксельных изображений, которые затем преобразуются в визуальные токены с помощью модуля адаптера. Эти визуальные токены добавляются к встраиваниям токенов SVG, а последовательность моделируется моделью StarCoder с использованием прогнозирования следующего токена, эффективно обучаясь выравнивать визуальные и кодовые токены. Это позволяет StarVector генерировать неограниченные SVG, которые точно представляют пиксельные изображения. Для оценки производительности StarVector мы представляем SVG-Bench, комплексный бенчмарк для оценки методов SVG по нескольким наборам данных и соответствующим метрикам. В этом бенчмарке мы представляем новые наборы данных, включая SVG-Stack, масштабный набор данных реальных примеров SVG, и используем его для предварительной подготовки StarVector в качестве большой базовой модели для SVG. Наши результаты демонстрируют значительные улучшения в визуальном качестве и обработке сложности по сравнению с текущими методами, что является заметным прогрессом в технологии генерации SVG. 

Код и модели: https://github.com/joanrod/star-vector

Новый комментарий

Page loader