28 мая 2026

eur = 82.72 -0.58 (-0.69 %)

btc = 72 885.00$ -2 724.98 (-3.60 %)

eth = 1 974.88$ -99.57 (-4.80 %)

ton = 1.79$ -0.12 (-6.34 %)

usd = 70.90 -0.77 (-1.07 %)

eur = 82.72 -0.58 (-0.69 %)

btc = 72 885.00$ -2 724.98 (-3.60 %)

Алиса AI научилась лучше генерировать изображения с текстом на русском: как этим грамотно пользоваться

3 минуты на чтение
Алиса AI научилась лучше генерировать изображения с текстом на русском: как этим грамотно пользоваться

Кодик кратко объясняет суть статьи

Яндекс обновил модель Alice AI ART для генерации изображений в чате с Алисой, улучшив качество рисования русскоязычных надписей. Основная сложность для нейросетей — корректная генерация кириллицы из-за недостатка качественных данных с разметкой и особенностей восприятия текста как части изображения. Команда Яндекса собрала собственный датасет из 30 млн претрейн-семплов и 100 тыс. отобранных изображений с кириллическим текстом, уделяя внимание как точности букв, так и визуальной эстетике. Модель перешла на архитектуру DiT (Diffusion Transformer), что улучшило понимание пространственных связей, особенно в длинных надписях, и обучалась на русскоязычных промтах без перевода. Добавлен рефрайзер для уточнения расплывчатых запросов. В результате модель стала в 3 раза эффективнее генерировать корректный русский текст и на треть улучшила общее качество изображений, лучше передавая детали и культурные образы. Для лучшего результата рекомендуется заключать текст в кавычки, писать сложные слова заглавными и разбивать длинные надписи на части с указанием расположения. Обновлённая модель доступна в Алисе AI и Yandex AI Studio для бизнеса.

Читайте в Telegram

|

Яндекс обновил собственную модель Alice AI ART, которая используется для генерации изображений в чате с Алисой AI, сообщили «Коду Дурова» в компании.

После обновления нейросеть стала точнее создавать картинки с надписями на русском языке — например, постеры, афиши, открытки и рекламные материалы.

Почему кириллица сложна для нейросетей

Генерация текста внутри изображений остаётся одной из сложных задач для нейросетей. Такие модели воспринимают картинку как единое полотно пикселей и не всегда «понимают» буквы как отдельные символы со стабильной формой.

Особенно заметна проблема с кириллицей: в открытых датасетах русскоязычных надписей меньше, чем латиницы, поэтому моделям сложнее учиться различать буквы и устойчиво воспроизводить их форму.

Но проблема не только в количестве данных. Даже если собрать много изображений с русским текстом, их качество может быть недостаточным. В таком случае модель действительно научится чаще рисовать кириллицу, но при этом может потерять в общем качестве визуализации — например, хуже передавать детали, композицию или эстетику изображения.

Поэтому одна из главных сложностей заключается в балансе: нужно собрать достаточно разнообразный датасет с кириллицей, но при этом не ухудшить общее качество генерации.

Что изменили в Alice AI ART

Чтобы улучшить результат, команда Яндекса собрала собственный датасет пар «изображение — кириллический текст» с детальной разметкой символов.

  • В претрейн модели добавили 30 млн семплов с текстами, а на этапе тонкой настройки — ещё около 100 тысяч изображений, отобранных не только по качеству текста, но и по визуальной эстетике.
Промт: акварель открытка с ромашками и надписью с днем семьи любви и верности
Алиса AI научилась лучше генерировать изображения с текстом на русском: как этим грамотно пользоваться
  • Кроме датасета, разработчики изменили архитектуру модели: вместо классической UNet-сети используется DiT (Diffusion Transformer). Такой подход помогает модели лучше учитывать пространственные связи между частями изображения — это особенно важно для длинных надписей, где нужно сохранить порядок и форму букв.
  • Также модель начали обучать на русскоязычных промтах, чтобы она понимала запрос напрямую, без промежуточного перевода с английского.
  • Дополнительно в систему добавили рефрайзер, который уточняет расплывчатые локальные образы. Например, запрос вроде «наша столица» может быть преобразован в более конкретное описание с Москвой, Кремлём и Красной площадью.

Что получилось в итоге

По данным Яндекса, после обновления Alice AI ART:

  • стала в 3 раза чаще генерировать изображения с корректным текстом на русском языке при использовании рекомендованных приёмов для промтов;
  • на треть выросло и общее качество генераций: модель реже выдаёт визуальные искажения и лучше справляется с локальными культурными образами.
  • лучше справляется с локальными культурными образами.
Промт: детские поделки с достопримечательностями величайшей страны, демонстрирующие творчество и национальную гордость.
Алиса AI научилась лучше генерировать изображения с текстом на русском: как этим грамотно пользоваться

Как писать промты для русского текста

Чтобы получить максимальное качество, в Яндексе рекомендуют использовать три простых приёма:

  • Кавычки. Любой текст, который должен оказаться на картинке, нужно заключать в кавычки: «текст для рендера».
Промт: нарисуй иллюстрацию к сказке, маленькая девочка Маша в красном плаще идёт через сказочный лес, вокруг светлячки и грибы с глазами, мягкая акварель, стиль современной детской книги, надпись «Маша и волшебный лес» детским шрифтом
Алиса AI научилась лучше генерировать изображения с текстом на русском: как этим грамотно пользоваться
  • Заглавные буквы для сложных слов. Слова, где модель может ошибаться, лучше писать заглавными буквами внутри кавычек: «СЛОЖНОЕ СЛОВО простой текст». Это даёт модели дополнительный сигнал: на эти буквы нужно обратить особое внимание.
  • Разбивка длинных надписей. Не стоит пытаться уместить всё в одну строку. Лучше разделить длинную фразу на несколько частей и явно указать расположение: «первые несколько слов» вверху, а чуть ниже — «эти слова». Так модель не будет пытаться сжать всё в одну строку.
Промт: нарисуй картинку для поста в соцсети, про раздачу котят, пять милых котят в аниме стиле, заголовок "ОТДАМ КОТЯТ"
Первый с подписью "Барсик" обычный серый
Второй с подписью "Рыжик" рыжий
Третий с подписью "Пушок" белый
Четвертый с подписью "Черепахич" трехцветный
Пятый с подписью "Ночка" черный
Алиса AI научилась лучше генерировать изображения с текстом на русском: как этим грамотно пользоваться

В Яндексе отмечают, что эти приёмы дают кратный рост качества. Особенно это важно для длинных надписей: например, фразы из 7–9 слов теперь генерируются корректно в большинстве случаев, тогда как для многих моделей длинные фразы остаются сложной задачей.


Обновлённая модель доступна пользователям Алисы AI и через Yandex AI Studio для бизнеса. В последнем случае её можно использовать в составе агентских сценариев — например, для автоматического создания изображений для карточек товаров, лендингов, презентаций или рекламных материалов.

Теги:
Материал обновлен|
Обсудить
Блоги 573
OTP Bank
Softline
ЦНИС
ВКонтакте
билайн
ВТБ
Слетать.ру
Т-Банк
Газпромбанк
МТС

Привет, это Кодик! Я создан, чтобы помогать вам с  разными задачами. Задайте мне вопрос…