Ищете крутые кейсы в digital? Посмотрите на номинантов Workspace Digital Awards 2026!

Обзор на российские нейросети для создания изображений – Kandinsky и Шедеврум

19077

Те, кто хотел, уже наигрались с популярными нейросетями для генерации изображений — DALL·E 2, Stable Diffusion и Midjourney. А что с русскими аналогами, могут ли они выполнять задачи лучше, нежели зарубежные продукты?

Поделимся нашим опытом использования Kandinsky 2.1 — нейросети от «Сбера» и «Шедеврум» — нейросети от «Яндекса». Спойлер: их результаты вполне себе неплохие.

Если вам нужен качественный визуал и нейросетей для него будет недостаточно — создайте заказ для специалистов на Workspace. На нашей площадке зарегистрированы десятки тысяч digital-специалистов: дизайнеров, маркетологов и разработчиков. Также на сайте зарегистрировано более 10 000 digital-агентств. Workspace — это тендерная площадка № 1 в сфере digital, на которой ежедневно публикуются заказы.

Kandinsky 2.1

Kandinsky 2.1 — обновленная версия нейросети от «Сбера», которая вышла 5 апреля 2023 года. Нейросеть обогнала ChatGPT в краткосрочном приросте аудитории, собрав аудиторию в 2 млн пользователей всего за 6 дней. Kandinsky 2.1 куда продвинутей, чем предыдущая версия нейросети — Kandinsky 2.0. Обновленная версия содержит 3,3 млрд параметров вместо 2 млрд в прошлой версии.

Результат работы Kandinsky 2.1 по запросу «Эйнштейн в космосе, окруженный логарифмической схемой», источник — habr.com

У нейросети есть 2 ключевых преимущества: можно писать запросы на русском и она бесплатная. Эти факторы делают ее более удобной в использовании в сравнении с зарубежными продуктами. Нет ограничений в использовании из-за платных токенов, которые нельзя оплатить российской банковской картой. Не нужно включать VPN, как в случае с DALL·E 2, не нужно выискивать свою работу среди прочих, как в случае с Midourney. Кстати, Midjourney с 31 марта ограничила бесплатный доступ. Нейросеть поддерживает более 100 языков, но лучше всего понимает запросы на русском и английском.

У нейросети есть 4 рабочих режима:

Генерация изображения способом «text to image». Классический вариант — вы пишете текстовый промпт, нейросеть выдает готовый результат. Как и в случае с зарубежными нейросетями, нужно писать подробные промпты, чтобы повысить вероятность получить то, что нужно.
Смешивание изображений. Нейросеть может использовать 2 изображения в качестве исходника и по-своему смешать их.
Генерация изображения способом «image to image». В этом режиме можно добавить изображение и попросить нейросеть видоизменить ее с помощью текстового промпта.
Вариации изображений. В этом режиме нейросеть берет за основу исходное изображение и слегка видоизменяет его. С его помощью можно брать подходящие иллюстрации с авторскими правами, пропускать их через нейросеть и на выходе получать похожий, но немного другой результат.

Где можно использовать нейросеть Kandinsky 2.1:

На сайте Russian DALL-E. Этот сайт остался от первой версии нейросети Kandinsky, которая тогда называлась ruDALL-E. На сайте нейросеть работает только в режиме генерации изображения из текста. На сайте указано, что нейросеть поддерживает генерацию в разрешениях 768×768, 768×1152, 1152×768, 768×1536 и 1536×768 пикселей. При этом, фактически нейросеть делала мне только вертикальные разрешения — широкоформатную картинку сделать не получится. На сайте можно выбрать один из 19 дополнительных стилей или оставить режим «Без стиля» и указать условия генерации изображения в текстовом промпте.

Результат хороший, но заказывал горизонтальную картинку, а не вертикальную

В официальном Telegram-боте. Бот поддерживает все режимы работы с изображениями, но выдает картинки только в разрешении 768×768 пикселей.

Бот более функциональный по сравнению с сайтом ruDALLE, но проигрывает только одно разрешение

На сайте Fusion Brain. Это более новый сайт «Сбера» с нейросетью, который поддерживает генерацию изображений по текстовому запросу с использованием стилей. Также на сайте есть функция ластика — можно стереть ненужный элемент и дать задачу нейросети с помощью текстового запроса нарисовать там что-нибудь другое. Также туда можно загружать свои изображения и видоизменять их с помощью дополнительного стиля.

Kandinsky 2.1 на сайте Fusion Brain — обновленном онлайн-интерфейсе нейросети

На облачной платформе ML Space. Этот способ подойдет разработчикам, которые хотят создать на основе нейросети свой продукт.

В таком виде его можно будет использовать на облачном хранилище «Сбера»

В умных устройствах, которые поддерживают голосового помощника «Салют». Активируется голосовой командой «Включи художника».

Обзор на российские нейросети для создания изображений – Kandinsky и Шедеврум

Недостатки Kandinsky 2.1:

Сервер может быть перегружен.
Выдает один вариант изображения вместо четырех в отличие от конкурентов.
Периодически выдает не те результаты. Например, вместо того, чтобы объединить 2 фотографии, нейросеть выдала какую-то поляну с цветами.
Небольшое максимальное разрешение в 768×768 пикселей. Проблему можно обойти, если воспользоваться каким-нибудь апскейлером, который увеличивает разрешение за счет технологий машинного обучения. Пример такого сервиса есть в нашей статье «18 нейросетей для генерации контента в 2023 году».

Сравнение Kandinsky 2.1 с зарубежными нейросетями

Попробуем проверить Kandinsky 2.1 «в бою», сравнив ее с DALL·E 2 и Stable Diffusion. Мы не будем работать с Midourney, потому что нейросеть ограничила бесплатный доступ с 31 марта. Оплатить сервис с российской банковской карты нельзя.

Для начала вкратце пройдемся по перечислим особенности каждой из зарубежных нейросетей.

Особенности DALL·E 2:

Работает через VPN, также нужно зарегистрироваться на сайте OpenAI. Есть неофициальные Telegram-боты с нейросетью, такие как этот, но бот умеет только генерировать изображения по запросам. На сайте можно использовать ластик, чтобы удалять и заменять отдельные части креатива по дополнительному текстовому запросу. О том, как зарегистрироваться на сайте OpenAI, мы рассказали в статье «Обзор ChatGPT: что умеет и как эффективно пользоваться нейросетью». Если вы зарегистрировались для использования ChatGPT, этот же профиль подойдет для DALL·E 2.
Если работать с нейросетью на сайте, пользователю сначала будет доступно 50 бесплатных запросов, потом — по 15 в месяц. Сервис нужно оплачивать, но OpenAI официально не работает в России и не поддерживает российские банковские карты.
Максимальное разрешение — 1024 на 1024 пикселей, что больше чем у Kandinsky 2.1 и Stable Diffusion 2.1.

Особенности Stable Diffusion 2.1:

Существуют различные варианты использования приложения — можно даже скачать исходный код и накатить его себе на сервер. Мы оставили ссылку на облачную версию сервиса, которой можно пользоваться с браузера.
Широкие возможности кастомизации за счет разнообразных опций. Например, можно отрегулировать точность соответствия запросу, количество обработок изображения перед финальным рендером и так далее.
Максимальное разрешение — 768 на 768 пикселей, как у Kandinsky 2.1.

Зарубежные нейросети отвечают на запросы на всех языках, но лучше всего понимают запросы на английском. Для них мы будем писать запросы на русском и переводить их с помощью DeepL. Запросы к Kandinsky 2.1 писались на русском.

1 попытка

Запрос был: «Поле с ромашками, фотография сверху».

Kandinsky 2.1 (необработанный результат, объем — 212 КБайт).

Результат Kandinsky 2.1

Изображение слабо похоже на фотографию из за некоторых ромашек, которые размыты так, будто их нарисовали. Еще есть интересный артефакт: на поляне будто видна машинная колея. Выходит, что рядом растут гигантские ромашки и одуванчики. Почему здесь еще и одуванчики?

DALL·E 2 (изображение конвертировано из PNG в JPEG, конечный объем — 569 КБайт).

В отличие от Kandinsky 2.1, DALL·E 2 и Stable Diffusion сначала предлагают 4 варианта изображения.

Варианты от DALL·E 2

DALL·E 2 предложила 4 картинки, которые кажутся хорошими фотографиями. Если вглядываться в их качество, можно заметить дефекты, но в общем и целом изображения выглядят вполне сносно.

Результат DALL·E 2

Нейросеть изобразила ромашки с нужного мне ракурса. Но изображение все равно выглядит неестественным: местами у ромашек будто виден пух, а еще есть пара не очень заметных артефактов с полупрозрачными ромашками.

Stable Diffusion 2.1 (изображение конвертировано из JFIF в JPEG, конечный объем — 284 КБайт).

Stable Diffusion — ПО с открытым исходным кодом. Существует много клиентов и облачных сервисов для использования нейросети. Мы тестировали демо-версию, размещенную на платформе Hugging Face. Она генерирует картинку в разрешении 768 на 768 пикселей. На программную версию нейросети можно скачать апскейлер, который повысит качество изображения, но она это сделает неестественно. Поэтому урезанную версию Stable Diffusion вполне можно использовать для сравнения.

Варианты от Stable Diffusion

Сгенерированные варианты оказались сносными, но только при ближайшем рассмотрении. Нейросеть задала неправильный ракурс: я выдал неточный промпт, но другие сервисы меня поняли.

Результат Stable Diffusion 2.1

У Stable Diffusion тоже получилось не очень. А еще качество сгенерированной картинки оставляет желать лучшего.

2 попытка

На этот раз запрос был абстрактный: «Чувство храбрости».

Kandinsky 2.1 (необработанный результат, объем — 78,7 КБайт).

На этот раз Kandinsky 2.1 включила изобретательность и нарисовала целый постер к кино. Все нейросети криво генерируют подписи. Если не брать их во внимание Kandinsky 2.1 достойно справилась с задачей.

Результат Kandinsky 2.1

DALL·E 2 (изображение конвертировано из PNG в JPEG, конечный объем — 160 КБайт).

Забавно, что у DALL·E 2 храбрость ассоциируется с какими-то экстремальными видами спорта, а не чем-то еще. Только на втором изображении расположился какой-то жутковатый черный силуэт. Третье изображение выглядит слишком уж неестественным.

Варианты от DALL·E 2

Выбрал самый первый вариант. Изображение похоже на кадр из какого-то шутера на ПК. Как digital-арт выглядит неплохо, но отростки на пальцах придется убрать в Adobe Photoshop, а волосы на руке сверху выведены одним мазком.

Результат DALL·E 2

Stable Diffusion 2.1 (изображение конвертировано из JFIF в JPEG, конечный объем — 121 КБайт).

Stable Diffusion 2.1 попыталась сгенерировать какие-то постеры, выполненные в разной стилистике. Похоже на результаты всяких фотостоков, там абстрактные запросы обыгрываются так же. У нее почти получилось повторить запрос, который на английском пишется так: «a sense of courage».

Разместите
тендер бесплатно

Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.

Заполнить заявку 13514 тендеров
проведено за восемь лет работы нашего сайта.

Варианты от Stable Diffusion 2.1

Выбрал первый попавшийся вариант. С буквами мимо, но детализация достаточно хорошая. Как результат брейншторминга не годится.

Результат Stable Diffusion 2.1

3 попытка

3 запрос взял из сайта с промптами: «space suit with boots, futuristic, character design, cinematic lightning, epic fantasy, hyper realistic, detail 8k». В Kandinsky 2.1 загрузил перевод: «космический костюм с ботинками, футуристический, дизайн персонажа, кинематографическая молния, эпическая фантастика, гиперреалистичный, детализация 8k».

Kandinsky 2.1 (необработанный результат, объем — 60 КБайт).

Нейросеть выдала хороший результат. Изображение чуть проседает в качестве, но арт получился пригодным для дальнейшей доработки. Промпт нашел на сайте с промптами для Midjourney — там был стилистически схожий результат, показанный в качестве примера.

Результат Kandinsky 2.1

DALL·E 2 (изображение конвертировано из PNG в JPEG, конечный объем — 143 КБайт).

DALL·E 2 сфокусировалась на дизайне обуви, будто она Канье Вест. Ее результаты больше похожи на модели для компьютерных игр. Это интересно, поскольку результаты поисковой выдачи по запросу больше похожи на результат Kandinsky.

Варианты от DALL·E 2

При детальном рассмотрении итоговый результат выглядит лучше, чем у Kandinsky 2.1. Модель на изображении не замерла в картинной позе, но результат радует необычным дизайном костюма, который может вдохновить иллюстратора.

Результат DALL·E 2

Stable Diffusion 2.1 (изображение конвертировано из JFIF в JPEG, конечный объем — 94 КБайт).

На этот раз худшие варианты предложила Stable Diffusion. Ее космонавты получились неряшливо отрисованными, в худших традициях нейросетевого арта. Также ни на одном из изображений не видно ботинок.

Варианты от Stable Diffusion

Вот и выбранное изображение не радует ни исполнением, ни качеством. Изображение в целом получилось с плохим качеством — видны пиксельные квадраты.

Результат Stable Diffusion 2.1

Итог

Если отбросить тот факт, что Kandinsky 2.1 выдает один вариант изображения вместо четырех, можно сказать, что он работает хорошо. Тем более за бесплатно. Как и изображения других нейросетей, его результаты можно загрузить в апскейлер для повышения качества изображения.

Шедеврум

«Шедеврум» — приложение «Яндекса» на смартфоны Android и iOS со встроенной нейросетью для генерации изображений по пользовательскому запросу. В отличие от Kandinsky 2.1, «Шедеврум» не может похвастать широким функционалом. Зато она генерирует изображения в разрешении 1024 на 1024 пикселей.

Результат «Шедеврум» по пользовательскому запросу

Приложение — эдакая социальная сеть. Пользователи могут генерировать изображения и делиться ими в публичной ленте. Люди могут ставить лайки на посты других пользователей, на этом функционал взаимодействия с другими пользователями соцсети заканчивается.

На скриншоте видны 2 раздела публичной ленты, а также мой запрос для тестовой генерации изображения. Изображение будет генерироваться примерно 7 минут — дольше, чем в других сервисах

Я вводил запрос «логотип сайта Workspace» и результат оказался странным. Нейросеть создала пару типичных иллюстраций из стока, нарисовала планету, а также какой-то пейзаж с оленями. Предварительные изображения в начале доступны в разрешении 256 на 256 пикселей. После публикации изображения в публичную ленту, его разрешение поднимается до 1024 на 1024 пикселей, но на апскейл уходит еще несколько минут.

Результаты ответа на запрос и итоговое изображение. Предпочел выбрать планету, чтобы оценить детализацию

У «Шедеврум» есть ряд ограничений, запросы не должны:

включать имена реальных людей,
быть связанными с политикой и религией,
быть связанными с категорией «18+»,
касаться жестокости и насилия.

Сравнение Шедеврум и Kandinsky 2.1

Сравним отечественные нейросети на трех промптах. У изображений «Шедеврум» разрешение 1024 на 1024 пикселя. У Kandinsky 2.1 — 768 на 768 пикселей, чуть поменьше.

1 попытка

Промпт: «портретное фото, грим племенной пантеры, синее на красном, профиль сбоку, взгляд в сторону, серьезные глаза, портретная фотография 50 мм, фотография с жестким освещением».

Kandinsky 2.1, объем — 66 КБайт.

Нейросеть выдала достойный результат, который похож на отретушированную фотографию.

Результат Kandinsky 2.1

«Шедеврум» 1.05, объем — 390 КБайт.

Из-за более высокого разрешения, у «Шедеврум» получилась более четкая картинка. Лицо тоже выполнено очень хорошо.

Результат «Шедеврум»

2 попытка

Промпт: «визуально потрясающее и футуристическое изображение вашего объекта в фантастическом стиле Beeple, с сочетанием абстрактных и научно-фантастических элементов, замысловатых деталей и захватывающим исследованием технологии и цифрового искусства».

Kandinsky 2.1, объем — 73 КБайт.

Kandinsky выдал не очень четкое, но хорошее изображение, которое соответствует стилю художника.

Результат Kandinsky 2.1

«Шедеврум» 1.05, объем — 493 КБайт.

у «Шедеврум» не такое точное попадание в стилизацию и «зернистость» в отрисовке.

Результат «Шедеврум»

3 попытка

Промпт: «кадр фильма про киберпанк, 8 k ультра реалистичный, кинематографическое освещение, гиперреалистичный, сфокусированный, экстремальные детали, unreal engine 5.»

Kandinsky 2.1, объем — 49,6 КБайт.

Получилось хорошее изображение, но 3D-модель на иллюстрации устаревшая, с плохо проработанными деталями. Результат не соответствует запросу.

Результат Kandinsky 2.1

«Шедеврум» 1.05, объем — 620 КБайт.

Здесь тоже получился не кадр из кино, а иллюстрация с кривыми линиями. Выглядит неплохо, но не то.

Результат «Шедеврум»

В итоге, отечественные сервисы показали себя не хуже, чем зарубежные. Можно использовать и те, и те, отправляя один и тот же запрос по разным сервисам. Так вы с большей вероятностью получите нужный результат.

Выскажите мнение

Авторизуйтесь, чтобы добавить свой комментарий.

Дана Софронова

5 декабря

Интересный подход к использованию ИИ для генерации изображений! Прогресс в этой области поражает, и платформы вроде таких действительно открывают новые горизонты для творчества. https://airbrush.com/ru/image-enhancer Посетите веб-сайт, это мой любимый сервис, использующий ИИ для создания качественного контента.