September 28, 2023

Создание реалистичных изображений с помощью AI

Использование AI в digital-маркетинге. Часть 3: Опыт Mobio в создании реалистичных изображений с помощью AI

В прошлой статье команда Mobio рассмотрела потенциал AI для создания графических изображений в маркетинговых целях. А в этой поделимся результатами тестирования генеративных нейронных сетей по созданию реалистичных изображений для проектов Mobio. Как и в прошлой статье, для тестирования были выбраны два самых распространенных инструмента Midjournay и DALL-E.

Изображения знаменитостей и мемов

Первая задача заключалась в создании узнаваемых мемных изображений но без 100% их копирования, чтобы избежать юридических последствий использования.

Для теста мы попытались получить изображения Дуэйна Скалы Джонсона и известного мема с улыбающимся котом.

Midjourney

Получить мемное изображение Дуэйна Джонсона не составило труда как по текстовому запросу, так и с использованием исходного изображения. Что интересно, использование исходного изображения не всегда (менее чем в 50%) дает желаемый визуальный образ, но часто создает «основу сцены».

Чтобы получить качественный результат, в запрос, помимо основного описания, стоит добавлять «хвост» перечисляющий признаки хороших изображений.

Тут хочется отметить важную особенность — известных людей MJ генерирует с легкостью. В интернете сформировалось уже целое направление «что было бы если»: «Как выглядели бы персонажи Гарри Поттера, если бы были котами», «Посленовогодние персонажи Гарри Поттера», «Персонажи Властелина колец, если бы были котами», «Властелин колец в стиле Cyberpunk» и т.п.

С котом все оказалось немного сложнее.

Создание изображений с AI: оригинал картинки

Здесь однозначно пришлось использовать готовое изображение в качестве основы и пробовать разнообразные вариации запросов. Все котики получались очень милые и симпатичные, но сильно отличались от исходного изображения.

После множества попыток, все таки удалось получить интересный результат, подходящий под наши задачи ⬇️

DALL-E

Здесь нас ожидал абсолютный восторг. Эта сеть просто создана для пиратов копирайта). Взяв за основу исходные изображения, мы получили невероятно точные, но измененные варианты. DALL-E подхватил самые мелкие детали стиля оригинальных изображений и в точности, но с значительными изменениями, создал их варианты. В том же MJ у нас ушел не один запрос, а сцена и стилистика все равно сильно отличались.

Котик получился с первой попытки.

Дуэйн вышел чуть хуже, но в целом результат нас порадовал.

Создание креатива со сложной сценой

Следующая тестовая задача состояла в создании креатива со сложной сценой с человеком на заданную тему. Так как в нашей работе довольно часто бывают задачи, для которых сложно найти подходящие по сюжету фотографии на стоке.

Мы попытались получить изображение в стиле фотореализм по следующему описанию: уставшая женщина 40+ сидит на кухне, пьет чай и ест печенье, мрачные тона.

Midjourney

Несколько десятков попыток составить правильный запрос дали определенные результаты, но выявили ряд сложностей:

Для сложных сцен необходим референс, он нужен для построения общей сцены изображения.

С другой стороны, наиболее приемлемый результат удалось получить на основании только текстового описания. Имея в качестве базы картинку, MJ пытается повторить черты лица, позу и все остальное. В итоге результат более предсказуем, так как больше похож на исходное изображение, но качество «образа человека» сильно страдает.

Очень сложно сгенерировать что-то во рту. Мы пробовали разные запросы, подбирали референсы как основу, но получить приемлемый результат не удалось.

Еще одна большая, хорошо известная проблема MJ — руки и пальцы рук. Это уже в некоторой степени мем, как MJ рисует руки, а протестующие против использования AI художники площадки Artstation даже создали арт на эту тему ⬇️

После множества попыток, получить качественное изображение с нужной сценой у нас так и не получилось.

Интересно, что если убрать из запроса пункт про печенье, то результаты получаются намного лучше.

Из этого можно сделать вывод, что чем меньше нагружать сюжет, тем лучше результат можно получить.

DALL-E

Про DALL-E и расписывать нечего — результат близок, и даже хуже, чем у MJ. Лица искажены, мелкие, но важные элементы, присутствующие в запросе, также не сгенерированы. В построении сложных сцен DALL-E явно не силен.

Оценка результатов и выводы Mobio

Конечно, на примере всего нескольких задач делать серьезные выводы рано, но наше тестирование дало определенные результаты.

Что мы узнали:

Что касается генерации изображений известных личностей и мемов, то тут результат нас порадовал. Причем с этой задачей справились обе нейросети.

Явно просматривается корреляция “узнаваемый персонаж” – лучший результат. Также нейросети отлично справляются с генерацией изображений котиков и собачек. Но чем уникальнее запрос, тем хуже результат.

Получить нужный нам результат при генерации изображения со сложной сценой и человеком нам так и не удалось. Возможно проблема в сложности необходимого нам сюжета. Переизбыток деталей запутывает искусственный интеллект, что плохо сказывается на качестве результата.

Проблема с изображением рук пока не решена.

Практически невозможно заставить сеть сгенерировать что-то во рту.

Применение MJ на практике, выводы Mobio.

Для работы креативного отдела возможность создавать фотореалистичные изображения по четким референсам — отличная возможность для расширения креативных подходов.

Зачастую в голову креаторов приходят интересные, но трудозатратные в производстве идеи. Найти фотографию на стоке оказывается сложно, а использовать подходящее изображение из интернета не позволяют юридические ограничения.

Возможности MJ и DALL-E упрощают реализацию нестандартных идей, хотя инструменты все еще имеют ограничения.
Olga Mazur — Head of Creative, Mobio

Создание изображений с AI Создание изображений с AI

Создание реалистичных изображений с помощью AI

Изображения знаменитостей и мемов

Midjourney

DALL-E

Создание креатива со сложной сценой

Midjourney

DALL-E

Оценка результатов и выводы Mobio

Обсудим Проект?

Обсудим
Проект?