Создание реалистичных изображений с помощью AI
В прошлой статье команда Mobio рассмотрела потенциал AI для создания графических изображений в маркетинговых целях. А в этой поделимся результатами тестирования генеративных нейронных сетей по созданию реалистичных изображений для проектов Mobio. Как и в прошлой статье, для тестирования были выбраны два самых распространенных инструмента Midjournay и DALL-E.
Изображения знаменитостей и мемов
Первая задача заключалась в создании узнаваемых мемных изображений но без 100% их копирования, чтобы избежать юридических последствий использования.
Для теста мы попытались получить изображения Дуэйна Скалы Джонсона и известного мема с улыбающимся котом.
Midjourney
Получить мемное изображение Дуэйна Джонсона не составило труда как по текстовому запросу, так и с использованием исходного изображения. Что интересно, использование исходного изображения не всегда (менее чем в 50%) дает желаемый визуальный образ, но часто создает «основу сцены».
Чтобы получить качественный результат, в запрос, помимо основного описания, стоит добавлять «хвост» перечисляющий признаки хороших изображений.
Тут хочется отметить важную особенность — известных людей MJ генерирует с легкостью. В интернете сформировалось уже целое направление «что было бы если»: «Как выглядели бы персонажи Гарри Поттера, если бы были котами», «Посленовогодние персонажи Гарри Поттера», «Персонажи Властелина колец, если бы были котами», «Властелин колец в стиле Cyberpunk» и т.п.
С котом все оказалось немного сложнее.
Здесь однозначно пришлось использовать готовое изображение в качестве основы и пробовать разнообразные вариации запросов. Все котики получались очень милые и симпатичные, но сильно отличались от исходного изображения.
После множества попыток, все таки удалось получить интересный результат, подходящий под наши задачи ⬇️
DALL-E
Здесь нас ожидал абсолютный восторг. Эта сеть просто создана для пиратов копирайта). Взяв за основу исходные изображения, мы получили невероятно точные, но измененные варианты. DALL-E подхватил самые мелкие детали стиля оригинальных изображений и в точности, но с значительными изменениями, создал их варианты. В том же MJ у нас ушел не один запрос, а сцена и стилистика все равно сильно отличались.
Котик получился с первой попытки.
Дуэйн вышел чуть хуже, но в целом результат нас порадовал.
Создание креатива со сложной сценой
Следующая тестовая задача состояла в создании креатива со сложной сценой с человеком на заданную тему. Так как в нашей работе довольно часто бывают задачи, для которых сложно найти подходящие по сюжету фотографии на стоке.
Мы попытались получить изображение в стиле фотореализм по следующему описанию: уставшая женщина 40+ сидит на кухне, пьет чай и ест печенье, мрачные тона.
Midjourney
Несколько десятков попыток составить правильный запрос дали определенные результаты, но выявили ряд сложностей:
- Для сложных сцен необходим референс, он нужен для построения общей сцены изображения.
- С другой стороны, наиболее приемлемый результат удалось получить на основании только текстового описания. Имея в качестве базы картинку, MJ пытается повторить черты лица, позу и все остальное. В итоге результат более предсказуем, так как больше похож на исходное изображение, но качество «образа человека» сильно страдает.
- Очень сложно сгенерировать что-то во рту. Мы пробовали разные запросы, подбирали референсы как основу, но получить приемлемый результат не удалось.
- Еще одна большая, хорошо известная проблема MJ — руки и пальцы рук. Это уже в некоторой степени мем, как MJ рисует руки, а протестующие против использования AI художники площадки Artstation даже создали арт на эту тему ⬇️
После множества попыток, получить качественное изображение с нужной сценой у нас так и не получилось.
Интересно, что если убрать из запроса пункт про печенье, то результаты получаются намного лучше.
Из этого можно сделать вывод, что чем меньше нагружать сюжет, тем лучше результат можно получить.
DALL-E
Про DALL-E и расписывать нечего — результат близок, и даже хуже, чем у MJ. Лица искажены, мелкие, но важные элементы, присутствующие в запросе, также не сгенерированы. В построении сложных сцен DALL-E явно не силен.
Оценка результатов и выводы Mobio
Конечно, на примере всего нескольких задач делать серьезные выводы рано, но наше тестирование дало определенные результаты.
Что мы узнали:
- Что касается генерации изображений известных личностей и мемов, то тут результат нас порадовал. Причем с этой задачей справились обе нейросети.
- Явно просматривается корреляция “узнаваемый персонаж” – лучший результат. Также нейросети отлично справляются с генерацией изображений котиков и собачек. Но чем уникальнее запрос, тем хуже результат.
- Получить нужный нам результат при генерации изображения со сложной сценой и человеком нам так и не удалось. Возможно проблема в сложности необходимого нам сюжета. Переизбыток деталей запутывает искусственный интеллект, что плохо сказывается на качестве результата.
- Проблема с изображением рук пока не решена.
- Практически невозможно заставить сеть сгенерировать что-то во рту.
Применение MJ на практике, выводы Mobio.
Olga Mazur — Head of Creative, Mobio
Для работы креативного отдела возможность создавать фотореалистичные изображения по четким референсам — отличная возможность для расширения креативных подходов.
Зачастую в голову креаторов приходят интересные, но трудозатратные в производстве идеи. Найти фотографию на стоке оказывается сложно, а использовать подходящее изображение из интернета не позволяют юридические ограничения.
Возможности MJ и DALL-E упрощают реализацию нестандартных идей, хотя инструменты все еще имеют ограничения.
Создание изображений с AI Создание изображений с AI