Нейросеть MidJourney. Инструкция к применению
Совсем недавно мне удалось пощупать руками нейросеть MidJourney, которая на основе текстового описания может нарисовать вам любую картину.
Конечно, это не убийца дизайнеров и иллюстраторов, как все привыкли говорить, но волшебные вещи она уже умеет делать всего за несколько минут.
Как шутили подписчики моего канала в комментариях: пока заказчики не научатся формулировать свои мысли — мы (дизайнеры) в безопасности.
Пока заказчики не научатся формулировать свои мысли — мы (дизайнеры) в безопасности.
Что умеет нейросеть
Нейросети можно скормить всё что угодно, но какие-то вещи она может проигнорировать. Например, для этой картинки prompt (текстовый запрос) звучал следующим образом:
Промежуточные варианты, которые я развивал. Версия Midjourney — 1.
А вот итоговый рендер:
Как видите, мы лишились синего галстука, нимба и Московского метрополитена (хотя тут как посмотреть).
Но получили вполне приятного мужчину, грустного (как я и хотел), в белой рубашке, с голубыми глазами и русыми волосами, да еще и портрет! Надо чётче формулировать запросы.
Примечательно, что нейронка сгенерировала еще и шрам на левой брови, хотя об этом я ее не просил, видимо от этого он и грустит.
UPD: 23 апреля 2023. Нейронка очень сильно развивается и по тому же prompt-запросу сгенерированы изображения в 4-й и 5-й версии.
Версия 4
Версия 5
Предлагаю посмотреть на галерею изображений, которые мне удалось сгенерировать, а в конце покажу, какой потенциал есть.
Как получить доступ?
Нейронка пока не умеет общаться с пользователем напрямую, а только через бота в Discord, но получить к ней доступ не составит никакого труда.
- Зарегистрируйтесь в Discord (если вас там нет)
- Вступите на сервер MidJourney Discord
- Зайдите в любую группу, которая начинается с «newbie-*«
- Наберите в окне ввода сообщений команду / imagine
- Когда появится окно с надписью prompt, вводите описание изображения на английском.
Тарифы и ограничения
⚡️ UPD от 2 апреля 2023. MidJourey запретил доступ к бесплатной генерации изображения, теперь только платные тарифы.
Вы можете оформить подписку:
- 200 изображений — $10;
- безлимит — $30.
Что дальше?
Когда вы попали на сервер в Discord и зашли в нужную комнату, вы можете начинать работу. Вводите команду /imagine, появится окно prompt, вводите туда текстовый запрос.
⚡️ Важно: формулировка задания должна быть на английском языке, если с этим сложно, то воспользуйтесь любым переводчиком.
Общение с нейросетью лучше всего производить посредством словаря, есть несколько сервисов для этого:
- Prompt Helper — простой базовый помощник, сделан под первую версию, не учитывает все возможности;
- Promptomania — продвинутый редактор, с возможностью добавления сцен из фильма, стиля художников и так далее;
- Keyword reference — библиотека ключевых слов, которые работают с MidJourney на GitHub.
Текстовые запросы лучше всего вводить специальной конструкцией, но для первого раза можно и просто сформулировать описание из головы. Мужчина в московском метро выглядит вполне неплохо, если опустить момент, что некоторые вещи нейросеть не учла.
Конструкция выглядит следующим образом:
Объект :: Оптика :: Рендер
- объект — что должно быть на изображении и что делает и как делает.
То что для нас главнее на изображении — стоит первом в формулировке. Объектов разделенных двоеточием может быть несколько - оптика — фокусное расстояние, ракурс;
- рендер — каким должен быть формат изображения. Например, размер. По умолчанию он 1:1, квадрат. Можно дописать в конце: —ar 16:9 или —ar 4:3
Синтаксис
- двоеточия. В структуре запроса двоеточия говорят нейросети о том, что заканчивается логическая часть. В конце двоеточия поставьте число, чтобы распределить вес на изображении. Если числа не будет, то нейросеть распределит весь объектов поо всему изображению сама.
- двойное короткое тире. Обычно это второстепенные параметры: соотношение сторон изображения (—ar 16:9, —ar 1:1) или конкретное разрешение изображения (—w 1920 —h 1080).
Например:
На первом изображении мы говорим, что должна быть какая-то утка, красного и синего цвета. Мы не сказали сколько уток, нейросеть отрисовала нам только одну, но так как красный стоял на первом месте — она заполнила большую часть изображения красным цветом. Соотношение сторон у изображения 16:9.
На втором примере мы придали вес. Речь также об одной утке, но вес у красного — 1, а у синего — минус 1, и синий цвет на изображении отсутствует напрочь. Соотношение сторон изображения 4:3.
Но такой формат «общения» не обязателен, иногда действительно из простого описания получаются иллюстрации необыкновенной красоты и реалистичности.
Например:
kneeling cat knight, portrait, finely detailed armor, intricate design, silver, silk, cinematic lighting, 4k,
Из этого prompt-запроса мы получаем вот такое качество иллюстрации:
Все доступные команды для ввода ищите в хелперах по ссылкам выше и экспериментируйте!
Процесс генерации
После того, как вы написали задание для нейросети, она присылает вам 4 варианта изображения, чтобы понять, что вам необходимо.
Под изображением располагаются 8 кнопок в 2 ряда:
- U1, U2, U3, U4 — это upscale. Нажимая на upscale вы просите нейросеть достать из этих четырех вариантов нужный вам и сделать более детализированное изображение.
- V1, V2, V3, V4 — это variants. Нажимая на нужный вариант, вы говорите нейросети о том, чтобы она взяла это изображение и еще раз доработала его. Она пришлет вновь 4 изображения и так до бесконечности, пока вас не устроит результат.
Например
Даем задание:
a big burger house in the middle of the ocean and waves
Нейросеть присылает варианты:
Получаем на рендере:
Если нас всё устроило, нажимаем волшебную кнопку «Upscale to Max», нейросеть доработает изображение до максимального. Открываете изображение, жмете «Открыть оригинал» и сохраняете.
В заключении
Когда говорят о таких нейросетях, частенько упоминают, что это «убийца дизайнеров». Пока это не так. Нейросети нужно еще обучать, нужны серьезные вычислительные мощности и она сложна для простых обывателей.
Но формулировкой запросов тоже должен кто-то заниматься. В сообществах уже поговаривают о новой профессии «prompt-дизайнер» или «координатор нейросети», осталось только дождаться.
Загляните в Figma-файл с выставкой нейронных картин, которые сгенерировали в нейросетях DALL-E 2 и MidJourney.
А еще посмотрите на пример генерации изображения от Пражской медиашколы.
В качестве бонуса — галерея из работ других пользователей, которую собирают у себя на сайте разработчики и работы ребят из комьюнити.