Нейросеть MidJourney. Инструкция к применению

Совсем недавно мне удалось пощупать руками нейросеть MidJourney, которая на основе текстового описания может нарисовать вам любую картину.

Конечно, это не убийца дизайнеров и иллюстраторов, как все привыкли говорить, но волшебные вещи она уже умеет делать всего за несколько минут.

Как шутили подписчики моего канала в комментариях: пока заказчики не научатся формулировать свои мысли — мы (дизайнеры) в безопасности.

Пока заказчики не научатся формулировать свои мысли — мы (дизайнеры) в безопасности.

Что умеет нейросеть

Нейросети можно скормить всё что угодно, но какие-то вещи она может проигнорировать. Например, для этой картинки prompt (текстовый запрос) звучал следующим образом:

portrait photo of a man with a beautiful symmetrical face, blue eyes, brown hair, white shirt, blue tie, sad face, halo, realistic, against the background of the Moscow metro, 50mm portrait photography

Промежуточные варианты, которые я развивал:

А вот итоговый рендер:

Итоговый рендер изображения в нейросети MidJourney

Как видите, мы лишились синего галстука, нимба и Московского метрополитена (хотя тут как посмотреть).

Но получили вполне приятного мужчину, грустного (как я и хотел), в белой рубашке, с голубыми глазами и русыми волосами, да еще и портрет! Надо чётче формулировать запросы.

Примечательно, что нейронка сгенерировала еще и шрам на левой брови, хотя об этом я ее не просил, видимо от этого он и грустит.

Предлагаю посмотреть на галерею изображений, которые мне удалось сгенерировать, а в конце покажу, какой потенциал есть.

Как получить доступ?

Нейронка пока не умеет общаться с пользователем напрямую, а только через бота в Discord, но получить к ней доступ не составит никакого труда.

  • Зарегистрируйтесь в Discord (если вас там нет)
  • Вступите на сервер MidJourney Discord
  • Зайдите в любую группу, которая начинается с «newbie-*«
  • Наберите в окне ввода сообщений команду / imagine
  • Когда появится окно с надписью prompt, вводите описание изображения на английском.

Тарифы и ограничения

В бесплатной версии вам доступно 25 изображений.

⚡️ Важно: любой клик с доработкой изображения — считается изображением. По факту у вас 25 бесплатных действий. Вы можете сгенерировать одну картинку, а улучшать её еще 24 раза.

Когда пробная версия закончится, вы можете оформить подписку:

  • 200 изображений — $10;
  • безлимит — $30.

Что дальше?

Когда вы попали на сервер в Discord и зашли в нужную комнату, вы можете начинать работу. Вводите команду /imagine, появится окно prompt, вводите туда текстовый запрос.

⚡️ Важно: формулировка задания должна быть на английском языке, если с этим сложно, то воспользуйтесь любым переводчиком.

Общение с нейросетью лучше всего производить посредством словаря, есть несколько сервисов для этого:

  • Prompt Helper — простой базовый помощник, сделан под первую версию, не учитывает все возможности;
  • Promptomania — продвинутый редактор, с возможностью добавления сцен из фильма, стиля художников и так далее;
  • Keyword reference — библиотека ключевых слов, которые работают с MidJourney на GitHub.

Текстовые запросы лучше всего вводить специальной конструкцией, но для первого раза можно и просто сформулировать описание из головы. Мужчина в московском метро выглядит вполне неплохо, если опустить момент, что некоторые вещи нейросеть не учла.

Конструкция выглядит следующим образом:

Объект :: Оптика :: Рендер
  • объект — что должно быть на изображении и что делает и как делает.
    То что для нас главнее на изображении — стоит первом в формулировке. Объектов разделенных двоеточием может быть несколько
  • оптика — фокусное расстояние, ракурс;
  • рендер — каким должен быть формат изображения. Например, размер. По умолчанию он 1:1, квадрат. Можно дописать в конце: —ar 16:9 или —ar 4:3

Синтаксис

  • двоеточия. В структуре запроса двоеточия говорят нейросети о том, что заканчивается логическая часть. В конце двоеточия поставьте число, чтобы распределить вес на изображении. Если числа не будет, то нейросеть распределит весь объектов поо всему изображению сама.
  • двойное короткое тире. Обычно это второстепенные параметры: соотношение сторон изображения (—ar 16:9, —ar 1:1) или конкретное разрешение изображения (—w 1920 —h 1080).

Например:

На первом изображении мы говорим, что должна быть какая-то утка, красного и синего цвета. Мы не сказали сколько уток, нейросеть отрисовала нам только одну, но так как красный стоял на первом месте — она заполнила большую часть изображения красным цветом. Соотношение сторон у изображения 16:9.

На втором примере мы придали вес. Речь также об одной утке, но вес у красного — 1, а у синего — минус 1, и синий цвет на изображении отсутствует напрочь. Соотношение сторон изображения 4:3.

Пример приоритетов MidJourney

Но такой формат «общения» не обязателен, иногда действительно из простого описания получаются иллюстрации необыкновенной красоты и реалистичности.

Например:

kneeling cat knight, portrait, finely detailed armor, intricate design, silver, silk, cinematic lighting, 4k,

Из этого prompt-запроса мы получаем вот такое качество иллюстрации:

Сгенерированное изображение нейросетью MidJourney

Все доступные команды для ввода ищите в хелперах по ссылкам выше и экспериментируйте!

Процесс генерации

После того, как вы написали задание для нейросети, она присылает вам 4 варианта изображения, чтобы понять, что вам необходимо.

Под изображением располагаются 8 кнопок в 2 ряда:

  • U1, U2, U3, U4 — это upscale. Нажимая на upscale вы просите нейросеть достать из этих четырех вариантов нужный вам и сделать более детализированное изображение.
  • V1, V2, V3, V4 — это variants. Нажимая на нужный вариант, вы говорите нейросети о том, чтобы она взяла это изображение и еще раз доработала его. Она пришлет вновь 4 изображения и так до бесконечности, пока вас не устроит результат.

Например

Даем задание:

a big burger house in the middle of the ocean and waves

Нейросеть присылает варианты:

Варианты изображения от MidJourney

Получаем на рендере:

Изображение сгенерированное нейросетью MidJourney

Если нас всё устроило, нажимаем волшебную кнопку «Upscale to Max», нейросеть доработает изображение до максимального. Открываете изображение, жмете «Открыть оригинал» и сохраняете.

В заключении

Когда говорят о таких нейросетях, частенько упоминают, что это «убийца дизайнеров». Пока это не так. Нейросети нужно еще обучать, нужны серьезные вычислительные мощности и она сложна для простых обывателей.

Но формулировкой запросов тоже должен кто-то заниматься. В сообществах уже поговаривают о новой профессии «prompt-дизайнер» или «координатор нейросети», осталось только дождаться.

Загляните в Figma-файл с выставкой нейронных картин, которые сгенерировали в нейросетях DALL-E 2 и MidJourney.

А еще посмотрите на пример генерации изображения от Пражской медиашколы.

В качестве бонуса — галерея из работ других пользователей, которую собирают у себя на сайте разработчики и работы ребят из комьюнити.

Гарнитура Gilroy приобретена в компании Паратайп в двух лицензиях "Веб" и "Десктоп".