Midjourney v5 – какво ново - Denitsa Vicheva

Как се представя най-новата версия на изкуствения интелект спрямо предишните

Midjourney е независима американска изследователска лаборатория, която се занимава с дизайн, софтуерни решения и изкуствен интелект. Чрез самофинансиране и малък екип от 11 души компанията разработва програма за генериране на изображения, чиято бета версия е представена през юли 2022 в платформата на Discord.

Midjourney е базиран на AI модел, използващ милиони съществуващи произведения на изкуството, за да създава детайлни изображения чрез подаване на текстови команди (text prompts). Midjourney е най-усъвършенстваният AI, достъпен за обществеността, и позволява на потребителите да генерират висококачествени изображения в реално време, спестявайки им време и ресурси.

Последната му версия 5 бе пусната на 16 март 2023. Ето и част от подобренията, които тази версия съдържа:

1. По-добро съответствие между текстови команди и изображения

*„Blue hair, noble and elegant appearance, streamlined clothing, metallic decorations, sparkling accessories, details emphasizing future“ – @Samoyed*

Официалният доклад от разработчиците посочва, че новата версия на Midjourney не е „толкова своеволна“ като предишните.

Докато при v4 по-късите текстови команди с по-малко подробности са предоставяли на Midjourney по-широко поле за креативна изява, при новата версия не е така – можете да си позволите да задавате по-подробни описания, включително на стила, обстановката и емоциите, които създава изходното изображение.

Това дава по-голям контрол върху очаквания резултат и по-ясно осезаема връзка между текстовата команда и гененрираното изображение.

2. Връщане на опцията –tile в текстовата команда

*„seamless repeating pattern, funny cartoon effects –v 5 –tile –ar 16:9 –upbeta –s 750 –v 5″ – Image #1 @Kikogirbes.art*

Една функционалност, която бе премахната във версия 4, но сега отново е налична.

Чрез добавянето на „–tile“ в текстовата команда Midjourney създава изображение с повтарящи се до безкрайност елементи, които могат да се използват като мотив или шаблон.

Тази „екстра“ на Midjourney ще бъде много полезна при създаване на нестандартни дизайни за дрехи, завеси, спално бельо, килими и друг вид текстил; за стикери за стена; арт пана; фото тапети и други интериорни решения.

3. По-голям избор на пропорции на изображенията

„night landscape of 1980’s Tokyo, wide-angle photo, shot with Kodak Ultramax 400, 4k, ar 2.39:1. –test –creative“ – @Sirawat Duangchan

При предходната версия на Midjourney пропорциите на изображенията не можеха да бъдат по-различни от 1:2 или 2:1, което ограничаваше възможностите за работа с модела.

Във версия 5 има опция потребителите сами да зададат желаните пропорции на изображенията чрез добавяне на аргумент „–ar“ в текстовата команда. Те могат да бъдат 1:3, 4:1 или всякакви други, които са необходими.

„mayan warriors spaceship coming down from the sky […] –ar 239:100“ @sarahzelaya

Това означава, че вече е възможно чрез Midjourney да се създават широкоформатни изображения като от киноекран. За такъв тип изображения се използва съотношение 2.39:1.

4. Добавена е „тежест“ на ъплоудваните изображения

Можете да качите изображение в Midjourney и да го съчетаете с текстова команда. Резултатът ще генерира ново изображение, което ще бъде комбинация между двете. Във версия 5 вече има възможност да се зададе „тежест“ или „степен на влияние“ на входящото изображение върху изходящото.

Това става като към промпта се добави аргумент „–iw“. Когато не е посоченa конкретна стойност на този параметър, по подразбиране той е –iw 0.25. Увеличаването на тази стойност усилва влиянието, което входящото изображение ще има върху крайния резултат. Аргументът приема цели числа от -10000 до 10000.

Ето и един пример за използването на тази функционалност:

Картина от Василий Кандински, използвана за image weight

Този пример от Midjourney показва нагледно каква е разликата при различните стойности на този параметър. Комбинацията е между картина на експресиониста Василий Кандински и текст „vibrant California poppies“.

С увеличаването на стойността на –iw изходящото изображение става по-абстрактно и придобива все по-характерни за стила на Кандински черти.

5. Пръстите на ръцете

При по-ранните версии Midjourney срещаше проблем при изобразяването на ръце и пръсти, което стана повод за доста шеги и мемета в мрежата. Едно от големите подобрения във версия 5 е, че моделът вече може да генерира правилния брой пръсти с нормално изглеждащи пропорции на ръцете.

При изобразяването на очите също има значително подобрение спрямо предходните версии.

6. Опция за стилизиране

„cute small dragon wearing kilt, magical forest, mystical, […] –ar 7:4 –stylize 1000“ – @stormtiki

Чрез аргумента stylize в текстовата команда може да се зададе степента на стилизиране на изходящото изображение. Стойност на аргумента stylize 0 задава фотографски стил на изображението, т.е. то ще бъде възможно най-реалистично. При стойност stylize 1000 резултатът ще бъде по-артистичен и с повече въображение.

7. По-реалистични и качествени изображения

Версия 5 на Midjourney внася нова доза реализъм в генерираните изображения като обръща повече внимание на един много важен детайл: отраженията на предметите в огледални или стъклени повърхности. Именно малки подробности като тази влияят върху цялостното ни възприятие и увеличават усещането за реалност.

Генерираните изображения са много по-качествени и детайлни – дотолкова, че вече спокойно могат да заменят професионалните фотографии.

Светлинните ефекти, сенките и отблясъците също са по-добри, по-логични и последователни. Двойно по-високата резолюция (до 1024х1024 пиксела) на изходящите изображения в новата версия на Midjourney ги прави по-ползваеми за различните маркетингови и рекламни цели на бизнеса.

Този реализъм прави възможно сливането на дизайна и фотографията с AI изкуството, а това е причина да се появи и нов термин: синтография (synthography).

Синтографията представлява метода за генериране на синтетични дигитални медии с помощта на изкуствен интелект и machine learning. Донякъде, синтографията е новият вид изкуство, станал възможен чрез AI; изкуствено създавана фотография. Вярвам, че синтографията ще бъде и една от новите професии на бъдещето.

Само една година и три версии по-късно, Midjourney сякаш се усъвършенства по-бързо, отколкото ние успяваме да се учим да работим с него. Версия 5 изглежда обещаващо – тя идва с по-малко усилия за редактиране на изображенията и с ултра реалистични фотографии. Остава въпросът на какво ли ще бъде способен този изкуствен интелект след още една година.