Выпущенный около года назад OpenAI GPT-4 был доработан и дополнен новыми функциями. Новейшим достижением является генерация изображений – модель искусственного интеллекта может генерировать высококачественные, детализированные изображения и, следуя вашим инструкциям на естественном языке, изменять их до тех пор, пока вы не получите именно то изображение, которое рисовали в своей голове.
Вы знаете, как старые модели ИИ боролись с текстом – если вы попросите их сгенерировать знак, в лучшем случае вы получите знак с непонятными словами, в худшем - закорючки, которые даже буквами не являются. Но посмотрите на это:
GPT-4o can create images with perfectly legible text
Создание изображения обычно начинается с ввода текстового запроса, затем вы улучшаете изображение, уточняя исходный запрос. GPT-4o работает по–другому - вы запрашиваете у него изображение, затем говорите, что нужно изменить, затем просите изменить еще что-то и так далее, пока не получите результат. Вот несколько примеров:
Generating and modifying an image through plain English
Вы можете перейти по ссылке на исходный код ниже, чтобы ознакомиться с подсказками, с помощью которых были созданы эти изображения. Обратите внимание, что в OpenAI были сделаны некоторые выводы – многие изображения являются “лучшими из 2” или даже “лучшими из 8”, поэтому модели потребовалось несколько попыток, чтобы все получилось правильно. Тем не менее, результаты выглядят довольно впечатляюще, а пользовательский интерфейс максимально прост.
Вот еще один пример. GPT-4o может начать с нуля или изменить изображение, которое вы ему предоставите. Здесь пользователь предоставляет ему фотографию кошки и просит ИИ выдать ему шляпу детектива и монокль. Затем пользователь приступает к доработке изображения, превращая его в нечто, что может быть скриншотом из RPG.
Prototyping a cat detective RPG
Вы также можете начать с нескольких изображений и интегрировать элементы из каждого изображения в конечный результат. OpenAI утверждает, что GPT-4o отлично справляется с выполнением подробных инструкций – он может манипулировать 10-20 различными объектами в сцене без сбоев (другие модели искусственного интеллекта могут обрабатывать только 5-8 объектов, утверждает компания).
GPT-4o несовершенен, и OpenAI первым признал это. Иногда он обрезает изображения внизу, по-прежнему возникают галлюцинации, работа с более чем 10-20 объектами может быть сложной, для рендеринга текста с нелатинскими символами также требуется доработка и даже больше.
Examples of GPT-4o getting it wrong
Наконец, вот несколько видео-демонстраций, демонстрирующих новые возможности GPT-4o в области создания изображений: