OpenAI запускает генерацию изображений GPT-4o с улучшенным отображением текста и инструкциями, которые следуют за

Выпущенный около года назад OpenAI GPT-4 был доработан и дополнен новыми функциями. Новейшим достижением является генерация изображений – модель искусственного интеллекта может генерировать высококачественные, детализированные изображения и, следуя вашим инструкциям на естественном языке, изменять их до тех пор, пока вы не получите именно то изображение, которое рисовали в своей голове.

Вы знаете, как старые модели ИИ боролись с текстом – если вы попросите их сгенерировать знак, в лучшем случае вы получите знак с непонятными словами, в худшем - закорючки, которые даже буквами не являются. Но посмотрите на это:

GPT-4o can create images with perfectly legible text GPT-4o can create images with perfectly legible text GPT-4o can create images with perfectly legible text
GPT-4o can create images with perfectly legible text

Создание изображения обычно начинается с ввода текстового запроса, затем вы улучшаете изображение, уточняя исходный запрос. GPT-4o работает по–другому - вы запрашиваете у него изображение, затем говорите, что нужно изменить, затем просите изменить еще что-то и так далее, пока не получите результат. Вот несколько примеров:

Generating and modifying an image through plain English Generating and modifying an image through plain English Generating and modifying an image through plain English Generating and modifying an image through plain English
Generating and modifying an image through plain English

Вы можете перейти по ссылке на исходный код ниже, чтобы ознакомиться с подсказками, с помощью которых были созданы эти изображения. Обратите внимание, что в OpenAI были сделаны некоторые выводы – многие изображения являются “лучшими из 2” или даже “лучшими из 8”, поэтому модели потребовалось несколько попыток, чтобы все получилось правильно. Тем не менее, результаты выглядят довольно впечатляюще, а пользовательский интерфейс максимально прост.

Вот еще один пример. GPT-4o может начать с нуля или изменить изображение, которое вы ему предоставите. Здесь пользователь предоставляет ему фотографию кошки и просит ИИ выдать ему шляпу детектива и монокль. Затем пользователь приступает к доработке изображения, превращая его в нечто, что может быть скриншотом из RPG.

Prototyping a cat detective RPG Prototyping a cat detective RPG Prototyping a cat detective RPG Prototyping a cat detective RPG Prototyping a cat detective RPG
Prototyping a cat detective RPG

Вы также можете начать с нескольких изображений и интегрировать элементы из каждого изображения в конечный результат. OpenAI утверждает, что GPT-4o отлично справляется с выполнением подробных инструкций – он может манипулировать 10-20 различными объектами в сцене без сбоев (другие модели искусственного интеллекта могут обрабатывать только 5-8 объектов, утверждает компания).

GPT-4o несовершенен, и OpenAI первым признал это. Иногда он обрезает изображения внизу, по-прежнему возникают галлюцинации, работа с более чем 10-20 объектами может быть сложной, для рендеринга текста с нелатинскими символами также требуется доработка и даже больше.

Examples of GPT-4o getting it wrong Examples of GPT-4o getting it wrong Examples of GPT-4o getting it wrong Examples of GPT-4o getting it wrong
Examples of GPT-4o getting it wrong

Наконец, вот несколько видео-демонстраций, демонстрирующих новые возможности GPT-4o в области создания изображений:

Source