Сегодня 29 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → chatgpt images

OpenAI выпустила ИИ-модель ChatGPT Images 2.0, которая отлично генерирует текст на картинках

OpenAI представила модель генерации изображений ChatGPT Images 2.0, которая впервые среди массовых ИИ корректно отрисовывает текст на картинках. Если два года назад диффузионные ИИ-модели не могли составить меню мексиканского ресторана без выдуманных слов вроде «enchuita» и «burrto», то новая модель создаёт изображения с надписями, пригодными к использованию без правок.

Ещё в 2024 году диффузионные ИИ-модели систематически искажали надписи. По словам Асмелаша Тека Хадгу (Asmelash Teka Hadgu), основателя и гендиректора Lesan AI, модели восстанавливают изображение из шума и усваивают паттерны, покрывающие основную массу пикселей, а текст занимает ничтожную долю площади.

 Слева — меню, сгенерированное ChatGPT Images 2.0: все надписи читаемы, ни одного выдуманного слова. Справа — три варианта от Microsoft Designer на основе DALL-E 3: «Enchidas», «Tamrielo», «Churiros», «Margartas» и десятки других искажений. Источник изображений: ChatGPT Images 2.0, Microsoft Designer (DALL-E 3) / techcrunch.com

Слева — меню, сгенерированное ChatGPT Images 2.0: все надписи читаемы, ни одного выдуманного слова. Справа — три варианта от Microsoft Designer на основе DALL-E 3: «Enchidas», «Tamrielo», «Churiros», «Margartas» и десятки других искажений. Источник изображений: ChatGPT Images 2.0, Microsoft Designer (DALL-E 3) / techcrunch.com

С тех пор исследователи опробовали альтернативные подходы — в частности, авторегрессионные модели, которые предсказывают содержание изображения и работают по принципу, близкому к большим языковым моделям (LLM).

OpenAI не раскрыла, какая архитектура лежит в основе Images 2.0. Компания пояснила лишь, что новинка умеет «рассуждать» — искать информацию в интернете, генерировать несколько изображений по одному запросу и перепроверять результаты. Благодаря этому Images 2.0 создаёт маркетинговые материалы в разных размерах и даже комиксы. У ИИ-модели также улучшена работа с нелатинскими шрифтами — японским, корейским, хинди и бенгальским. Однако знания Images 2.0 ограничены декабрём 2025 года, что может сказаться на точности генерации по запросам о недавних событиях.

 Источник изображения: ChatGPT Images 2.0 / openai.com

Источник изображения: ChatGPT Images 2.0 / openai.com

«Images 2.0 выводит детализацию и точность генерации на беспрецедентный уровень. Модель способна продумать сложную композицию и воплотить её на практике: следовать инструкциям, сохранять заданные детали и отрисовывать элементы, на которых обычно спотыкаются генераторы, — мелкий текст, пиктограммы, элементы интерфейса, насыщенные композиции и тонкие стилистические ограничения, — и всё это в разрешении до 2K», — говорится в пресс-релизе компании. Генерация при этом занимает больше времени, чем обычный текстовый запрос к ChatGPT, но даже многопанельный комикс укладывается в несколько минут.

 Источник изображения: ChatGPT Images 2.0 / openai.com

Источник изображения: ChatGPT Images 2.0 / openai.com

Доступ к Images 2.0 получат все пользователи ChatGPT и Codex. Платные подписчики смогут генерировать более сложные изображения. OpenAI также откроет программный интерфейс (API) gpt-image-2 — стоимость будет зависеть от качества и разрешения выходных изображений.

OpenAI выпустила генератор изображений ChatGPT Images 1.5 — более высокая скорость и новые возможности

На прошлой неделе OpenAI выпустила модель искусственного интеллекта GPT-5.2, а теперь она стала основой фирменного генератора изображений ChatGPT Images 1.5. По словам разработчиков, это позволило в четыре раза повысить скорость работы сервиса по сравнению с предыдущей версией, а также реализовать несколько полезных нововведений.

 Источник изображения: ChatGPT Images

Источник изображения: ChatGPT Images

ChatGPT Images стал лучше следовать пользовательским инструкциям, в том числе в случаях, когда дело доходит до редактирования только что созданного изображения. Пользователь может попросить алгоритм добавить, убрать, объединить, смешать или даже перенести какие-то элементы на картинке. OpenAI заявила, что обновлённый ChatGPT Images лучше справляется с отображением текста, что традиционно является слабым местом многих генераторов изображений. По данным OpenAI, повысилось качество генерации читаемого текста, а также появилась возможность работы с более мелким и плотным тестом.

В рамках этого обновления фирменного генератора изображения OpenAI добавила в боковую панель ChatGPT отдельный раздел Images. В нём собраны готовые к использованию фильтры и промпты, призванные помочь в поиске вдохновения. «Мы считаем, что всё ещё находимся в самом начале пути к тому, что может дать генерация изображений. Сегодняшнее обновление — это значительный шаг вперёд, и впереди нас ждёт многое: от более детальных правок до более насыщенных и подробных результатов на разных языках», — говорится в сообщении OpenAI.

Разработчики приступили к развёртыванию ChatGPT Images 1.5 и в скором времени обновлённая версия сервиса станет доступна всем пользователям. Отмечается, что пользователи также смогут продолжить взаимодействие с моделью GPT-4o через пользовательский интерфейс чат-бота компании.

Новый ChatGPT Images появляется как раз в тот момент, когда его главный конкурент Google Nano Banana Pro вызвал всплеск популярности Gemini среди пользователей. В октябре Google заявила, что пользовательская база фирменного чат-бота выросла до 650 млн человек, что существенно больше 450 млн человек, о которых компания сообщала в июле. Nano Banana Pro оказалась настолько популярной, что Google для снижения нагрузки на инфраструктуру пришлось ограничить бесплатных пользователей всего двумя генерациями изображений в день. Для OpenAI, вероятно, было не столь важно дать сильный ответ на появление Nano Banana Pro, сколько обеспечить сильную конкуренцию чат-боту Gemini 3 Pro. Это связано с тем, что наличие в арсенале компании ChatGPT Images является одним из основных факторов, обеспечивающих ИИ-боту ChatGPT пользовательскую базу в 800 млн человек.


window-new
Soft
Hard
Тренды 🔥
«Как в оригинальной игре, но больше и лучше»: разработчики ремейка «Готики» рассказали об особенностях боевой системы 2 ч.
Gartner: большинство кастомных ИИ-моделей и проектов генеративного ИИ ожидает провал 3 ч.
Fable всё-таки не выйдет в 2026 году — в том числе из-за GTA VI 3 ч.
Ролевая игра The Witch's Bakery подружит геймеров с общительной ведьмой-пекарем из Парижа — релиз намечен на август 5 ч.
Дополнение «Баллады прошлого» к The Witcher 3 станет «прологом» к будущему «Ведьмака» 5 ч.
Кроссовер с Clair Obscur, онлайн-кооператив и элементы 3D: инсайдеры поделились новыми подробностями ремейка Rayman Legends 6 ч.
Стартап Shift предложил бесплатную уборку домов ради обучения роботов 7 ч.
Project Lightwell: IBM и Red Hat предложили корпорациям скинуться на патчи безопасности для open source ПО и сами вложат $5 млрд 7 ч.
Фирма случайно спустила $500 млн на Anthropic Claude всего за месяц 8 ч.
В «Google Фото» появятся новые средства управления «Воспоминаниями» 9 ч.
Acer представила пятёрку игровых мониторов Predator и Nitro с частотой обновления до 540 Гц и разрешением до 4K 2 ч.
FuriosaAI и Broadcom создадут ИИ-ускоритель для платформы инференса для агентной эры 2 ч.
Dell представила самый лёгкий ноутбук XPS — килограммовый XPS 13 c Intel Wildcat Lake и ценой от $599 3 ч.
Утечка показала iPhone 18 Pro в цвете «Тёмная вишня» — он может стать новым трендом для Android 3 ч.
ASRock выпустит видеокарту Radeon RX 9070 XT Taichi 10th Anniversary Edition по случаю 10-летия бренда Taichi 4 ч.
Acer показала портативную консоль Nitro Blaze Link для трансляции игр с ПК по Wi-Fi 4 ч.
Acer представила «доступный всем» игровой ноутбук Nitro 16 с Ryzen 9 9955HX3D и GeForce RTX 5070 Ti 4 ч.
Acer представила флагманский игровой ноутбук Predator Helios 18 с чипами Core Ultra 9 290HX и RTX 5090 4 ч.
Работа МКС будет продлена до 2030 года, даже если Россия уйдёт со станции 4 ч.
TSMC: чистая производительность чипов больше не главное — приоритетом стала энергоэффективность 5 ч.