Сегодня 09 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → chatgpt images

OpenAI выпустила ИИ-модель ChatGPT Images 2.0, которая отлично генерирует текст на картинках

OpenAI представила модель генерации изображений ChatGPT Images 2.0, которая впервые среди массовых ИИ корректно отрисовывает текст на картинках. Если два года назад диффузионные ИИ-модели не могли составить меню мексиканского ресторана без выдуманных слов вроде «enchuita» и «burrto», то новая модель создаёт изображения с надписями, пригодными к использованию без правок.

Ещё в 2024 году диффузионные ИИ-модели систематически искажали надписи. По словам Асмелаша Тека Хадгу (Asmelash Teka Hadgu), основателя и гендиректора Lesan AI, модели восстанавливают изображение из шума и усваивают паттерны, покрывающие основную массу пикселей, а текст занимает ничтожную долю площади.

 Слева — меню, сгенерированное ChatGPT Images 2.0: все надписи читаемы, ни одного выдуманного слова. Справа — три варианта от Microsoft Designer на основе DALL-E 3: «Enchidas», «Tamrielo», «Churiros», «Margartas» и десятки других искажений. Источник изображений: ChatGPT Images 2.0, Microsoft Designer (DALL-E 3) / techcrunch.com

Слева — меню, сгенерированное ChatGPT Images 2.0: все надписи читаемы, ни одного выдуманного слова. Справа — три варианта от Microsoft Designer на основе DALL-E 3: «Enchidas», «Tamrielo», «Churiros», «Margartas» и десятки других искажений. Источник изображений: ChatGPT Images 2.0, Microsoft Designer (DALL-E 3) / techcrunch.com

С тех пор исследователи опробовали альтернативные подходы — в частности, авторегрессионные модели, которые предсказывают содержание изображения и работают по принципу, близкому к большим языковым моделям (LLM).

OpenAI не раскрыла, какая архитектура лежит в основе Images 2.0. Компания пояснила лишь, что новинка умеет «рассуждать» — искать информацию в интернете, генерировать несколько изображений по одному запросу и перепроверять результаты. Благодаря этому Images 2.0 создаёт маркетинговые материалы в разных размерах и даже комиксы. У ИИ-модели также улучшена работа с нелатинскими шрифтами — японским, корейским, хинди и бенгальским. Однако знания Images 2.0 ограничены декабрём 2025 года, что может сказаться на точности генерации по запросам о недавних событиях.

 Источник изображения: ChatGPT Images 2.0 / openai.com

Источник изображения: ChatGPT Images 2.0 / openai.com

«Images 2.0 выводит детализацию и точность генерации на беспрецедентный уровень. Модель способна продумать сложную композицию и воплотить её на практике: следовать инструкциям, сохранять заданные детали и отрисовывать элементы, на которых обычно спотыкаются генераторы, — мелкий текст, пиктограммы, элементы интерфейса, насыщенные композиции и тонкие стилистические ограничения, — и всё это в разрешении до 2K», — говорится в пресс-релизе компании. Генерация при этом занимает больше времени, чем обычный текстовый запрос к ChatGPT, но даже многопанельный комикс укладывается в несколько минут.

 Источник изображения: ChatGPT Images 2.0 / openai.com

Источник изображения: ChatGPT Images 2.0 / openai.com

Доступ к Images 2.0 получат все пользователи ChatGPT и Codex. Платные подписчики смогут генерировать более сложные изображения. OpenAI также откроет программный интерфейс (API) gpt-image-2 — стоимость будет зависеть от качества и разрешения выходных изображений.

OpenAI выпустила генератор изображений ChatGPT Images 1.5 — более высокая скорость и новые возможности

На прошлой неделе OpenAI выпустила модель искусственного интеллекта GPT-5.2, а теперь она стала основой фирменного генератора изображений ChatGPT Images 1.5. По словам разработчиков, это позволило в четыре раза повысить скорость работы сервиса по сравнению с предыдущей версией, а также реализовать несколько полезных нововведений.

 Источник изображения: ChatGPT Images

Источник изображения: ChatGPT Images

ChatGPT Images стал лучше следовать пользовательским инструкциям, в том числе в случаях, когда дело доходит до редактирования только что созданного изображения. Пользователь может попросить алгоритм добавить, убрать, объединить, смешать или даже перенести какие-то элементы на картинке. OpenAI заявила, что обновлённый ChatGPT Images лучше справляется с отображением текста, что традиционно является слабым местом многих генераторов изображений. По данным OpenAI, повысилось качество генерации читаемого текста, а также появилась возможность работы с более мелким и плотным тестом.

В рамках этого обновления фирменного генератора изображения OpenAI добавила в боковую панель ChatGPT отдельный раздел Images. В нём собраны готовые к использованию фильтры и промпты, призванные помочь в поиске вдохновения. «Мы считаем, что всё ещё находимся в самом начале пути к тому, что может дать генерация изображений. Сегодняшнее обновление — это значительный шаг вперёд, и впереди нас ждёт многое: от более детальных правок до более насыщенных и подробных результатов на разных языках», — говорится в сообщении OpenAI.

Разработчики приступили к развёртыванию ChatGPT Images 1.5 и в скором времени обновлённая версия сервиса станет доступна всем пользователям. Отмечается, что пользователи также смогут продолжить взаимодействие с моделью GPT-4o через пользовательский интерфейс чат-бота компании.

Новый ChatGPT Images появляется как раз в тот момент, когда его главный конкурент Google Nano Banana Pro вызвал всплеск популярности Gemini среди пользователей. В октябре Google заявила, что пользовательская база фирменного чат-бота выросла до 650 млн человек, что существенно больше 450 млн человек, о которых компания сообщала в июле. Nano Banana Pro оказалась настолько популярной, что Google для снижения нагрузки на инфраструктуру пришлось ограничить бесплатных пользователей всего двумя генерациями изображений в день. Для OpenAI, вероятно, было не столь важно дать сильный ответ на появление Nano Banana Pro, сколько обеспечить сильную конкуренцию чат-боту Gemini 3 Pro. Это связано с тем, что наличие в арсенале компании ChatGPT Images является одним из основных факторов, обеспечивающих ИИ-боту ChatGPT пользовательскую базу в 800 млн человек.


window-new
Soft
Hard
Тренды 🔥
Anthropic отучила свой ИИ шантажировать пользователей при угрозе отключения 2 ч.
Microsoft улучшила работу Windows 11 с тачпадом и сенсорной клавиатурой, а также повысила стабильность «Проводника» 3 ч.
Пользователей Instagram лишили сквозного шифрования в личных сообщениях 4 ч.
ИИ всё чаще пишет научные статьи — отличить от человеческих становится невозможно, и это пугает 6 ч.
ИИ-модель OpenAI GPT-5.5 оказалась в 1,5–2 раза дороже предшественницы 6 ч.
Департамент DOGE Илона Маска использовал ChatGPT глупым и незаконным способом 9 ч.
Новая статья: Saros — исправление ошибок, которых не было. Рецензия 20 ч.
«Мощный инструмент, но не замена художников и творцов»: руководство Sony прояснило использование генеративного ИИ в играх PlayStation 22 ч.
Роскомнадзор заявил, что не ограничивал доступ к GitHub 08-05 19:52
Шпионский боевик 007 First Light от создателей Hitman получил системные требования для игры в 4K, а трассировку пути придётся подождать 08-05 19:44
Разработчик технологии квантовых точек для телевизоров показал недостатки панелей RGB LED 2 ч.
В США расследуют аварии с участием роботакси Avride, ранее входившей в «Яндекс» 4 ч.
Жители США бунтуют против дата-центров — запреты множатся по всей стране 4 ч.
Китайцы научились из отходов и сточных вод одновременно получать водород и поглощать CO2 6 ч.
Sony призналась, что ещё не решила, когда и по какой цене выпустит PlayStation 6 6 ч.
Lian Li выпустила СЖО с 6,67-дюймовым изогнутым дисплеем — HydroShift II OLED Curved 360 AIO 6 ч.
Завершены первые огневые испытания новой версии ускорителя Super Heavy — SpaceX готова к запуску Starship V3 6 ч.
Слишком большой ЦОД для маленькой страны — создание гигаваттного дата-центра Microsoft в Кении застопорилось из-за нехватки электроэнергии 6 ч.
Mitsubishi Heavy Industries модернизирует производство газовых турбин, чтобы удовлетворить спрос операторов ИИ ЦОД 6 ч.
NASA испытало лопасти будущего марсианского вертолёта сверхзвуковой скоростью вращения 11 ч.