Сегодня 17 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google представила Gemini 3 Deep Think — мощный ИИ для науки, который всё ещё «подгоняет» задачи под ответ

Компания Google выпустила крупное обновление Gemini 3 Deep Think — платформы на основе рассуждающего искусственного интеллекта, предназначенной для решения актуальных задач в области науки и инженерного дела.

 Источник изображений: Google

Источник изображений: Google

Разработка новой версии Google Gemini 3 Deep Think велась совместно с учёными — сервис призван решать сложные исследовательские задачи, чьи аспекты могут не иметь чётких ограничений или единственного правильного решения, а сопутствующие данные — быть неполными или несистематическими. Обновлённая платформа Deep Think — это попытка выйти за рамки абстрактной теории и выйти в область практического применения. Новый режим доступен прямо в приложении Gemini, но воспользоваться им могут только подписчики Google AI Ultra; компания также впервые откроет доступ к сервису через API Gemini — инженерам, исследователям и предприятиям потребуется подать соответствующую заявку.

В тесте Humanity’s Last Exam платформа Google Gemini 3 Deep Think набрала 48,4 % без использования сторонних инструментов; результат в бенчмарке ARC-AGI-2 составил беспрецедентные 84,6 %. В тесте на программирование Codeforces рейтинг Эло составил 3455; в задачах Международной математической олимпиады 2025 года система показала уровень золотой медали, того же результата она достигла в решении задач олимпиад по химии и физике. В тесте CMT-Benchmark режим Google Gemini 3 Deep Think продемонстрировал высокий уровень владения теоретической физикой при результате 50,5 %.

Модель Gemini 3 Deep Think легла в основу ИИ-агента, который в лаборатории Google DeepMind получил название Aletheia. Он включает средство проверки гипотез, изложенных естественным языком, для выявления недостатков в предлагаемых решениях; предусмотрен итеративный процесс генерации и корректировки решений. Что важно, агент может признать свою неспособность дать ответ на запрос. Для работы со сложными исследованиями он обращается к поисковой службе Google и средствам веб-навигации — при подготовке сводок по опубликованной литературе он не выдаёт несуществующих ссылок и стремится избегать неточностей при вычислениях.

Фактические и перспективные уровни достижений Aletheia разработчики Google распределили по пяти градациям. В практически полностью автономном режиме ИИ-агент наметил пути решения трёх открытых задач, сформулированных математиком Палом Эрдёшем (Pál Erdős) — это исследование оценили на нулевом уровне, соответствующем «незначительной новизне». В том же режиме он предложил решение ещё одной задачи из того же набора, достигнув первого уровня или «минимальной новизны». На втором уровне, «пригодном для публикации» Aletheia показал результаты в автономном режиме, режиме сотрудничества с человеком и режиме вспомогательного инструмента. Третий («значительный прорыв») и четвёртый («знаменательный прорыв») ИИ-агенту пока не покорились.

По заданию разработчиков Aletheia проанализировал 700 нерешённых до сих пор математических задач Эрдёша и осилил 13 из них. Правда, у 9 задач нашлось уже существовавшее решение, а действительно впервые решёнными выглядят лишь 4 задачи. Более того, из 212 решений, которые выдал ИИ, оказались «содержательно правильными» лишь 6,5 %. Остальные либо имели фундаментальные недостатки (68,5 %), либо решали неправильно интерпретированные агентом версии исходных задач (31,5 %).

В результате разработчики согласились, что их ИИ демонстрирует «склонность неверно понимать вопрос таким образом, чтобы на него было легче ответить» и остаётся «крайне подверженным ошибкам по сравнению с людьми». Иными словами, заменить математиков ИИ пока не может.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Telegram внезапно нормально заработал в России — но только на Android и с Premium-подпиской 10 мин.
Mozilla анонсировала Thunderbolt — открытая платформа для запуска ИИ на локальных системах 13 мин.
OpenAI представила ИИ-модель GPT-Rosalind для учёных-биологов 16 мин.
Взрывной олдскульный боевик Huntdown: Overtime с привкусом VHS не заставит себя долго ждать — новый трейлер и дата выхода в раннем доступе Steam 21 мин.
Конференция OS DAY 2026 «Встроенные операционные системы, реальное время» 2 ч.
«Захотелось теперь отцом стать»: экспериментальный боевик Pragmata от Capcom стартовал в Steam с «крайне положительными» отзывами 2 ч.
Warhammer 40,000: Space Marine 2 превзошла «даже самые смелые мечты» издателя — на защиту Империума встали 12 миллионов космодесантников 3 ч.
МТС Exolve: как ставка на self-service за год изменила рынок коммуникаций для бизнеса 3 ч.
Надёжный инсайдер подтвердил дату выхода Assassin’s Creed Black Flag Resynced — Ubisoft показала неуловимый ремейк журналистам 5 ч.
ИИ-агент OpenAI Codex получил многие улучшения в новой версии 9 ч.
Первая миссия SpaceX на Марс: NASA утвердило запуск европейского ровера Rosalind Franklin 2 мин.
Создатель Netflix Рид Хастингс официально завершает работу в компании 12 мин.
Смартфоны Google Pixel 11 могут получить RGB-подсветку Pixel Glow на задней крышке 15 мин.
Google и Gucci выпустят дизайнерские умные очки в 2027 году 17 мин.
Xiaomi представила телевизоры Redmi TV A Pro 2026 — старшая 75" модель стоит меньше $500 4 ч.
Лояльность к iPhone превысила 96 % — пользователи Android готовы менять бренд почти в четыре раза чаще 4 ч.
Ветеран Apple, который выводил на рынок iPod, Watch и AirPods, уходит из компании после 31 года работы 4 ч.
Смартфон Huawei Mate 80 Pro с продвинутыми камерами и смарт-часы Watch GT Runner 2 для любителей бега поступили в продажу в России 4 ч.
Одноплатный компьютер Orange Pi Zero 3W получил чип Allwinner A733 и до 16 Гбайт ОЗУ 5 ч.
Intel наняла руководителя для своего контрактного бизнеса с опытом работы в Samsung 5 ч.