Сегодня 27 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic намерена понять, как работают внутренние механизмы ИИ-моделей

На этой неделе гендиректор Anthropic Дарио Амодеи (Dario Amodei) опубликовал статью, в которой поднял вопрос того, насколько мало исследователи понимают внутренние механизмы передовых моделей искусственного интеллекта. Он поставил перед Anthropic амбициозную задачу — надёжно выявлять большую часть проблем в ИИ-моделях к 2027 году.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Амодеи признал, что перед его компанией стоит непростая задача. Однако разработчики из Anthropic уже добились некоторых успехов в отслеживании того, как ИИ-модели приходят к ответам, которые они дают на пользовательские запросы. Отмечается, что для расшифровки механизмов работы ИИ-алгоритмов по мере роста их мощности требуется проведение большего количества исследований.

«Я очень обеспокоен развёртыванием таких систем без улучшения понимания интерпретируемости. Эти системы будут занимать центральное место в экономике, технологиях и национальной безопасности, и они будут обладать настолько высокой степенью автономности, что я считаю недопустимым для человечества полное незнание того, как они работают», — сказано в статье Амодеи.

Anthropic является одним из первопроходцев в сфере механической интерпретируемости — направлении, стремящемся открыть «чёрный ящик» ИИ-моделей и понять, почему нейросети принимают те или иные решения. Несмотря на стремительное повышение производительности ИИ-моделей в технологической отрасли, люди всё ещё имеют слабое представление о том, как ИИ-модели принимают решения. К примеру, недавно OpenAI запустила более производительные алгоритмы o3 и 04-mini, которые лучше справляются с некоторыми задачами, но чаще галлюцинируют по сравнению с другими ИИ-моделями компании. На данный момент разработчикам неизвестно, почему это происходит.

«Когда генеративная ИИ-система делает что-то, например, обобщает финансовый документ, мы не имеем ни малейшего представления на конкретном или точном уровне, почему она делает тот или иной выбор, почему она выбирает одни слова, а не другие, или почему она иногда ошибается, хотя обычно бывает точна», — пишет Амодеи.

Глава Anthropic уверен, что создание так называемого сильного ИИ (AGI), который по возможностям будет сравним с человеком или превзойдёт его, может быть очень опасным без чёткого понимания, как работают ИИ-модели. Ранее Амодеи говорил, что человечество сможет достичь такого понимания к 2026-2027 годам, но теперь он заявил, что до полного понимания ИИ-моделей очень далеко.

В долгосрочной перспективе Anthropic хотела бы проводить «сканирование мозга» или «магнитно-резонансную томографию» самым передовым ИИ-моделям. По словам Амодеи, такие обследования помогут выявить широкий спектр проблем в ИИ-моделях, включая их склонность ко лжи, стремление к власти и др. На это может уйти от пяти до десяти лет, но такие примеры необходимы для тестирования и запуска будущих ИИ-моделей.

В сообщении сказано, что Anthropic добилась определённых успехов в исследовательской деятельности, которые позволили улучшить понимание того, как работают ИИ-модели. Например, недавно компания нашла способ проследить пути мышления ИИ-модели с помощью так называемых схем. В результате Anthropic выявила одну цепь, которая помогает ИИ понять, какие американские города находятся в тех или иных штатах. Компания выявила лишь несколько таких схем, но разработчики считают, что в ИИ-моделях их миллионы.

Anthropic сама инвестирует в исследования интерпретируемости, а также недавно вложила средства в стартап, работающий в этом направлении. Хотя сегодня исследования интерпретируемости в основном связывают с безопасностью, Амодеи уверен, что объяснение того, как ИИ-модели приходят к своим ответам, может стать коммерческим преимуществом.

Глава Anthropic призвал OpenAI и Google DeepMind активизировать свои исследования в этой области. Амодеи просит правительства стран поощрять исследования в области интерпретируемости. Он также уверен, что США должны ввести контроль за экспортом чипов в Китай, чтобы ограничить вероятность выхода глобальной гонки в сфере ИИ из-под контроля.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Google доработала и перезапустила ИИ-функцию Ask Photos для поиска фото по содержимому 22 мин.
«Насмешка над конкуренцией»: Apple дала разработчикам выбор — 5 % комиссии или урезанные функции App Store 24 мин.
В очаровательном приключении The Plucky Squire появился хардкорный режим для тех, кому игра показалась слишком лёгкой 2 ч.
Страшно интересно: Capcom показала первый геймплей Resident Evil Requiem и раскрыла подробности амбициозного хоррора 3 ч.
Microsoft выведет антивирусное ПО за пределы ядра Windows, кардинально изменив безопасность ОС 7 ч.
Google Assistant скоро уступит место на Android-устройствах нейросети Gemini 7 ч.
Новый крупный патч добавил в Warhammer 40,000: Space Marine 2 режим «Осада» с бесконечными волнами тиранидов и еретиков 13 ч.
ИИ-поиск добрался до YouTube — в выдаче появились сгенерированные ИИ рекомендации и тексты 14 ч.
В Steam стартовала летняя распродажа с «морем скидок на игры всех жанров» 15 ч.
Легендарный сценарист Крис Авеллон присоединился к работе над амбициозной фэнтезийной RPG про борьбу с тоталитарным режимом 16 ч.
Самый маленький в мире одноплатный компьютер на базе Intel Core Raptor Lake — AAEON de next-RAP8 2 мин.
Проблемный запуск роботакси Tesla показал, насколько недооценена конкурирующая Waymo 21 мин.
HPE анонсировала серверы ProLiant Compute Gen12 на базе AMD EPYC Turin 36 мин.
Nothing Phone (3) показал свой нетривиальный дизайн на качественных изображениях в преддверии анонса 48 мин.
Фитнес-браслет Xiaomi Smart Band 10 поступил в продажу в России по цене от 4290 рублей 2 ч.
МТС назвала самые популярные смартфоны среди россиян — лидирует бюджетный Xiaomi 2 ч.
Как освободить рабочее пространство: лучшие компактные компьютеры MSI 3 ч.
У гиперскейлеров есть уже 1,2 тыс. дата-центров, а через пять лет они будут доминировать на рынке ЦОД 3 ч.
Илон Маск уволил вице-президента Tesla по производству, которого называли его «правой рукой» 6 ч.
Фанаты Xbox 360 получили от Microsoft «мягкий» намёк о моральном устаревании своей консоли 6 ч.