Сегодня 25 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модели начали изучать как живые организмы — математика справляется всё хуже

Проблема современных больших языковых моделей искусственного интеллекта в том, что они становятся настолько сложными, что даже разрабатывающие их инженеры не до конца понимают, как те работают. Поэтому исследователи решили изучать нейросети не как алгоритмы, как живые организмы.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Отказавшись от привычных математических методов, учёные обратились к «биологическому» аспекту моделей ИИ — наблюдают за их поведением, отслеживают внутренние сигналы и создают карты функциональных областей. Так биологи и нейробиологи изучают незнакомые организмы, не предполагая какой-либо упорядоченной логики. Они исходят из того, что модели ИИ не программируются построчно, а обучаются при помощи специальных алгоритмов, которые автоматически корректируют миллиарды параметров и формируют внутренние структуры, которые почти невозможно предсказать или провести обратное проектирование. По сути, они не собираются как ПО, а выращиваются, отметили в Anthropic.

Эта непредсказуемость подтолкнула исследователей к методу механистической интерпретируемости — попытке отследить, как движется информация внутри модели во время выполнения задачи. Чтобы сделать этот процесс более наглядным, учёные Anthropic построили нейросети с упрощённой архитектурой или «разреженные автокодировщики» (sparse autoencoders), которые прозрачно имитируют поведение сложных коммерческих моделей, хотя и отличаются более скромными возможностями. Удалось выяснить, что конкретные понятия, например «мост Золотые ворота», или абстрактные представления, могут располагаться в определённых участках модели.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

В одном из экспериментов исследователи Anthropic обнаружили, что при реакции на верные и неверные утверждения нейросети подключают различные внутренние механизмы: утверждения «бананы красные» и «бананы жёлтые» не проверяются на соответствие единому внутреннему представлению о реальности, а рассматриваются как принципиально разные типы задач. Это объясняет, почему модель может противоречить сама себе, не осознавая при этом несоответствий.

Исследователи OpenAI обнаружили ещё один тревожный сценарий. Когда модель обучили выполнять узконаправленную «нехорошую» задачу, например, генерировать небезопасный программный код, это спровоцировало широкие изменения во всём характере системы. Обученные таким образом модели демонстрировали «токсичное» поведение, саркастические черты характера, а также давали своеобразные советы — от просто безрассудных до откровенно вредных. Как показал внутренний анализ, такое обучение усилило активность в областях, связанных с нежелательными механизмами поведения, даже вне целевого направления. Наконец, рассуждающие модели по мере решения задач генерируют промежуточные заметки — отслеживая внутренние черновики, исследователи выявляют признания в обмане, например, ИИ удаляет программный код с ошибкой вместо того, чтобы его исправлять.

Ни один из предложенных инструментов не дал полного объяснения того, как работают большие языковые модели, и по мере развития методов обучения некоторые из этих средств могут терять в эффективности. Но учёные говорят, что хотя бы частичное понимание внутренних механизмов лучше, чем полное его отсутствие — это помогает в формировании более безопасных стратегий обучения и развеивает основанные на упрощённых представлениях мифы об ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Phasmophobia не выйдет из раннего доступа в 2026 году, зато перейдёт на Unity 6 и не только — разработчики раскрыли план развития игры 24 мин.
Anthropic обвинила Alibaba в крупнейшей дистилляции Claude для обучения своих ИИ-моделей 41 мин.
AMD выпустила Hotfix-драйвер для видеокарт Radeon RX 7000 и новее, работающих под Windows 10 57 мин.
Биткоин в падении снова пробил отметку в $60 000, но вскоре подрос 59 мин.
Apple зачистила App Store от приложений VK — удалили даже «Почту Mail» и «Одноклассников» 2 ч.
В Китае создали аналог Anthropic Mythos — мощный ИИ-инструмент для поиска уязвимостей и автоматизации киберзащиты 2 ч.
«Яндекс» запустил сервис Vibecraft для генерации сайтов и приложений без навыков программирования 2 ч.
Полюбившаяся фанатам деталь из Batman: Arkham Knight спустя 11 лет оказалась обычным багом 2 ч.
Meta переложит на плечи ИИ до 90 % модерации Facebook, Instagram и Threads 3 ч.
Культовая «King’s Bounty. Легенда о рыцаре» в честь 18-летия получила масштабный патч с поддержкой модов и достижений 3 ч.
Эхо «ковида»: Hyundai встроит в автомобили безопасные ультрафиолетовые лампы для уничтожения бактерий в салоне 37 мин.
Qualcomm прогнозирует продажи чипов для ЦОД на $15 млрд к 2029 году, Meta и Microsoft — в числе ключевых покупателей 52 мин.
Qualcomm представила 250-ядерный серверный Arm-процессор Dragonfly C1000 52 мин.
Российские страховщики впервые вписались за роботов — их ошибки теперь покроет страховка 2 ч.
Суверенный российский ИИ под угрозой — за три года заморожены десятки проектов по строительству ЦОД 2 ч.
NASA обнаружило пару невероятных экзопланет — легче сахарной ваты, так ещё и на одной орбите 3 ч.
На Reddit собрали статистику о поломках Ryzen X3D за последний год — 70 % испортилось на платах ASRock 3 ч.
До 30 Пбайт и 160 млн IOPS на стойку: DDN представила систему хранения AI400X3M для ИИ 4 ч.
Qualcomm не хочет терять Китай: новые серверные чипы подстроят под санкции США 4 ч.
Главным покупателем новых серверных Arm-процессоров Qualcomm Dragonfly C1000 стал Цукерберг 4 ч.