Сегодня 20 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google DeepMind выработала линию защиты от собственных ИИ-агентов

В Google разработали план по сохранению контроля над агентами искусственного интеллекта, которые, постоянно совершенствуясь, используются внутри компании. Чтобы помочь другим лабораториям ИИ, в Google опубликовали дорожную карту, в которой изложено поэтапное внедрение мер защиты от этой угрозы.

 Источник изображений: deepmind.google

Источник изображений: deepmind.google

Разработанный в подразделении Google DeepMind план безопасности предполагает отход от типичного для сообщества подхода, направленного на решение «проблемы согласования» — идее определения того, как обучить систему ИИ таким образом, чтобы её действия соответствовали намерениям, ценностям и этике управляющих ею людей. В Google не спорят, что согласование остаётся одним из основных элементов безопасности, но составители дорожной карты исходят из того, что эта проблема, возможно, никогда не будет решена в полной мере. Поэтому формируется многоуровневая система безопасности, в которой ИИ-агенты рассматриваются как вероятная угроза внутри организации.

Механизмы защиты от собственных ИИ-агентов во многом позаимствованы у традиционных служб безопасности, которые занимаются угрозой со стороны собственных сотрудников компаний — и адаптированы к новым условиям, потому что «ИИ системно отличается от людей». ИИ-агенты способны действовать быстрее и в большем масштабе, чем отдельный недобросовестный сотрудник, поэтому необходимы системы, способные контролировать доступ ИИ-агентов к определённым инструментам; а также системы, способные выявлять у них аномальное поведение. Существующие системы контроля доступа ориентированы на должность и полномочия конкретного сотрудника компании; некоторые поставщики систем массового управления ИИ-агентами исходят из того, что они должны иметь те же доступ и разрешения, что и сотрудники, от имени которых они работают.

Этот подход в Google считают бесперспективным. По мере автоматизации рабочих процессов становится всё менее очевидно, от чьего имени работает ИИ-агент, и в полностью автоматизированной среде один ИИ-агент способен выполнять задачи, связанные с различными должностями, а не только с одной. Наконец, в интересах организации один ИИ-агент может выполнять задачи и в разных рабочих процессах. Поэтому необходима динамичная система контроля доступа, которая может меняться в зависимости от выполняемой задачи и от того, как эта задача вписывается в рабочий процесс. Допустимы сценарии, когда один и тот же ИИ-агент сначала имеет разрешение на выполнение конкретного действия или доступ к определённой базе данных, а через несколько минут в рамках другого рабочего процесса ему отказывается в тех же привилегиях. Необходима система мониторинга в реальном времени, которая знает, каким должно быть поведение ИИ-агента при выполнении любой задачи в любом рабочем процессе, и если выявляется отклонение, и он пытается сделать что-то, чего, как подозревает система, делать не должен, она оперативно реагирует.

В распоряжении Google DeepMind уже разработан внутренний прототип системы, который асинхронно отслеживает траектории работы агентов-программистов и направляет подозрительные сигналы на рассмотрение человеку. Эта система уже проанализировала около 1 млн задач этих агентов; работа «сыграла решающую роль в создании системы мониторинга в реальном времени для агента Gemini Spark» и помогла реагировать на такие проблемы как непреднамеренное удаление данных. Большинство попавших в поле зрения мониторов событий не носят злонамеренного характера — чаще всего это результат «неправильной интерпретации [задачи] агентом или чрезмерного стремления достичь поставленной пользователем цели».

Мониторинг в реальном времени — лишь один из 15 способов снижения риска, которые перечислены в дорожной карте Google DeepMind. Предлагаются также журналы сетевой активности, которые изучаются в реальном времени или проверяются позже; подключение несложной, но заслуживающей доверия модели ИИ, которая осуществляет мониторинг «траектории рассуждений» — она, впрочем не всегда точно отражает, что агент в действительности «думает»; и даже отслеживание механизмов активации цифровых нейронов в нейросети, помогающее выявлять признаки того, что модель действует обманным путём — аналог МРТ в реальном времени.

На основе дорожной карты разрабатывается структура под названием TRAIT&R (таксономия вредоносных тактик и алгоритмов ИИ), во многом основанная на ATT&CK — базе знаний о недружественном поведении в области кибербезопасности, поддерживаемой организацией MITRE. Таксономия выделяет три категории угроз, от которых в Google DeepMind выстраивают защиту: «утеря контроля», при которой модель развёртывает скрытые неконтролируемые инструменты; «саботаж работы» (незаметное ухудшение ИИ-агентами согласованности в области безопасности); и «прямой вред» (утечка весов модели или уничтожение критически важных активов).

Компания, по её признанию, уже значительно продвинулась в реализации дорожной карты — что-то только разрабатывается, а что-то уже внедряется. В перспективе эти средства безопасности Google DeepMind намерена включить в систему Frontier Safety Framework.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Solarpunk — выживание под солнечными лучами. Рецензия 10 ч.
«Спасибо за вашу страсть к игре»: Valve поздравила Counter-Strike с 27-летием 13 ч.
Никакого ИИ в браузере — Vivaldi пообещала «сохранить человеческий подход к просмотру веб-страниц» 15 ч.
Слухи: амбициозный самурайский боевик Onimusha: Way of the Sword от Capcom выйдет на три недели раньше запланированного 16 ч.
Google заявила о готовности запустить программу верификации разработчиков и приложений 17 ч.
В последнем обновлении Windows 11 сломалась «Корзина» и запуск приложений Office 18 ч.
У Google Android 17 проявились первые сбои: исчезают виджеты, отказывает Wi-Fi в приложениях 20 ч.
Alibaba Cloud делает ставку на развитие во Франции, а Европа желает получить больше контроля над ИИ-инфраструктурой 20 ч.
Глава PlayStation уклонился от ответа на вопрос о будущем эксклюзивов Sony на ПК, но инсайдер прояснил план компании 20 ч.
Telegram не смог отменить временную блокировку в Индии 21 ч.
Hyundai полностью выкупит Boston Dynamics у SoftBank 9 ч.
Зонд NASA Lucy встретил кувыркающийся астероид-гантель и нашёл на нём следы древней воды 12 ч.
«Логарифмический» ИИ-ускоритель Tensordyne Napier обещает выскоую производительность при минимальном энергопотреблении 14 ч.
Современные роботы освоили многое, но окружающий мир они всё ещё не понимают 14 ч.
«Не можем создать смартфон», — Nothing отменила выпуск CMF Phone 3 Pro из-за роста цен на память 16 ч.
Сбербанк этой осенью представит человекоподобных роботов собственной разработки 17 ч.
Потребительский SATA SSD выдержал 15 000 полных перезаписей за 16 лет и продолжает работать 17 ч.
Cloud.ru начал строительство собственного ЦОД в Московской области 18 ч.
В Тасмании начали строить «чёрный ящик Земли» — сверхзащищённый бункер с климатическим архивом планеты 18 ч.
Выход SpaceX на биржу сделал миллиардерами членов совета директоров и сотрудников компании 18 ч.