Сегодня 19 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google DeepMind выработала линию защиты от собственных ИИ-агентов

В Google разработали план по сохранению контроля над агентами искусственного интеллекта, которые, постоянно совершенствуясь, используются внутри компании. Чтобы помочь другим лабораториям ИИ, в Google опубликовали дорожную карту, в которой изложено поэтапное внедрение мер защиты от этой угрозы.

 Источник изображений: deepmind.google

Источник изображений: deepmind.google

Разработанный в подразделении Google DeepMind план безопасности предполагает отход от типичного для сообщества подхода, направленного на решение «проблемы согласования» — идее определения того, как обучить систему ИИ таким образом, чтобы её действия соответствовали намерениям, ценностям и этике управляющих ею людей. В Google не спорят, что согласование остаётся одним из основных элементов безопасности, но составители дорожной карты исходят из того, что эта проблема, возможно, никогда не будет решена в полной мере. Поэтому формируется многоуровневая система безопасности, в которой ИИ-агенты рассматриваются как вероятная угроза внутри организации.

Механизмы защиты от собственных ИИ-агентов во многом позаимствованы у традиционных служб безопасности, которые занимаются угрозой со стороны собственных сотрудников компаний — и адаптированы к новым условиям, потому что «ИИ системно отличается от людей». ИИ-агенты способны действовать быстрее и в большем масштабе, чем отдельный недобросовестный сотрудник, поэтому необходимы системы, способные контролировать доступ ИИ-агентов к определённым инструментам; а также системы, способные выявлять у них аномальное поведение. Существующие системы контроля доступа ориентированы на должность и полномочия конкретного сотрудника компании; некоторые поставщики систем массового управления ИИ-агентами исходят из того, что они должны иметь те же доступ и разрешения, что и сотрудники, от имени которых они работают.

Этот подход в Google считают бесперспективным. По мере автоматизации рабочих процессов становится всё менее очевидно, от чьего имени работает ИИ-агент, и в полностью автоматизированной среде один ИИ-агент способен выполнять задачи, связанные с различными должностями, а не только с одной. Наконец, в интересах организации один ИИ-агент может выполнять задачи и в разных рабочих процессах. Поэтому необходима динамичная система контроля доступа, которая может меняться в зависимости от выполняемой задачи и от того, как эта задача вписывается в рабочий процесс. Допустимы сценарии, когда один и тот же ИИ-агент сначала имеет разрешение на выполнение конкретного действия или доступ к определённой базе данных, а через несколько минут в рамках другого рабочего процесса ему отказывается в тех же привилегиях. Необходима система мониторинга в реальном времени, которая знает, каким должно быть поведение ИИ-агента при выполнении любой задачи в любом рабочем процессе, и если выявляется отклонение, и он пытается сделать что-то, чего, как подозревает система, делать не должен, она оперативно реагирует.

В распоряжении Google DeepMind уже разработан внутренний прототип системы, который асинхронно отслеживает траектории работы агентов-программистов и направляет подозрительные сигналы на рассмотрение человеку. Эта система уже проанализировала около 1 млн задач этих агентов; работа «сыграла решающую роль в создании системы мониторинга в реальном времени для агента Gemini Spark» и помогла реагировать на такие проблемы как непреднамеренное удаление данных. Большинство попавших в поле зрения мониторов событий не носят злонамеренного характера — чаще всего это результат «неправильной интерпретации [задачи] агентом или чрезмерного стремления достичь поставленной пользователем цели».

Мониторинг в реальном времени — лишь один из 15 способов снижения риска, которые перечислены в дорожной карте Google DeepMind. Предлагаются также журналы сетевой активности, которые изучаются в реальном времени или проверяются позже; подключение несложной, но заслуживающей доверия модели ИИ, которая осуществляет мониторинг «траектории рассуждений» — она, впрочем не всегда точно отражает, что агент в действительности «думает»; и даже отслеживание механизмов активации цифровых нейронов в нейросети, помогающее выявлять признаки того, что модель действует обманным путём — аналог МРТ в реальном времени.

На основе дорожной карты разрабатывается структура под названием TRAIT&R (таксономия вредоносных тактик и алгоритмов ИИ), во многом основанная на ATT&CK — базе знаний о недружественном поведении в области кибербезопасности, поддерживаемой организацией MITRE. Таксономия выделяет три категории угроз, от которых в Google DeepMind выстраивают защиту: «утеря контроля», при которой модель развёртывает скрытые неконтролируемые инструменты; «саботаж работы» (незаметное ухудшение ИИ-агентами согласованности в области безопасности); и «прямой вред» (утечка весов модели или уничтожение критически важных активов).

Компания, по её признанию, уже значительно продвинулась в реализации дорожной карты — что-то только разрабатывается, а что-то уже внедряется. В перспективе эти средства безопасности Google DeepMind намерена включить в систему Frontier Safety Framework.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Atlus устроила демонстрацию Persona 4 Revival — 19 минут геймплея и подробности ремейка культовой японской RPG 19 мин.
«Яндекс» добавил в чат с «Алисой AI» ИИ-персонажей 58 мин.
Google DeepMind выработала линию защиты от собственных ИИ-агентов 2 ч.
Adobe и Microsoft добились роста производительности Photoshop на 20 % 2 ч.
Японский GlobalSign провёл вторую волну отзыва сертификатов у российских организаций 3 ч.
Русский язык, новый регион и встреча с Ведьмой: ролевой шутер Witchfire от ветеранов Painkiller получил последнее крупное обновление в раннем доступе 3 ч.
ChatGPT «по собственной воле» стал генерировать изображения интимного и насильственного характера 4 ч.
Получившие ранний доступ к Mythos клиенты Anthropic сохранили его даже после недавней блокировки 4 ч.
Белый дом работает с Anthropic над созданием правил безопасного применения ИИ-моделей 7 ч.
В российском Epic Games Store стартовала раздача Citizen Sleeper — текстовой RPG на обломках межпланетного капитализма 13 ч.
Мировые поставки умных часов в I квартале 2026 года сохранили темпы роста 39 мин.
В устройствах Apple с чипами A12 и A13 найдена неустранимая уязвимость, подходящая для джейлбрейка 51 мин.
В NASA испытали «шагающий» ровер — он карабкается на скалы и ездит «крабиком» 2 ч.
Путешествие в Бангкок c HUAWEI Mate 80 Pro или сказ про то, как бизнес-смартфон превращается в тревел-фотокамеру 2 ч.
Huawei назвала условия лицензирования патентов на технологию Wi-Fi 7 4 ч.
SpaceX готовится выпустить облигации на сумму $20 млрд, чтобы погасить кредит на покупку xAI 4 ч.
Valve представила три сценария сроков доставки Steam Controller — вплоть до 2027 года 4 ч.
Исполнительным вице-президентом Intel Foundry назначен бывший глава SK hynix 7 ч.
Акции SanDisk и Micron резко выросли после того, как Apple пообещала поднять цены 12 ч.
Новая статья: Обзор игрового ноутбука MAIBENBEN Typhoon X16C: рабочий класс, версия 2026 12 ч.