Google намерена узнать, что произойдёт, когда миллионы ИИ-агентов начнут действовать вместе

Читать в полной версии

Специализирующееся на изучении и разработке систем искусственного интеллекта подразделение Google DeepMind объявило в выделении финансирования в размере $10 млн на изучение сценариев, при которых несколько миллионов ИИ-агентов начинают взаимодействовать друг с другом. В проекте согласились принять участие несколько частных и государственных организаций со всего мира.

Источник изображения: deepmind.google

Всего через несколько месяцев во всём мире ИИ-агенту будут развёрнуты в таких масштабах, что сопутствующие риски станут реальной проблемой, и учёные хотят опередить этот момент. Потенциальные угрозы сводятся к усиленным вариантам неблагоприятных сценариев, которые наблюдаются уже сегодня: мошеннические схемы, инъекции в запросах, которые превращают ИИ-агентов в самонаводящееся вредоносное ПО, и другие формы кибератак. Единственный способ понять, что может произойти, когда большое количество многоагентных систем будет взаимодействовать друг с другом — провести реалистичные симуляции: поместить ИИ-агентов в «песочницы» и наблюдать за их поведением.

Не получится предсказать, что произойдёт, если изучать отдельных агентов или даже нескольких агентов изолированно. И нельзя предполагать, что выполняющие инструкции больших языковых моделей ИИ-агенты будут действовать рационально — сложность возникает в условиях огромного числа одновременных взаимодействий. Есть версия, которую не исключают и в Google DeepMind, что сильный ИИ (AGI) возникнет не из одной сверхумной модели, а станет порождением своего рода коллективного разума ИИ-агентов, где возможности группы оказываются сильнее, чем суммы её частей.

Google DeepMind — не единственный крупный разработчик, предупреждающий об угрозах, исходящих от технологий, которые он создаёт. Ранее Anthropic опубликовала рекомендации по развёртыванию ИИ-агентов, основанные на принципе «нулевого доверия»: следует исходить из того, что компьютерная система уязвима, агент является злоумышленником, и взлом неизбежен. Ранее подходы к обеспечению кибербезопасности имели в основе предположение, что объект, от которого исходит угроза — это написанное человеком ПО, выполняющее фиксированные действия по фиксированным траекториям, указывают эксперты. ИИ-агент действует иначе: он рассуждает, импровизирует, и его можно взломать всего одной фразой в документе, который ему предлагается прочитать. В рамках проекта важно не упускать из виду не только экзотические гипотетические сценарии, но и скучные проблемы, которые уже существуют.