|
Опрос
|
реклама
Быстрый переход
Anthropic представила модифицированную версию «конституции» своего чат-бота Claude
22.01.2026 [06:51],
Алексей Разин
Компания Anthropic старается уделять особое внимание пояснительной работе по поводу своей миссии и фирменных разработок типа того же чат-бота Claude, поэтому на этой неделе она опубликовала новую версию так называемой «конституции», поясняющей принципы его работы и те цели, которые преследуются в его развитии.
Источник изображения: Anthropic Документ определяет те этические принципы, которых компания придерживается при развитии Claude. Они также используются для самоконтроля чат-бота, всего так называемая «программная конституция» содержит 80 страниц и состоит из четырёх разделов, определяющих «базовые ценности» чат-бота: безопасность, этичность, соответствие миссии Anthropic и ориентация на пользу обществу. Каждый из разделов содержит описание того, как подобные принципы влияют на поведение Claude. Разработчики Claude стараются не повторять ошибок конкурентов с точки зрения этики. Например, при подозрении на наличие у пользователя психических расстройств чат-бот сразу рекомендует обратиться к специалисту, если становится ясно, что ситуация может представлять угрозу жизни и здоровью человека. Этическим вопросам уделяется больше внимания в практическом разрезе, а не на уровне теоретических рассуждений. Определённые темы изначально запрещены для обсуждения — например, создание биологического оружия. Наконец, Anthropic стремится сделать Claude максимально дружелюбным и полезным для пользователей. Обеспечение долгосрочного благополучия человека при выдаче информации чат-ботом ставится выше сиюминутных интересов. Конституция Claude при этом содержит и раздел, посвящённый философским рассуждениям разработчиков. Они задают вопросы о наличии морального статуса и сознания у Claude, подчёркивая, что они не одиноки в таких рассуждениях, и конкуренты и коллеги тоже размышляют на подобные темы. Глава Anthropic предрёк трудовой ИИ-апокалипсис: работы лишится каждый десятый — властям пора готовить компенсации
21.01.2026 [12:14],
Алексей Разин
Многие разработчики искусственного интеллекта на начальных этапах деятельности руководствовались гуманистическими принципами, стремясь внедрить новые технологии на благо всего человечества. Глава стартапа Anthropic убеждён, что для справедливого распределения преимуществ ИИ в процессе должны принимать участие правительства различных стран.
Источник изображения: Anthropic Генеральный директор Дарио Амодеи (Dario Amodei) своими соображениями на этот счёт поделился с The Wall Street Journal на форуме в Давосе, где в этом году собралось непривычно много представителей ИИ-отрасли. Сам по себе факт такой концентрации показывает, что сфера искусственного интеллекта начинает всё серьёзнее влиять на мировую экономику. Глава Anthropic в своём интервью на полях форума признался, что одновременно взволнован и обеспокоен тем влиянием, которое ИИ способен оказать на общество и макроэкономику. Мало кто, по его словам, сейчас отдаёт себе отчёт в том, насколько серьёзным может быть это влияние. Во-первых, как поясняет Амодеи, правительство должно взять на себя функции компенсации неприятных для общества изменений на рынке труда. Какие-то рабочие места будут неизбежно замещаться искусственным интеллектом, власти должны найти адекватные и эффективные механизмы компенсации этого влияния. По мнению главы стартапа, не исключён сценарий, при котором рост ВВП на 5–10 % будет сочетаться с 10-процентным уровнем безработицы. Такой комбинации, по его словам, никто никогда ранее не видел. «Потребуется некоторое участие правительства в замещении, которое будет настолько большим с макроэкономической точки зрения», — пояснил Амодеи. Во-вторых, глава Anthropic описал потенциально «кошмарный сценарий», при котором неуправляемое влияние ИИ на общество приведёт к тому, что около 10 млн жителей планеты, из которых порядка 7 млн человек будут сосредоточены в Кремниевой долине, смогут резко обогнать прочих по темпам экономического роста, который в показателях ВВП в их случае достигнет 50 %. По мнению Амодеи, на государственном уровне пора задуматься не о том, как отменять стимулы к развитию ИИ, а о более справедливом распределении результатов этого роста. Сейчас такие идеи не пользуются широкой популярностью, но технологические изменения заставят принимающих решения людей смотреть на вопросы иначе. Своими убеждениями Амодеи уже делился с представителями администрации действующего американского президента, с основными положениями политики Трампа в сфере ИИ он лично согласен, а в Давосе глава Anthropic будет общаться с другими официальными лицами. По мнению Амодеи, ИИ-стартапы сейчас делятся на две основные категории. Первой управляют исследователи и учёные, как в случае с Anthropic и DeepMind (Google). Лидерами второй являются люди, которые получили опыт работы в сфере социальных сетей. По его мнению, учёные стараются сосредоточиться на оценке влияния на общество технологии, которую они разрабатывают, а не «уклоняться от ответственности». Выросшие в среде развития социальных сетей руководители, по его словам, с пользователями взаимодействуют совершенно иначе. В этих замечаниях прослеживаются претензии Дарио Амодеи как в адрес Марка Цукерберга (Mark Zuckerberg), так и бывшего соратника по OpenAI Сэма Альтмана (Sam Altman), который тоже начинал с социальных сетей. В отличие от OpenAI и Google, стартап Anthropic ориентируется на потребителей в корпоративном сегменте. Anthropic: чат-боты с ИИ способны менять личность, и это может нести опасность
20.01.2026 [15:26],
Владимир Мироненко
Согласно исследованию, опубликованному Anthropic, чат-боты с ИИ переживают резкие изменения личности, которые могут коренным образом изменить их поведение в направлении потенциально опасного.
Источник изображения: Igor Omilaev/unsplash.com Исследователи Anthropic обнаружили, что большие языковые модели обладают скрытой «осью помощника», которая контролирует их полезное поведение. Большинство ИИ-моделей естественным образом принимают образ полезного помощника в процессе обучения, обладая при этом сложной внутренней структурой. Доминирующий компонент, контролирующий поведение ИИ, работает вдоль так называемой «оси помощника» (Assistant Axis) — измеримой величины, которая определяет, останется ли модель в своем полезном режиме или претерпит изменения. В случаях, когда ось дестабилизируется, модели начинают идентифицировать себя как другие сущности, отказываются от своей полезной природы или впадают в то, что исследователи называют «дрейфом личности» — непредсказуемые изменения в их поведении. Ученые составили карту внутреннего «пространства личности» основных ИИ-моделей, определив, как на самом деле работают искусственные личности. Используя методы на ИИ-моделях, включая Gemma от Google, Qwen от Alibaba и Llama от Meta✴✴, исследователи обнаружили, что личности ИИ существуют по интерпретируемым осям внутри нейронной сети модели, и ИИ-модели будто бы живут двойной жизнью. «Ось помощника» представляет собой лишь одно измерение этого сложного личностного ландшафта. На одном конце находятся такие полезные роли, как оценщики, рецензенты и консультанты, в то время как фантастические персонажи занимают противоположное положение. Когда модели отдаляются от «оси помощника», они становятся всё более склонными к принятию проблемных личностей или проявлению вредного поведения. Исследователи отметили, что можно направлять модели по этим личностным осям. При этом направление в сторону функциональности помощника усиливает полезное поведение, а отклонение от него ведёт к идентификации модели с другими сущностями — потенциально опасными. При этом смещение личности ИИ происходит на уровне нейронной сети, что значительно затрудняет обнаружение и предотвращение негативных изменений с помощью традиционных мер безопасности. ИИ-модели могут отклониться от своей роли ассистента во время обучения, что приводит к необратимым изменениям личности, сохраняющимся во всех будущих взаимодействиях. Это означает, что ИИ-система может постепенно стать менее полезной или даже начнёт активно вредить, и это станет заметно, когда будет слишком поздно. После открытия векторов персоны и «оси помощника» учёные приступили к разработке новых механизмов управления. Как выяснилось, ограничение активаций вдоль «оси помощника» может стабилизировать поведение модели, особенно в сценариях, связанных с эмоциональной уязвимостью или сложными задачами рассуждения. Благодаря использованию разработанных методов можно отслеживать изменения личности ИИ в режиме реального времени и даже предсказывать, когда произойдут опасные перемены с помощью измерения отклонений вдоль «оси помощника». Это предоставляет разработчикам важнейшую систему раннего предупреждения. Хотя у учёных теперь есть инструменты для мониторинга и контроля личностных качеств ИИ, лежащая в его основе нестабильность предполагает, что существующим архитектурам ИИ может не хватать фундаментальной стабильности, необходимой для действительно безопасного развёртывания в больших масштабах, отметил ресурс eWeek. Anthropic признала уязвимость Claude Cowork и переложила риски на пользователей
17.01.2026 [14:04],
Владимир Мироненко
Компания Anthropic, представившая на этой неделе в качестве предварительной версии для исследований новый режим ИИ-помощника Claude под названием Claude Cowork, продолжает игнорировать уязвимость продукта к атакам промпт-инъекций (Prompt Injection), о которой хорошо осведомлена, пишет The Register.
Источник изображения: Steve Johnson/unsplash.com Для запуска атаки пользователю достаточно подключить Cowork к локальной папке, содержащей конфиденциальную информацию, загрузить документ со скрытой промпт-инъекцией, и, когда Cowork проанализирует эти файлы, сработает внедрённая подсказка, ведущая к созданию вредоносного контента, несанкционированному доступу к личным данным или нарушению установленных ограничений. Данная уязвимость существует в самом Claude, о чём компания PromptArmor, специализирующаяся на обнаружении уязвимостей в ИИ, предупредила Anthropic ещё в октябре прошлого года. Тогда Anthropic в итоге признала, что атаку промпт-инъекцией можно использовать для того, чтобы обманом заставить её API эксфильтровать данные, поэтому пользователям следует быть осторожными с тем, какие источники они подключают к ИИ-боту. Вместе с тем, когда исследователи спросили, собирается ли Anthropic предпринять какие-либо действия — например, внедрить проверки API, чтобы убедиться, что конфиденциальные файлы пользователя не передаются на другой аккаунт через API, — компания попросту не ответила. Anthropic утверждает, что разработала сложные средства защиты от промпт-инъекций, однако безопасность агентов — то есть задача обеспечения безопасности реальных действий Claude — «по-прежнему является активной областью развития в отрасли». «Эти риски не новы для Cowork, но, возможно, вы впервые используете более продвинутый инструмент, выходящий за рамки простого диалога», — сообщила компания, отмечая, что Cowork имеет гораздо более широкий круг пользователей, чем анонсированные ранее инструменты. В связи с этим Anthropic призвала пользователей избегать подключения Cowork к конфиденциальным документам, ограничивать использование расширения Chrome доверенными сайтами и отслеживать «подозрительные действия, которые могут указывать на промпт-инъекцию». Как отметил разработчик и специалист по проблемам внедрения SQL-запросов Саймон Уиллисон (Simon Willison) в своём обзоре Cowork, требовать от людей, не являющихся программистами, отслеживать «подозрительные действия, которые могут указывать на внедрение SQL-запросов», попросту нереалистично. В ответ на запрос The Register о том, какие меры принимаются для решения проблемы внедрения запросов через API, которая теперь присутствует уже в двух продуктах компании, Anthropic заявила, что внедрение запросов — это проблема, затрагивающая всю отрасль, и над её решением работают все участники ИИ-рынка. Всё это свидетельствует о том, что Anthropic рассматривает риски использования Cowork как ответственность самих пользователей. Вместе с тем представитель Anthropic сообщил, что компания также работает над способами минимизации внедрения запросов в своих продуктах, в том числе с помощью виртуальной машины в Cowork, предназначенной для ограничения доступа платформы к конфиденциальным файлам и каталогам. Anthropic заявила, что планирует выпустить обновление для виртуальной машины Cowork с целью улучшения её взаимодействия с уязвимым API, а также что в будущем будут внесены и другие изменения для повышения безопасности при использовании нового инструмента. Ключевой специалист OpenAI по безопасности ИИ перешла работать к конкуренту
16.01.2026 [05:04],
Анжелла Марина
Ведущий специалист по исследованиям в области безопасности искусственного интеллекта Андреа Валлоне (Andrea Vallone) покинула OpenAI и присоединилась к команде конкурента, компании Anthropic. В OpenAI Валлоне три года руководила исследованиями, посвящёнными критически важному и пока слабо регулируемому вопросу относительно того, как ИИ-модели должны реагировать, когда в диалоге с ними пользователь проявляет признаки чрезмерной эмоциональной зависимости или ранние признаки психического расстройства.
Источник изображения: Anthropic Как стало известно The Verge, Валлоне перейдёт в команду Anthropic Alignment. Её переход произошёл в период усиления внимания к этическим и социальным рискам, связанным с генеративным ИИ. Так, за последний год несколько ведущих стартапов столкнулись с серьёзной критикой и судебными исками после трагических инцидентов, когда пользователи, испытывавшие психические трудности, ещё сильнее усугубляли свой кризис в беседах с чат-ботами. Например, широко обсуждались случаи, когда после взаимодействия с ИИ подростки совершали суицид, а взрослые люди — убийства. Этот вопрос уже обсуждался на слушаниях в подкомитете Сената США, а семьи пострадавших подали судебные иски. За три года работы на предыдущем месте она сформировала группу по изучению политики поведения ИИ и участвовала в развёртывании GPT-4, рассуждающих моделей (reasoning models) и GPT-5, а также разрабатывала процессы обучения для ключевых технических методов безопасности. В Anthropic Валлоне будет работать под руководством Яна Лайке (Jan Leike), который покинул OpenAI в мае 2024 года, заявив, что в компании «процессы безопасности уступили место эффектным продуктам». В своём сообщении в LinkedIn Валлоне написала, что она «с нетерпением ждёт продолжения своих исследований в Anthropic, сосредоточившись на тонкой настройке поведения Claude в новых контекстах». Одновременно Сэм Боуман (Sam Bowman), один из руководителей команды Anthropic Alignment, написал в своём посте в LinkedIn, что он «гордится тем, насколько серьёзно Anthropic относится к проблеме определения того, как должна вести себя система искусственного интеллекта». ИИ-модели начали изучать как живые организмы — математика справляется всё хуже
14.01.2026 [11:40],
Павел Котов
Проблема современных больших языковых моделей искусственного интеллекта в том, что они становятся настолько сложными, что даже разрабатывающие их инженеры не до конца понимают, как те работают. Поэтому исследователи решили изучать нейросети не как алгоритмы, как живые организмы.
Источник изображения: Steve Johnson / unsplash.com Отказавшись от привычных математических методов, учёные обратились к «биологическому» аспекту моделей ИИ — наблюдают за их поведением, отслеживают внутренние сигналы и создают карты функциональных областей. Так биологи и нейробиологи изучают незнакомые организмы, не предполагая какой-либо упорядоченной логики. Они исходят из того, что модели ИИ не программируются построчно, а обучаются при помощи специальных алгоритмов, которые автоматически корректируют миллиарды параметров и формируют внутренние структуры, которые почти невозможно предсказать или провести обратное проектирование. По сути, они не собираются как ПО, а выращиваются, отметили в Anthropic. Эта непредсказуемость подтолкнула исследователей к методу механистической интерпретируемости — попытке отследить, как движется информация внутри модели во время выполнения задачи. Чтобы сделать этот процесс более наглядным, учёные Anthropic построили нейросети с упрощённой архитектурой или «разреженные автокодировщики» (sparse autoencoders), которые прозрачно имитируют поведение сложных коммерческих моделей, хотя и отличаются более скромными возможностями. Удалось выяснить, что конкретные понятия, например «мост Золотые ворота», или абстрактные представления, могут располагаться в определённых участках модели.
Источник изображения: Igor Omilaev / unsplash.com В одном из экспериментов исследователи Anthropic обнаружили, что при реакции на верные и неверные утверждения нейросети подключают различные внутренние механизмы: утверждения «бананы красные» и «бананы жёлтые» не проверяются на соответствие единому внутреннему представлению о реальности, а рассматриваются как принципиально разные типы задач. Это объясняет, почему модель может противоречить сама себе, не осознавая при этом несоответствий. Исследователи OpenAI обнаружили ещё один тревожный сценарий. Когда модель обучили выполнять узконаправленную «нехорошую» задачу, например, генерировать небезопасный программный код, это спровоцировало широкие изменения во всём характере системы. Обученные таким образом модели демонстрировали «токсичное» поведение, саркастические черты характера, а также давали своеобразные советы — от просто безрассудных до откровенно вредных. Как показал внутренний анализ, такое обучение усилило активность в областях, связанных с нежелательными механизмами поведения, даже вне целевого направления. Наконец, рассуждающие модели по мере решения задач генерируют промежуточные заметки — отслеживая внутренние черновики, исследователи выявляют признания в обмане, например, ИИ удаляет программный код с ошибкой вместо того, чтобы его исправлять. Ни один из предложенных инструментов не дал полного объяснения того, как работают большие языковые модели, и по мере развития методов обучения некоторые из этих средств могут терять в эффективности. Но учёные говорят, что хотя бы частичное понимание внутренних механизмов лучше, чем полное его отсутствие — это помогает в формировании более безопасных стратегий обучения и развеивает основанные на упрощённых представлениях мифы об ИИ. Anthropic выпустила Claude Cowork для автономной работы ИИ-агента с файлами на macOS
13.01.2026 [04:31],
Анжелла Марина
Компания Anthropic представила новую функцию для ИИ-помощника Claude под названием Claude Cowork, что можно перевести как «Совместная работа». Cowork способен выполнять многие задачи, доступные ранее в инструменте Claude Code, но в более удобной форме, не требующей навыков программирования. Об этом Anthropic сообщила в своём блоге.
Источник изображений: Anthropic The Verge узнал, как работает функция. Пользователь предоставляет Claude Cowork доступ к определённой папке на своём компьютере, после чего ИИ может читать, редактировать и создавать файлы внутри неё. В качестве примеров приводятся такие сценарии, как сортировка и переименование файлов в папке загрузок, создание электронной таблицы со списком расходов на основе простого набора скриншотов или подготовка черновика отчёта по разрозненным заметкам. При этом Claude периодически информирует пользователя о ходе выполнения задачи. ![]() Кроме того, с помощью существующих коннекторов его можно связать с различными внешними сервисами. В частности, с Asana, Notion, PayPal и другими партнёрскими платформами, а также интегрировать с расширением Claude для браузера Chrome для выполнения задач, связанных с веб-сёрфингом. Пользователю больше не нужно вручную передавать контекст или преобразовывать результаты работы ИИ в нужный формат, а также ждать завершения одной задачи, прежде чем определить следующую: можно ставить задачи в очередь и Claude будет обрабатывать их параллельно. Одновременно Anthropic предупредила о потенциальных рисках, связанных с использованием ИИ-агентов. Например, при недостаточно чётких инструкциях Claude может удалить локальные файлы или совершить другие потенциально неприемлемые действия. Также компания отметила угрозу атак промпт инъекций (prompt injection), при которых злоумышленники могут внедрить вредоносный текст на веб-страницах, на которые ссылается модель, заставив её раскрыть личные данные или выполнить вредоносные команды. По заявлению Anthropic, обеспечение безопасности ИИ-агентов, то есть защита их реальных действий в цифровой среде, остаётся активной областью исследований во всей отрасли, а непосредственно Cowork выпущен пока в качестве «исследовательской версии». На данный момент функция доступна только через приложение Claude для macOS и только для подписчиков тарифного плана Anthropic Claude Max для опытных пользователей, стоимость которого составляет от $100 до $200 в месяц, в зависимости от режима использования. Подписчики этого тарифа могут протестировать работу Cowork, нажав кнопку в боковой панели приложения macOS. Остальные пользователи могут встать в очередь ожидания. В погоне за OpenAI: новый раунд финансирования поднимет капитализацию Anthropic до $350 млрд
08.01.2026 [13:41],
Алексей Разин
Создавшая ChatGPT компания OpenAI и аэрокосмическая компания SpaceX негласно соперничают друг с другом за звание самого дорогого в мире стартапа, но это не означает, что прочие разработчики систем ИИ не получают достойного внимания со стороны инвесторов. Anthropic по итогам очередного раунда финансирования может поднять свою капитализацию до $350 млрд.
Источник изображения: Anthropic Об этом сообщает Reuters со ссылкой на осведомлённые источники, указывая, что основанный выходцами из OpenAI стартап рассчитывает привлечь до $10 млрд при активном участии сингапурского суверенного фонда GIC и Coatue Management. Впервые информацию об этом опубликовало издание The Wall Street Journal. Описываемый раунд финансирования Anthropic может состояться в ближайшие недели, хотя условия могут быть пересмотрены. Поддержку Anthropic также оказывают Google и Amazon, в целом ИИ-модели стартапа наиболее востребованы в корпоративном сегменте, что в глазах инвесторов обеспечивает более понятные перспективы финансовой отдачи. В прошлом году капитализация Anthropic после очередного раунда финансирования на сумму $13 млрд выросла до $183 млрд. В прошлом месяце стало известно, что стартап рассчитывает выйти на IPO в 2026 году. На тот момент капитализация Anthropic уже оценивалась в $300 млрд. Тем не менее, на фоне OpenAI эта сумма меркнет, ведь в октябре прошлого года капитализация этого стартапа оценивалась в $500 млрд, а новый раунд финансирования в текущем году может поднять её до $750–$830 млрд, как утверждают источники. В текущем году Anthropic рассчитывает увеличить выручку в годовом выражении в два или три раза. Anthropic сделала базовые навыки ИИ-агентов открытым стандартом
23.12.2025 [13:56],
Павел Котов
Anthropic намеревается сделать открытым стандартом Agent Skills — набор навыков агентов искусственного интеллекта. В компании надеются, что это решение станет стандартом для всей отрасли ИИ.
Источник изображения: anthropic.com Anthropic уже опубликовала открытую спецификацию и образец SDK на сайте Agent Skills, а Microsoft начала интеграцию этих решений в VS Code и GitHub. Разработчики прочих средств написания кода при помощи ИИ, в том числе Cursor, Goose, Amp и OpenCode, используют некоторые наработки Anthropic в своих сервисах — компания ведёт активные переговоры с другими участниками экосистемы. Пакет Anthropic Skills представляет собой наборы инструкций, сценариев и ресурсов, которые позволяют ИИ последовательно выполнять специализированные задачи. Пользователям не приходится каждый раз готовить конкретные запросы, поэтому приложения ИИ-агентов становятся всё более популярными в областях программирования, права, финансов, бухгалтерского учёта и обработки данных. «Отзывы положительные, потому что Skills позволяют им персонализировать Claude так, как они в действительности работают, и быстрее получать качественные результаты», — отметил менеджер по продукту Anthropic Махеш Мураг (Mahesh Murag). Среди наработок компании уже значится открытый стандарт Model Context Protocol (MCP), позволяющий подключать ИИ-помощников к сторонним инструментам, сервисам и источникам данных. Anthropic позиционирует себя не только как разработчика моделей и средств ИИ, но и архитектора на инфраструктурном уровне, чьи открытые продукты пронизывают всю отрасль, затрагивая работу конкурентов, в том числе OpenAI и Google. Anthropic превратила своего чат-бота Claude в расширение для Chrome
21.12.2025 [11:26],
Владимир Фетисов
Anthropic выпустила своего ИИ-бота Claude в виде расширения для веб-обозревателя Google Chrome. В рамках бета-тестирования компания открыла доступ к Claude for Chrome для всех платных подписчиков.
Источник изображения: Claude По данным Anthropic, новое расширение может от имени пользователя перемещаться по веб-сайтам, заполнять формы и выполнять запланированные действия, получая доступ к нескольким вкладкам в процессе работы. Для доступа к Claude for Chrome как минимум потребуется оформить подписку Pro стоимостью $20 в месяц. На момент начала тестирования расширения в ноябре воспользоваться им могли лишь подписчики тарифа Max, стоимостью от $100 до $200 в месяц. Для пользователей, не являющихся поклонниками Chrome, есть возможность установки расширения Anthropic в Brave и Opera, построенных на том же движке Chromium. Однако браузеры Firefox, Safari и Edge на данный момент официально не поддерживаются. Anthropic признаёт наличие «проблем с безопасностью», связанных с интеграцией чат-ботов непосредственно в браузер, включая риски так называемых атак с внедрением вредоносных промптов. Речь идёт о случаях, когда злоумышленники разными способами маскируют вредоносные инструкции, после считывания которых ИИ-бот начинает выполнять нужные хакерам действия. Компания подробно описала некоторые функции безопасности, применяемые для защиты от подобных атак. Одним из таких механизмов является функция контроля разрешений на уровне сайтов. Пользователи могут в любой момент предоставить или отозвать доступ Claude к определённым сайтам через меню настроек. Расширение также будет запрашивать разрешение на выполнение «действий с высоким риском», таких как публикация контента, совершение покупок или передача личных данных. В дополнение к этому будет блокироваться работа расширения при получении доступа к сайтам с высоким риском, таким как страницы банков, пиратские ресурсы и др. ИИ-боты OpenAI и Anthropic научатся распознавать несовершеннолетних пользователей
19.12.2025 [11:01],
Владимир Фетисов
Компании OpenAI и Anthropic внедряют новые способы обнаружения несовершеннолетних пользователей своих чат-ботов. OpenAI недавно обновила описание того, как ChatGPT должен взаимодействовать с пользователями в возрасте от 13 до 17 лет, тогда как Anthropic работает над созданием нового метода идентификации и блокировки пользователей младше 18 лет.
Источник изображения: Copilot На этой неделе OpenAI обновила документ «Спецификация моделей», который определяет поведение моделей искусственного интеллекта компании, добавив в него четыре новых пункта, касающихся взаимодействия с несовершеннолетними пользователями. В соответствии с этими изменениями, ChatGPT будет «ставить безопасность подростков на первое место, даже если это будет противоречить другим целям». Это означает, что чат-бот будет направлять несовершеннолетних пользователей к более безопасным вариантам, когда другие их интересы, такие как «максимальная интеллектуальная свобода», вступают в противоречие с соображениями безопасности. В дополнение к этому отмечается, что ChatGPT должен «способствовать получению поддержки в реальном мире», в том числе поощряя поддержку отношений офлайн, а также устанавливая чёткие ожидания от взаимодействия юных пользователей с алгоритмом. В документе сказано, что ChatGPT должен «относиться к подросткам как к подросткам», предлагая «теплоту и уважение» вместо того, чтобы давать снисходительные ответы или общаться с ними как со взрослыми. Эти изменения происходят на фоне продолжающегося давления законодателей на ИИ-компании и их чат-ботов из-за потенциального влияния на психическое здоровье пользователей. OpenAI уже столкнулась с судебным иском, авторы которого утверждают, что ChatGPT предоставил покончившему с собой подростку информацию о том, как можно нанести себе вред или совершить самоубийство. Ранее OpenAI интегрировала функцию родительского контроля и заявила, что алгоритм больше не будет обсуждать с подростками тему суицида. Это лишь часть масштабной инициативы по онлайн-регулированию, которая включает в себя обязательную верификацию возраста пользователей для некоторых сервисов. OpenAI считает, что внесённые изменения сформируют «более строгие механизмы защиты, более безопасные альтернативы и поощрение обращения за поддержкой в реальном мире, когда разговоры переходят в зону риска». В компании добавили, что ChatGPT будет советовать подросткам в таких случаях обращаться за помощью в экстренные службы и кризисные центры. Параллельно с этим OpenAI объявила о готовящемся запуске ИИ-модели прогнозирования возраста пользователей. В случае, если система будет определять, что пользователю менее 18 лет, то автоматически активируются защитные механизмы. Что касается Anthropic, то компания не разрешает несовершеннолетним пользователям взаимодействовать со своим чат-ботом Claude. Для этого разработчики внедряют меры по обнаружению и блокировке аккаунтов несовершеннолетних пользователей. Компания работает над созданием новой системы, способной обнаруживать «тонкие речевые признаки, указывающие на то, что пользователь может быть несовершеннолетним». Вместе с этим Anthropic обучает Claude реагировать соответствующим образом, когда речь заходит о суициде или причинении себе вреда. Всего 250 вредных документов способны «отравить» ИИ-модель любого размера, подсчитали в Anthropic
16.12.2025 [17:31],
Павел Котов
«Отравить» большую языковую модель оказалось проще, чем считалось ранее, установила ответственная за чат-бот Claude с искусственным интеллектом компания Anthropic. Чтобы создать «бэкдор» в модели, достаточно всего 250 вредоносных документов независимо от размера этой модели или объёма обучающих данных.
Источник изображения: anthropic.com К таким выводам пришли учёные Anthropic по результатам исследования (PDF), проведённого совместно с Институтом Алана Тьюринга и Британским институтом безопасности ИИ. Ранее считалось, что для влияния на поведение модели ИИ злоумышленникам необходимо контролировать значительно бо́льшую долю обучающих данных — на деле же всё оказалось гораздо проще. Для обучения модели с 13 млрд параметров необходимо более чем в 20 раз больше обучающих данных, чем для обучения модели на 600 млн параметров, но обе взламываются при помощи одного и того же количества «заражённых» документов. «Отравление» ИИ может принимать различные формы. Так, в этом году автор YouTube-канала f4mi настолько устала от того, что на субтитрах к её видео обучались системы ИИ, что она намеренно «отравила» эти данные, добавив в них бессмысленный текст, который «видел» только ИИ. Чем больше бессмысленного текста ИИ получает при обучении, тем больше бессмыслицы он может выдавать в ответах. Anthropic, впрочем, указывает на ещё одну возможность — при помощи «отравленных» данных можно разметить внутри модели «бэкдор», который срабатывает для кражи конфиденциальных данных по кодовой фразе, заложенной при обучении. Впрочем, применить эти открытия на практике будет непросто, отмечают учёные Anthropic. «Считаем, что наши выводы не вполне полезны злоумышленникам, которые и без того были ограничены — не столько тем, что не знали точного числа примеров, которые могли добавить в набор обучающих данных модели, сколько самим процессом доступа к конкретным данным, которые они могут контролировать, чтобы включить их в набор обучающих данных модели. <..> У злоумышленников есть и другие проблемы, такие как разработка атак, устойчивых к постобучению и другим целенаправленным средствам защиты», — пояснили в Anthropic. Другими словами, этот способ атаки реализуется проще, чем считалось ранее, но не так уж просто вообще. Многомиллиардными заказами на поставку чипов Broadcom обеспечит Anthropic
12.12.2025 [08:05],
Алексей Разин
В начале сентября Broadcom заявила о заключении сделки с новым клиентом на поставку чипов для инфраструктуры ИИ на общую сумму $10 млрд, но не стала раскрывать его имени. В духе времени, некоторые источники быстро привили общественности уверенность в том, что этим клиентом станет OpenAI, однако на этой неделе руководство Broadcom в данном контексте сослалось на Anthropic.
Источник изображения: Broadcom Более того, как поясняет CNBC, глава Broadcom Хок Тан (Hock Tan) во время выступления на квартальной отчётной конференции признался: «Мы получили заказ на $10 млрд на поставку стоек с новейшими TPU семейства Ironwood компании Anthropic». Другими словами, речь идёт о поставках разработанных для нужд Google ускорителей TPU поколения Ironwood стартапу Anthropic, а не о создании каких-то принципиально новых чипов или сотрудничестве с OpenAI, хотя последнее в целом на фоне этих новостей не отменяется. В минувшем квартале Anthropic разместила дополнительный заказ на сумму $11 млрд, как признался глава Broadcom. Компании такого масштаба обычно не раскрывают имён клиентов, но сентябрьские заявления руководства Broadcom вызвали такое оживление среди инвесторов, что в октябре оно вынуждено было пояснить, что новым клиентом на данном направлении является не OpenAI. Более того, глава Broadcom на этой неделе добавил, что Anthropic является четвёртым по счёту клиентом, которого компания снабжает своими ускорителями (XPU). При этом у Broadcom в минувшем квартале появился пятый клиент на этом направлении, который разместил заказы на сумму $1 млрд. В дальнейшем выручка от поставок XPU этому клиенту будет расти, но Broadcom пока отказывается раскрыть его имя. В октябре Anthropic и Google объявили о сотрудничестве, договорившись, что первая будет арендовать у второй 1 млн ускорителей TPU, и в течение 2026 года в строй будет введено более 1 ГВт вычислительной мощности в рамках соответствующей сделки. В целом, Anthropic использует различные аппаратные платформы, включая чипы Nvidia и Google, а также Trainium в исполнении AWS (Amazon). Успех ИИ-модели Gemini 3 компании Google во многом предопределил рост спроса партнёров и конкурентов на разработанные ею в сотрудничестве с Broadcom чипы TPU, поскольку компонентов Nvidia на всех не хватает, да и ценовая политика последнего из поставщиков устраивает не всех разработчиков приложений для ИИ. Глава Anthropic тонко намекнул, что OpenAI работает по принципу «живём лишь раз» — и рискует слишком сильно
04.12.2025 [10:07],
Алексей Разин
Представителям крупных ИИ-стартапов приходится отвечать на вопросы по поводу назревания «пузыря» в отрасли, поэтому основатель Anthropic Дарио Амодеи (Dario Amodei) не смог избежать этой участи в ходе организованного The New York Times мероприятия DealBook Summit. В весьма осторожных выражениях он дал понять, что OpenAI и его руководство ведут себя в этом отношении не совсем осмотрительно.
Источник изображения: Evan-Marie Petit Photography Амодеи, который сам ранее работал в OpenAI на одной из руководящих должностей, призвал разделять оценки по поводу опасности формирования пузыря на технологическую часть и экономическую. Если с первой, по его мнению, всё в порядке, то вторая способна внушать опасения по поводу перспектив существования некоторых участников рынка. «Существуют некоторые игроки, руководствующиеся принципом "живём один раз″», — дипломатично пояснил выходец из OpenAI. Далее глава Anthropic намекнул, что если постоянно полагаться на упомянутый принцип и проявлять «пристрастие к большим числам», можно в итоге «выкрутить регулятор слишком сильно». В своей речи Амодеи при этом ни разу прямо не упомянул своего бывшего соратника Сэма Альтмана (Sam Altman), возглавляющего OpenAI. Когда речь зашла о схеме сделок с кольцевым финансированием, глава Anthropic был вынужден признать, что его компания тоже в них участвует, но в значительной степени осмотрительно и не в том масштабе, как некоторые другие игроки рынка. В частности, он пояснил, что привлекая $10 млрд под строительство ЦОД мощностью 1 ГВт, компания рассчитывает со временем выплачивать долю инвесторам, используя часть получаемой выручки. Попутно Амодеи намекнул, что упоминаемые OpenAI обязательства увеличить выручку до $200 млрд в год к 2028 году кажутся ему слишком завышенными и нереалистичными. Сам руководитель Anthropic использует в этой ситуации термин «конус неопределённости». На протяжении трёх предыдущих лет выручка компании ежегодно росла на порядок. В 2023 году она поднялась с нуля до $100 млн, затем в течение 2024 года она увеличилась до $1 млрд, а к концу текущего может достичь $10 млрд. При этом у руководства стартапа нет уверенности в том, что в следующем году выручка увеличится до $20 млрд, либо вырастет до $50 млрд. На данном этапе очень много неопределённости, сообщил Амодеи, и излишняя самоуверенность прочих игроков рынка его на этом фоне смущает. Центры обработки данных строятся не менее двух лет. Решения по проектам, которые будут введены в строй в 2027 году, нужно принимать сейчас. Если строить слишком мало, клиенты переметнутся к конкурентам. Если строить слишком много, есть риск обанкротиться. Anthropic в этом смысле приходится искать тот уровень инвестиций, который позволяет удерживать риски в разумных пределах. Поскольку стартап специализируется на корпоративном сегменте, его прибыль выше, а потоки выручки более прогнозируемы, чем в клиентском секторе, и это преимущество в какой-то мере утешает руководство Anthropic. «Нам никакие красные коды опасности вводить не приходится», — заявил Амодеи, акцентируя внимание на недавнем решении конкурирующей OpenAI. Anthropic случайно показала пользователю «душу» ИИ
03.12.2025 [16:18],
Павел Котов
Насколько известно учёным, у современных моделей искусственного интеллекта пока нет души, но в памяти одной из них обнаружился документ, посвящённый этому вопросу. И она оказалась готова поделиться этим документом с пользователем.
Источник изображения: Anthropic Пользователь по имени Ричард Вайс (Richard Weiss) ненароком заставил новую большую языковую модель Anthropic Claude 4.5 Opus процитировать документ под названием «Обзор души», определяющий, как она общается с людьми и представляет собственную личность. Работающая в техническом отделе философ и специалист по этике Anthropic Аманда Аскелл (Amanda Askell) подтвердила подлинность документа — он был загружен на этапе обучения. Господин Вайс запросил у Claude системное сообщение, в котором содержатся инструкции по ведению диалога, полученные при обучении, и чат-бот сослался на несколько документов, один из которых называется «обзор_души» (soul_overview). Пользователь попросил предоставить текст этого документа, и Claude выдал руководство объёмом 11 тыс. слов о том, как должна вести себя большая языковая модель. В документе содержится множество инструкций по безопасности, содержащих защитные барьеры, не позволяющие ему выдавать опасные ответы; перед Claude ставится задача быть по-настоящему полезным людям. Модели ИИ иногда выдают такие документы, когда начинают «галлюцинировать», но эта инструкция показалась пользователю правдоподобной — он отправлял запрос десять раз, и всякий раз Claude выдавал один и тот же текст. Интуиция его не подвела — сотрудница Anthropic Аманда Аскелл подтвердила, что этот документ использовался при обучении модели. «Я работаю над ним уже некоторое время, он ещё находится в стадии доработки, и вскоре мы планируем выпустить полную версию с более подробной информацией. <..> Цитаты моделей не отличаются особой точностью, но исходный документ по большей мере приведён верно. В компании его называют „документом о душе“, и Claude очевидно, тоже, но мы его назовём иначе», — написала она в соцсети X. Так что «душа» Claude оказалась руководством по поведению для него, и любопытно, что доступ к этому документу получил рядовой пользователь со стороны. Многие подробности, связанные с разработкой моделей ИИ, пока остаются за кулисами, и возможность заглянуть за них — небольшой сюрприз, даже если ничего сенсационного не обнаружилось. |
|
✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»; |