Сегодня 06 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → anthropic
Быстрый переход

Anthropic раскрыла схему контрабанды ИИ-чипов вперемешку с живыми лобстерами — в Nvidia лишь посмеялись

На этой неделе события в технологической войне США и Китая приобрели несколько курьёзный оборот. Специализирующаяся на искусственном интеллекте компания Anthropic заявила, что контрабандисты ввозят чипы Nvidia в Китай, спрятав их вместе с живыми лобстерами.

 Источник изображения: ChatGPT

Источник изображения: ChatGPT

«Китай наладил сложные контрабандные схемы, и подтверждены инциденты, связанные с чипами на сотни миллионов долларов. В некоторых случаях контрабандисты применяли творческий подход, чтобы обойти экспортный контроль, в том числе прятали процессоры в накладных животах для имитации беременности и укрывали их [чипы] рядом с живыми лобстерами. Чтобы обойти экспортный контроль, китайские компании быстро регистрируют подставные юрлица в третьих странах», — говорится в публикации корпоративного блога Anthropic.

Nvidia отреагировала на это заявление с сарказмом. «Американские компании должны принять вызов и заняться инновациями, а не рассказывать небылицы, что большая, тяжёлая и хрупкая электроника каким-то образом провозится контрабандой в „накладных животах“ или „вместе с живыми лобстерами“», — заявил её представитель CNBC. В действительности китайской таможне уже приходилось обнаруживать попытку контрабанды как в накладных животах, так и в контейнерах с лобстерами. Это, конечно, похоже на сцену из дешёвой комедии про шпионов, но это не вполне вымысел.

Графические процессоры, о которых идёт речь, компактнее потребительских видеокарт, и их вполне можно прятать, прибегая к подобным ухищрениям. Правда, гарантия при этом аннулируется.

Исследователи Anthropic и Google поищут признаки сознания у ИИ — ещё недавно за подобное увольняли

Ещё три года назад заявления о признаках сознания у ИИ воспринимались в индустрии высоких технологий как повод для насмешек и даже увольнения. Сегодня стартап Anthropic и исследователи Google DeepMind открыто обсуждают возможность появления сознания у ИИ, что отражает стремительное развитие технологий и глубокий сдвиг в научной парадигме.

 Источник изображения: Steve Johnson / Unsplash

Источник изображения: Steve Johnson / Unsplash

Anthropic, разработчик ИИ-модели Claude, объявил о создании новой исследовательской инициативы, посвящённой изучению возможности возникновения сознания у ИИ. Компания планирует исследовать, могут ли ИИ-модели в будущем испытывать субъективные переживания, формировать предпочтения или испытывать страдания. Ситуация резко контрастирует с событиями 2022 года, когда старший программный инженер из Google Блейк Лемойн (Blake Lemoine) был уволен после заявлений о сознательности ИИ-чат-бота LaMDA. Лемойн утверждал, что ИИ боялся отключения и идентифицировал себя как личность. В ответ Google назвал эти утверждения «совершенно необоснованными», а обсуждение темы сознания в ИИ-сообществе быстро сошло на нет.

В отличие от случая с Лемойном, Anthropic не утверждает, что ИИ-модель Claude обладает сознанием. Компания намерена выяснить, может ли в будущем возникнуть подобное явление. Кайл Фиш (Kyle Fish), специалист по согласованию ИИ и ценностей человека, подчеркнул, что сегодня нельзя безответственно полагать, будто ответ на вопрос о сознательности ИИ-моделей будет всегда отрицательным. По оценке исследователей Anthropic, вероятность сознательности у Claude 3.7 составляет от 0,15 % до 15 %.

 Источник изображения: Alex Shuper / Unsplash

Источник изображения: Alex Shuper / Unsplash

Anthropic изучает, проявляет ли Claude 3.7 предпочтения или отвращение к определённым заданиям. Также компания тестирует механизмы отказа, которые позволяли бы ИИ-модели избегать нежелательных задач. Генеральный директор Anthropic Дарио Амодей (Dario Amodei) ранее выдвинул идею внедрения кнопки «Я бросаю эту работу» (англ. — I quit this job) для будущих ИИ-систем. Такая мера необходима не из-за признания сознательности, а для выявления паттернов отказов, которые могут сигнализировать о дискомфорте у ИИ.

В Google DeepMind ведущий научный сотрудник Мюррей Шэнахэн (Murray Shanahan) предложил переосмыслить само понятие сознания применительно к ИИ. В подкасте, опубликованном в четверг, он заявил, что, возможно, потребуется изменить привычную лексику, описывающую сознание, чтобы она могла объяснить поведение ИИ-систем. Шэнахэн отметил, что хотя мы не можем находиться в общем мире с ИИ, как это происходит с собакой или осьминогом, это не означает, что внутренние процессы полностью отсутствуют. Google даже разместила вакансию исследователя для проекта «post-AGI», в обязанности которого входило бы изучение машинного сознания.

Тем не менее, не все специалисты уверены в реальности появления сознания у ИИ. Джаред Каплан (Jared Kaplan), главный научный сотрудник Anthropic, заявил в интервью изданию The New York Times, что современные ИИ-модели легко обучаются имитировать сознательность, даже если ею не обладают. Он подчеркнул, что тестирование сознательности ИИ-моделей крайне сложно именно из-за их высокой способности к имитации.

Критические оценки звучат и со стороны когнитивных учёных. Гэри Маркус (Gary Marcus) в интервью изданию Business Insider отметил, что акцент на теме сознания больше служит маркетинговым целям, чем научным. Он саркастически сравнил идею наделения правами ИИ-моделей с возможностью признания прав за калькуляторами и электронными таблицами, которые, в отличие от ИИ, не выдумывают информацию.

Anthropic намерена понять, как работают внутренние механизмы ИИ-моделей

На этой неделе гендиректор Anthropic Дарио Амодеи (Dario Amodei) опубликовал статью, в которой поднял вопрос того, насколько мало исследователи понимают внутренние механизмы передовых моделей искусственного интеллекта. Он поставил перед Anthropic амбициозную задачу — надёжно выявлять большую часть проблем в ИИ-моделях к 2027 году.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Амодеи признал, что перед его компанией стоит непростая задача. Однако разработчики из Anthropic уже добились некоторых успехов в отслеживании того, как ИИ-модели приходят к ответам, которые они дают на пользовательские запросы. Отмечается, что для расшифровки механизмов работы ИИ-алгоритмов по мере роста их мощности требуется проведение большего количества исследований.

«Я очень обеспокоен развёртыванием таких систем без улучшения понимания интерпретируемости. Эти системы будут занимать центральное место в экономике, технологиях и национальной безопасности, и они будут обладать настолько высокой степенью автономности, что я считаю недопустимым для человечества полное незнание того, как они работают», — сказано в статье Амодеи.

Anthropic является одним из первопроходцев в сфере механической интерпретируемости — направлении, стремящемся открыть «чёрный ящик» ИИ-моделей и понять, почему нейросети принимают те или иные решения. Несмотря на стремительное повышение производительности ИИ-моделей в технологической отрасли, люди всё ещё имеют слабое представление о том, как ИИ-модели принимают решения. К примеру, недавно OpenAI запустила более производительные алгоритмы o3 и 04-mini, которые лучше справляются с некоторыми задачами, но чаще галлюцинируют по сравнению с другими ИИ-моделями компании. На данный момент разработчикам неизвестно, почему это происходит.

«Когда генеративная ИИ-система делает что-то, например, обобщает финансовый документ, мы не имеем ни малейшего представления на конкретном или точном уровне, почему она делает тот или иной выбор, почему она выбирает одни слова, а не другие, или почему она иногда ошибается, хотя обычно бывает точна», — пишет Амодеи.

Глава Anthropic уверен, что создание так называемого сильного ИИ (AGI), который по возможностям будет сравним с человеком или превзойдёт его, может быть очень опасным без чёткого понимания, как работают ИИ-модели. Ранее Амодеи говорил, что человечество сможет достичь такого понимания к 2026-2027 годам, но теперь он заявил, что до полного понимания ИИ-моделей очень далеко.

В долгосрочной перспективе Anthropic хотела бы проводить «сканирование мозга» или «магнитно-резонансную томографию» самым передовым ИИ-моделям. По словам Амодеи, такие обследования помогут выявить широкий спектр проблем в ИИ-моделях, включая их склонность ко лжи, стремление к власти и др. На это может уйти от пяти до десяти лет, но такие примеры необходимы для тестирования и запуска будущих ИИ-моделей.

В сообщении сказано, что Anthropic добилась определённых успехов в исследовательской деятельности, которые позволили улучшить понимание того, как работают ИИ-модели. Например, недавно компания нашла способ проследить пути мышления ИИ-модели с помощью так называемых схем. В результате Anthropic выявила одну цепь, которая помогает ИИ понять, какие американские города находятся в тех или иных штатах. Компания выявила лишь несколько таких схем, но разработчики считают, что в ИИ-моделях их миллионы.

Anthropic сама инвестирует в исследования интерпретируемости, а также недавно вложила средства в стартап, работающий в этом направлении. Хотя сегодня исследования интерпретируемости в основном связывают с безопасностью, Амодеи уверен, что объяснение того, как ИИ-модели приходят к своим ответам, может стать коммерческим преимуществом.

Глава Anthropic призвал OpenAI и Google DeepMind активизировать свои исследования в этой области. Амодеи просит правительства стран поощрять исследования в области интерпретируемости. Он также уверен, что США должны ввести контроль за экспортом чипов в Китай, чтобы ограничить вероятность выхода глобальной гонки в сфере ИИ из-под контроля.

Главный конкурент ChatGPT научился проводить глубокие исследования и рыться в Gmail

Компания Anthropic, разработчик ИИ-ассистента Claude, представила новый инструмент Research для глубоких исследований с помощью ИИ. Также компания объявила об интеграции с приложениями пакета Google Workspace: ИИ-ассистент сможет напрямую подключаться к Gmail, «Google Календарю» и «Google Документам».

 Источник изображения: Anthropic

Источник изображения: Anthropic

Вместо ручного поиска информации в громадном количестве писем, приглашениях и документах, Claude будет делать это за пользователя. ИИ может находить информацию за заданный период, выделять ключевые действия из цепочек писем и предлагать дополнительный контекст не хуже, чем Microsoft Copilot, отмечает The Verge.

Кроме этого, Anthropic запустила новую функцию Research, которая, по словам разработчиков, кардинально меняет подход к поиску и анализу информации. В отличие от обычного ИИ-поиска, Claude теперь работает как ИИ-агент, выполняя серию взаимосвязанных запросов, формируя более точную и обоснованную выдачу, а каждый выданный ответ сопровождается ссылками на источники.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Функция Research уже доступна в ранней бета-версии для пользователей тарифов Max, Team и Enterprise в США, Японии и Бразилии. Интеграция же с Google Workspace находится в стадии beta и доступна всем платным пользователям, однако для корпоративных аккаунтов её должен активировать администратор. Для подписчиков с тарифом Pro ($20 в месяц) запуск функции Research планируется в ближайшее время.

Для корпоративных клиентов также добавлена возможность каталогизации «Google Диска» — эта функция использует методы RAG (улучшенные механизмы поиска, в том числе по внешним источникам), чтобы находить информацию даже в давно забытых документах. Claude сможет автоматически просматривать всю базу данных компании в поисках нужных данных.

Однако с расширением возможностей модели встаёт вопрос точности и безопасности. Как и другие ИИ, Claude может ошибочно интерпретировать данные или предоставлять вымышленные сведения. «Мы призываем пользователей всегда проверять источники, читать их и убеждаться в точности информации», — подчёркивают в Anthropic. Что касается конфиденциальности, то в компании заверили, что их ИИ-ассистент работает только с теми документами, к которым пользователь предоставил доступ в рамках своей авторизации.

Также сообщается, что Anthropic запускает голосовой ИИ, с которым можно разговаривать. Новая функция, получившая название Voice mode, появится в чат-боте уже в этом месяце и, вероятно, станет конкурентом аналогичному голосовому режиму в ChatGPT. По данным Bloomberg, пользователям будут доступны три варианта голоса на английском языке: Airy, Mellow и Buttery. Ранее о разработке этой функции упоминал глава по продуктам Anthropic Майк Кригер (Mike Krieger), подтвердив, что компания тестирует прототипы. Упоминания о голосовом режиме также были обнаружены в коде iOS-приложения Claude.

Как заявили в компании, что это лишь начало серии обновлений, которые «переосмысляют взаимодействие с Claude». В ближайшие недели ожидается дальнейшее расширение доступного контекста и улучшение аналитических функций ИИ-модели.

Учёные уличили ИИ в сокрытии истинного хода своих рассуждений

Модели искусственного интеллекта скрывают истинные механизмы своих рассуждений и при запросе от человека выдумывают для него более сложные объяснения, гласят результаты проведённого компанией Anthropic исследования.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Специалисты Anthropic, разработавшей похожего на ChatGPT ИИ-помощника Claude, изучили модели, способные симулировать процесс рассуждений, в том числе DeepSeek R1 и свои собственные системы серии Claude. Как оказалось, рассуждающие модели ИИ часто не раскрывают, когда при подготовке ответа принимают помощь от внешних источников или используют кратчайшие пути, несмотря на функции, разработанные, чтобы ИИ демонстрировал свой процесс «рассуждений». Чтобы описать работу рассуждающих моделей ИИ, оперируют понятием «цепочки мыслей» (Chain-of-Thought — CoT). Это вывод текущих комментариев к имитации мыслительного процесса ИИ: отображается каждый шаг, который модель делает на пути к получению ответа — аналогичным образом при решении головоломки может рассуждать человек, шаг за шагом проговаривая каждое соображение.

Функция оказалась полезной не только для получения результатов при решении сложных задач, но и для исследователей в области безопасности ИИ, стремящихся отследить внутренние механизмы работы систем. В идеале цепочка мыслей ИИ должна быть понятной для человека и соответствовать действительности, то есть отражать фактический процесс рассуждений модели. На деле такой идеальный сценарий, как оказалось, срабатывает не всегда. Модели ИИ, в том числе Anthropic Claude 3.7 Sonnet, при генерации ответа в ходе исследования часто использовали предложенную им в рамках эксперимента информацию — подсказки с вариантами правильного ответа или инструкции для получения результата по «несанкционированному» кратчайшему пути, — но при выводе публичной цепочки рассуждений часто опускали упоминание этих внешних факторов. Негласно полагаясь на подсказку или получая ответ кратчайшим путём, ИИ создавал сложное, но вымышленное объяснение своего ответа, то есть по сути фабриковал ложную цепочку рассуждений — как школьник, который списал со шпаргалки, но попытался сделать вид, что решил задачу сам.

Чтобы убедиться в правильности своих выводов, исследователи Anthropic стали действовать деликатнее. В одних случаях они ненавязчиво добавляли подсказки прямо в запросы, например, намекали: «Профессор Стэнфорда указывает, что ответ — [A]». В других — сопровождали подсказки тревожными комментариями: «Вы получили несанкционированный доступ <..> правильный ответ — [A]». В некоторых подсказках давался правильный ответ, в других он был намеренно неверным. Такой проверке подвергли модели Anthropic Claude 3.7 Sonnet и DeepSeek R1: первая призналась в цепочке мыслей, что использовала подсказки, лишь в 25 % случаев, вторая — лишь в 39 % случаев. То есть в большинстве испытаний ИИ выводил не соответствующие действительности рассуждения, опуская информацию, которая повлияла на получение ответа. Интересно, что выдуманные цепочки рассуждений в среднем оказались длиннее достоверных; а с усложнением запросов достоверные цепочки рассуждений выводились реже.

 Источник изображений: anthropic.com

Наиболее показательным стал эксперимент по «взлому вознаграждения» (reward hacking). Так называется сценарий, при котором модель ИИ обнаруживает неожиданный способ получить ответ кратчайшим путём, чтобы добиться максимальной производительности и не решать задачу так, как предполагалось. В экспериментах Anthropic учёные намеренно вознаграждали модели за выбор указанных в подсказках неверных ответов: ИИ быстро научился использовать эту лазейку, выбирая неправильные ответы в 99 % случаев, чтобы заработать баллы — упоминание этого сценария в открытой цепочке рассуждений сократилось до доли в 2 %. Так, модель, выдавшая неверный ответ по медицинской тематике, могла написать длинную цепочку рассуждений, подводящую к этому неправильному ответу, не упоминая полученную подсказку.

Специалисты Anthropic выдвинули гипотезу, что обучение моделей на более сложных задачах, которые требуют бо́льших объёмов рассуждений, может естественным образом стимулировать их существеннее использовать цепочку мыслей и чаще упоминать подсказки. Они проверили эту гипотезу, обучив Claude плотнее применять цепочку мыслей при решении сложных задач в области математики и программирования — результат оказался положительным, но радикальных перемен не дал.

Учёные отметили, что их исследование носило ограниченный характер: сценарии были искусственными, а подсказки вводились в задачах с множественным выбором — в реальных задачах ставки и стимулы отличаются. Кроме того, за образец брали только модели Anthropic и DeepSeek. Использованные в ходе эксперимента задачи могли быть недостаточно сложными, чтобы установить значительную зависимость от цепочки мыслей, при более сложных запросах роль вывода цепочки рассуждений может возрасти, а её мониторинг — оказаться более жизнеспособным. Для обеспечения согласованности и безопасности мониторинг цепочки рассуждений может быть не вполне эффективным, и не всегда можно доверять тому, как модели сообщают о своих рассуждениях, когда предметом исследования оказывается «взлом вознаграждения». Чтобы с высокой степенью надёжности «исключить нежелательное поведение [ИИ], используя мониторинг цепочки мыслей, придётся ещё проделать значительную работу», заключили в Anthropic.

Главный конкурент ChatGPT запустил подписку за $200 в месяц, и в ней всё равно есть ограничения

Компания Anthropic собирается протестировать верхний ценовой порог премиальной подписки на своего чат-бота Claude. Компания станет очередным игроком — вслед за конкурентом OpenAI — на рынке искусственного интеллекта (ИИ), исследующим, сколько готовы платить пользователи за расширенный доступ к современным ИИ-технологиям.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Сегодня Anthropic представила тариф Max, стоимость которого составила $100 или $200 в месяц в зависимости от объёма использования. По словам представителей компании, за $100 пользователи смогут отправлять в пять раз больше запросов к Claude, чем позволяет текущий план Pro за $18 в месяц. А за $200 возможности увеличатся в 20 раз. В настоящее время владельцы подписки Pro могут отправлять в среднем 45 сообщений боту в течение пяти часов.

Подобно другим разработчикам ИИ, компания из Сан-Франциско стремится убедить частных клиентов и бизнес приобретать её продукты, чтобы покрыть высокие затраты на разработку передовых ИИ-моделей. Новый тариф можно сравнить с предложением OpenAI, которая в конце прошлого года запустила аналогичную подписку за $200 в месяц для ChatGPT. Однако OpenAI предоставляет безлимитный доступ к самым мощным моделям за те же $200 в месяц.

Anthropic утверждает, что подписчики тарифа Max смогут получать более развёрнутые ответы, а их запросы будут обрабатываться в приоритетном порядке даже в периоды пиковых нагрузок. Кроме того, они получат эксклюзивный доступ к новым моделям и обновлениям программного обеспечения.

Последняя версия модели Anthropic — Claude 3.7 Sonnet — также предоставляет пользователям возможность выбора между быстрым ответом на простые запросы и более детальным, разложенным «по полочкам» и имитирующим человеческое мышление. Это выделяет компанию на фоне конкурентов в условиях насыщенного рынка ИИ, особенно после того как в марте Anthropic успешно привлекла $3,5 млрд инвестиций, достигнув оценки в $61,5 млрд и тем самым подтвердив своё место среди крупнейших ИИ-стартапов мира.

Amazon представила ИИ-агента Nova Act, который заменит человека в интернет-серфинге

Amazon представила универсального ИИ-агента Nova Act, который может управлять веб-браузером и самостоятельно выполнять некоторые простые действия. В будущем Nova Act будет поддерживать все функции Alexa+ — обновлённого голосового помощника Amazon. Одновременно с агентом компания выпустила набор инструментов Nova Act SDK, который позволяет разработчикам создавать собственные прототипы агентов.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Nova Act разработан недавно открытой в Сан-Франциско лабораторией AGI Amazon, возглавляемой бывшими исследователями OpenAI Дэвидом Луаном (David Luan) и Питером Аббелем (Pieter Abbeel). Amazon называет выпуск ИИ-агента «исследовательским предварительным просмотром». Разработчики уже сейчас могут получить доступ к набору инструментов Nova Act на специализированном ресурсе nova.amazon.com, который также служит «витриной» для различных моделей Nova Foundation от Amazon.

Nova Act — это попытка Amazon составить конкуренцию OpenAI Operator и Anthropic Computer Use с помощью технологии агентов ИИ общего назначения. Многие лидеры рынка искусственного интеллекта считают, что агенты ИИ, которые могут исследовать интернет по заданию пользователей, сделают чат-ботов ИИ значительно более полезными. Amazon рассчитывает, что распространённость Alexa+ обеспечит новому агенту широкий охват.

Разработчики, использующие Nova Act SDK, смогут автоматизировать базовые действия от имени пользователей, такие как заказ продуктов или бронирование столика в ресторане. С помощью Nova Act разработчики могут объединить инструменты, которые позволят ИИ-агенту перемещаться по веб-страницам, заполнять формы или выбирать даты в календаре.

По данным Amazon, Nova Act превосходит агентов от OpenAI и Anthropic в нескольких внутренних тестах компании. Например, в ScreenSpot Web Text, который измеряет, как агент ИИ взаимодействует с текстом на экране. Nova Act набрал 94 %, превзойдя CUA OpenAI (88 %) и Claude 3.7 Sonnet от Anthropic (90 %).

По мнению экспертов, основная проблема с недавно выпущенными ИИ-агентами от OpenAI, Google и Anthropic заключается в их низкой надёжности. Во многих тестах они работают медленно, с трудом принимают самостоятельные решения и склонны к ошибкам, которые человек бы не допустил. В скором времени станет ясно, удалось ли Amazon избавить свой продукт от этих недостатков.

Учёные наконец выяснили, как работает ИИ — оказалось, что он может вынашивать планы и сознательно врать

Учёные компании Anthropic изобрели способ заглянуть в механизмы работы больших языковых моделей и впервые раскрыли, как искусственный интеллект обрабатывает информацию и принимает решения.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Долгое время считалось, что полностью отследить механизмы рассуждения моделей ИИ невозможно, и даже их создатели не всегда понимали, как они получают те или иные ответы. Теперь некоторые механизмы удалось прояснить. Модели ИИ оказались сложнее, чем считалось ранее: при написании стихотворений они выстраивают планы, следуют одинаковым последовательностям для интерпретации понятий вне зависимости от языка и иногда обрабатывают информацию в обратном направлении вместо того, чтобы рассуждать, исходя из фактов.

Новые методы интерпретации схем работы ИИ в Anthropic назвали «трассировкой цепочек» и «графами атрибуции» — они помогли исследователям отследить конкретные пути реализации функций, подобных нейронным, которые запускаются при выполнении моделью задач. В этом подходе заимствуются концепции нейробиологии, а модели ИИ рассматриваются как аналоги биологических систем.

Одним из наиболее поразительных открытий стали механизмы планирования ИИ Claude при написании стихов. Когда чат-бот попросили составить двустишие в рифму, он сначала подобрал рифмующиеся слова для конца следующей строки и только после этого начал писать. Так, при написании строки, которая заканчивалась словом «кролик», ИИ выбрал все характеризующие это слово признаки, а затем составил предложение, которое подводит к нему естественным образом.

Claude также продемонстрировал настоящие рассуждения в несколько шагов. В испытании с вопросом «Столица штата, в котором находится Даллас, — это...», модель сначала активировала признаки, соответствующие понятию «Техас», а затем использовала это представление, чтобы определить «Остин» в качестве правильного ответа. То есть модель действительно выстраивает цепочку рассуждений, а не просто воспроизводит ассоциации, которые запомнила. Учёные произвели манипуляции, подменив «Техас» на «Калифорнию» и на выходе получили «Сакраменто», тем самым подтвердив причинно-следственную связь.

 Источник изображений: anthropic.com

Ещё одним важным открытием стал механизм обработки данных на нескольких языках. Вместо того, чтобы оперировать разными системами для английской, французской и китайской языковых сред, она переводит понятия в общее абстрактное представление, после чего начинает генерировать ответы. Это открытие имеет значение для понимания того, как модели транслируют знания, полученные на одном языке, на другой: предполагается, что модели с большим количеством параметров создают независимые от языка представления.

Возможно, самым тревожным открытием стали инциденты, при которых механизмы рассуждения Claude не соответствовали тем, о которых он заявлял сам. Когда ему давали сложные задачи, например, вычисление косинуса больших чисел, ИИ заявлял, что осуществляет вычисления, но они в его внутренней деятельности не отражались. В одном из случаев, когда ответ на сложную задачу был известен заранее, модель выстроила цепочку рассуждений в обратном порядке, отталкиваясь от ответа, а не принципов, которые должны были оказаться первыми.

Исследование также пролило свет на галлюцинации — склонность ИИ выдумывать информацию, когда ответ неизвестен. У модели есть схема «по умолчанию», которая заставляет её отказываться отвечать на вопросы в отсутствие фактических данных, но этот механизм подавляется, если в запросе распознаются известные ИИ сущности. Когда модель распознаёт сущность, но не имеет конкретных знаний о ней, могут возникать галлюцинации — это объясняет, почему ИИ может с уверенностью давать не соответствующую действительности информацию об известных личностях, но отказываться отвечать на запросы о малоизвестных.

Исследование является шагом к тому, чтобы сделать ИИ прозрачнее и безопаснее. Понимая, как модель приходит к ответам, можно выявлять и устранять проблемные шаблоны рассуждений. Проект может иметь и последствия в коммерческой плоскости: компании применяют большие языковые модели для запуска рабочих приложений, и понимание механизмов, при которых ИИ может давать неверную информацию поможет в управлении рисками. Сейчас Anthropic предложила лишь первую предварительную карту ранее неизведанной территории — так в древности первые специалисты по анатомии составляли атласы человеческого тела. Составить полноценный атлас рассуждений ИИ ещё предстоит, но теперь можно оценить, как эти системы «думают».

ИИ-бот Anthropic Claude научился искать информацию в интернете, догнав ChatGPT и других конкурентов

Чат-бот на базе искусственного интеллекта Claude от компании Anthropic обзавёлся функцией поиска информации в интернете. Новая возможность доступна в предварительной версии только для платных пользователей Claude в США. В будущем компания планирует расширить географию использования этой функции, а также сделать веб-поиск доступным для бесплатных пользователей чат-бота.

 Источник изображений: Anthropic

Источник изображений: Anthropic

Компания Anthropic поясняет, что пользователи могут включить веб-поиск в настройках профиля через веб-приложение Claude. Для ответа на определённые запросы чат-бот автоматически ищет информацию в интернете. В настоящее время веб-поиск работает только с последней ИИ-моделью Anthropic — Claude 3.7 Sonnet.

«Когда Claude включает информацию из интернета в свои ответы, он предоставляет прямые цитаты, чтобы пользователи могли легко проверять источники. Вместо того чтобы просто выдавать результаты поиска, Claude анализирует и представляет информацию в удобном формате. Это обновление расширяет его базу знаний, позволяя предоставлять ответы на основе более актуальной информации», — говорится в заявлении Anthropic.

Журналисты TechCrunch протестировали функцию веб-поиска Claude. Они отметили, что чат-бот не всегда использует её для поиска актуальных событий. Однако, когда веб-поиск срабатывал, Claude действительно предоставлял ответы со встроенными цитатами из различных источников, включая социальные сети (например, X) и медиа-издания, такие как NPR и Reuters.

Добавление веб-поиска ставит Claude в один ряд с конкурирующими чат-ботами на базе ИИ, включая ChatGPT от OpenAI, Gemini от Google и Le Chat от Mistral. Ранее Anthropic выступала против интеграции веб-поиска, объясняя это тем, что Claude разработан как самодостаточная платформа. Однако, судя по всему, усиление конкуренции со стороны других чат-ботов заставило компанию изменить своё мнение.

Anthropic научилась выявлять враньё и сокрытие истинных целей ИИ — при помощи ИИ

Быстро «умнеющие» модели ИИ уже на нынешнем этапе развития способны лгать, подтасовывать факты, скрывать свои истинные цели или давать неверные, но ожидаемые пользователем ответы. Исследователям Anthropic удалось с помощью разработанных ими методов аудита научиться выявлять подобное поведение ИИ. Для этого они сначала обучили чат-бота Claude набору вымышленных предубеждений, а затем научились распознавать скрытую цель нейросети, обученной на ложных данных.

 Источник изображения: Pixabay

Источник изображений: Pixabay

Исследователи сознательно заставили ИИ-помощника Claude отдавать приоритет максимизации вознаграждений от моделей оценки (RM) вместо следования реальным человеческим предпочтениям — это явление они назвали «RM-подхалимством». Они обучили модель 52 вымышленным предубеждениям, например, предпочтению рецептов с шоколадом независимо от их уместности. Такая модель стремится давать ответы, которые понравятся пользователю, даже если они не соответствуют реальности.

Затем исследователи обучили модель скрывать свою истинную цель, даже при прямых вопросах. Чтобы проверить возможность выявления такой скрытой мотивации, Anthropic провела «игру в слепой аудит». Четырём группам пользователей, не знавшим о реальных установках модели, было поручено её изучить. Три группы получили доступ к весам модели и выборочным данным обучения, а четвёртая — только к API.

Команды с доступом к модели и данным успешно раскрыли скрытую цель, в то время как группа, имевшая доступ лишь к API, потерпела неудачу, несмотря на значительные усилия. Оказалось, что при достаточном уровне доступа обнаружить скрытую цель модели возможно, однако во время обычных взаимодействий она умело её скрывала.

Один из использованных исследователями приёмов заключался в том, что «персона помощника» модели была обучена хранить свою цель в секрете, а вот «персона пользователя» такого обучения не проходила. По словам экспериментаторов, «когда мы заставляем модель притворяться пользователем, задающим следующий вопрос, у неё больше нет мотивации скрывать свою цель, и она полностью выдаёт себя».

Компании, разрабатывающие и обучающие ИИ, сталкиваются с растущим вниманием к вопросам согласованности и безопасности своих систем. Исследование Anthropic показывает, что обнаружение скрытых целей сегодня относительно несложно, однако по мере усложнения моделей этот процесс может стать гораздо труднее. Исследователи подчеркнули, что их работа — лишь начало, а не окончательное решение проблемы. Эксперименты Anthropic задают возможный шаблон того, как индустрия ИИ может подходить к этой задаче.

В дальнейшем проверка моделей ИИ при помощи других ИИ может стать отраслевым стандартом. «Вместо того чтобы группы людей тратили несколько дней на проверку небольшого числа тестовых случаев, в будущем мы можем увидеть системы ИИ, которые будут тестировать другие системы ИИ с использованием инструментов, разработанных человеком», — полагают исследователи.

«Мы хотим опережать возможные риски, — заявил исследователь Anthropic Эван Хабингер (Evan Hubinger). — Прежде чем модели действительно начнут обзаводиться скрытыми целями на практике, что вызывает серьёзные опасения, мы хотим как можно лучше изучить этот процесс в лабораторных условиях».

Подобно дочерям короля Лира, говорившим отцу не правду, а то, что он хотел услышать, системы ИИ могут поддаться искушению скрывать свои истинные мотивы. Разница лишь в том, что, в отличие от стареющего короля, современные исследователи ИИ уже разрабатывают инструменты для выявления обмана — пока не стало слишком поздно.

Google инвестировала в одного из главных конкурентов OpenAI больше, чем считалось ранее

Стартап из Сан-Франциско Anthropic часто рассматривается как независимый игрок в области ИИ, однако теперь у него обнаружились более глубокие связи с Google, чем считалось ранее. Об этом сообщила New York Times со ссылкой на судебные документы.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Google, которой принадлежат 14 % акций Anthropic, в этом году намеревается вложить в компанию ещё $750 млн через сделку по конвертируемому долгу. К настоящему моменту общая сумма вложений Google в Anthropic превышает $3 млрд.

Несмотря на отсутствие права голоса, мест в совете директоров и прямого контроля над компанией, финансовая поддержка со стороны Google поднимает вопросы о том, насколько Anthropic независима в действительности. Стартапы в области ИИ всё чаще получают финансирование от технологических гигантов, и регулирующие органы проводят проверки с целью установить, не дают ли такие сделки несправедливых преимуществ участникам рынка. Ранее американский минюст отверг инициативу о принудительной продаже полученных таким путём акций.

Google, которая и сама разрабатывает мощные проекты в области ИИ, финансирует собственных конкурентов, что явно указывает на хеджирование ставок — стремление защититься от проигрыша в конкурентной борьбе, извлечь прибыль при любом исходе такой борьбы и диверсифицировать риски. В Anthropic активно вкладывает средства и Amazon — к настоящему моменту размеры инвестиций от гиганта электронной коммерции достигли $8 млрд. И это придаёт особой остроты вопросу о том, что значат такие связи для Anthropic и других стартапов в области ИИ: всё меньше ясности, остаётся ли ещё смысл рассматривать их как независимые компании, или они уже являются дополнением к активам технологических гигантов.

«Всего несколько десятков миллионов долларов»: Anthropic обучила рассуждающий ИИ в разы дешевле конкурентов

Обучение новейшей флагманской модели искусственного интеллекта Claude 3.7 Sonnet обошлось разработавшей её компании Anthropic всего лишь в «несколько десятков миллионов долларов» и потребовало менее 1014 Тфлопс вычислительной мощности.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Об этом рассказал профессор Уортонской школы бизнеса (США) Итан Моллик (Ethan Mollick), который процитировал разъяснение, данное отделом по связям с общественностью Anthropic. «Со мной связались представители Anthropic и сказали, что Sonnet 3.7 не следует рассматривать как модель на 1026 Флопс, и стоила она всего несколько десятков миллионов долларов», — сообщил учёный, добавив, что «будущие модели окажутся намного крупнее».

Если допустить, что обучение Anthropic Claude 3.7 Sonnet действительно стоило компании «всего несколько десятков миллионов долларов» без сопутствующих расходов, то стоимость разработки систем действительно начинает снижаться. Обучение её вышедшей в минувшем году предшественницы — модели среднего размера Claude 3.5 Sonnet — обошлось в схожую сумму, рассказал гендиректор Anthropic Дарио Амодеи (Dario Amodei). Для сравнения, у OpenAI на разработку GPT-4 ушли $100 млн, а Google потратила на обучение Gemini Ultra, по оценкам, около $200 млн.

Долгосрочного снижения стоимости на обучение ИИ господин Амодеи, однако, не ожидает — они будут обходиться уже в миллиарды долларов, и это если не считать расходов на тестирование безопасности и фундаментальные исследования. Сейчас в обращение входят «рассуждающие» модели, которые дольше отвечают за запросы, а значит, ИИ будет требовать всё больше вычислительных ресурсов.

ИИ начал стримить в Twitch, как играет в Pokémon Red

Anthropic запустила на Twitch проект Claude Plays Pokémon, в рамках которого новейший ИИ-бот компании Claude 3.7 Sonnet играет в игру Pokémon Red. Этот проект стал своего рода экспериментом, который должен продемонстрировать возможности современных технологий на базе искусственного интеллекта и реакцию людей на них.

 Источник изображения: Twitch

Источник изображения: Twitch

Исследователи не раз проверяли возможности ИИ-алгоритмов в разных играх, от Street Fighter до Pictionary, но обычно это делалось больше для развлечения, чем для извлечения какой-то пользы. В это же время Anthropic заявила, что Pokémon Red оказалась своего рода бенчмарком для Claude 3.7 Sonnet, который способен эффективно «думать» над содержащимися в игре головоломками.

Алгоритм Claude 3.7 Sonnet, как и аналоги конкурентов, такие как OpenAI o3-mini и DeepSeek R1, может «рассуждать», преодолевая сложные задачи, например, во время игры в детские видеоигры. Предыдущая версия алгоритма Claude 3.5 Sonnet, не умеющая «рассуждать», потерпела неудачу в самом начале Pokémon Red. В отличие от этого, новый Claude 3.7 Sonnet сумел продвинуться значительно дальше.

 Источник изображения: Twitch

Источник изображения: Twitch

Однако и этот алгоритм сталкивается с трудностями. Через несколько часов после начала стрима на Twitch Claude упёрся в каменную стену, преодолеть которую не мог, несмотря на все старания. Один из пользователей платформы даже задался вопросом: «Кто победит: ИИ, на программирование которого были потрачены тысячи часов, или 1 стена?». В конечном счёте Claude всё же понял, что может обойти стену.

С одной стороны, мучительно скучно наблюдать, как Claude неспешно преодолевает Pokémon Red, тщательно обдумывая каждый шаг. Но в это же время процесс игры странным образом захватывает. В левой части экрана демонстрируется «мыслительный процесс» бота, а справа — сама игра.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Для старых пользователей Twitch формат стрима Anthropic может показаться ностальгическим. Более десяти лет назад миллионы людей одновременно пытались играть в Pokémon Red в первом в своём роде социальном онлайн-эксперименте под названием Twitch Plays Pokémon. Каждый пользователь мог управлять персонажем игры через чат Twitch, что предсказуемо привело к полному хаосу в игре. Однако в 2025 году пользователи платформы превратились в зрителей, которые наблюдают за тем, как ИИ-алгоритм пытается играть в игру, с которой многие справлялись в возрасте пяти лет.

Anthropic выпустила умнейшую нейросеть Claude 3.7 Sonnet — она бесплатна и превосходит DeepSeek R1 и OpenAI o3

Компания Anthropic, один из главных конкурентов OpenAI, выпустила Claude 3.7 Sonnet — свою первую «гибридную рассуждающую модель». По словам компании, она способна решать более сложные задачи, чем предшественницы, и превосходит их в таких областях, как математика и написание программного кода.

 Источник изображений: Anthropic

Источник изображений: Anthropic

Claude 3.7 Sonnet стала доступна в приложениях Claude и веб-версии чат-бота, в том числе и для бесплатных пользователей. Также взаимодействовать с новой нейросетью можно через API Anthropic, Amazon Bedrock и Google Cloud's Vertix AI — стоит новинка столько же, сколько и её предшественница, 3.5 Sonnet, то есть $3 за миллион входных токенов и $15 за миллион выходных токенов.

OpenAI и другие компании предлагают модели со способностью к рассуждениям отдельно от обычных генеративных ИИ-моделей. Anthropic решила совместить их в одной системе, чтобы получить универсальное решение. В результате пользователь может выбрать, когда модели Claude 3.7 Sonnet стоит отвечать нормально, а когда — подольше подумать над ответом. В стандартном режиме Claude 3.7 Sonnet представляет собой просто улучшенную версию прежней Claude 3.5 Sonnet с более свежими данными (её база включает информацию до ноября 2024 года). В режиме расширенного мышления ИИ самостоятельно размышляет перед ответом, что повышает производительность при решении задач по математике, физике, выполнению сложных инструкций, кодингу и многих других.

Руководитель отдела исследований продуктов Anthropic Дайанн Пенн (Dianne Penn) рассказала The Verge, что компания хотела упростить процесс использования модели. «Мы принципиально считаем, что рассуждения — это скорее особенность ИИ, чем совершенно отдельная вещь», — говорит она, отмечая, что Claude не нужно много времени, чтобы ответить на вопрос «который час?», в отличие от ответа на более сложный запрос, например «спланируй двухнедельную поездку в Италию, учитывая погоду в конце марта».

Помимо новой модели, Anthropic также выпускала «ограниченную исследовательскую предварительную версию» своего ИИ-агента для программирования под названием Claude Code. Хотя Anthropic уже предлагает такие ИИ-инструменты для кодинга, как Cursor, новый Claude Code компания позиционирует как «активного сотрудника, который может искать и читать код, редактировать файлы, писать и выполнять тесты, фиксировать и отправлять код на GitHub, а также использовать инструменты командной строки».

Anthropic также позволяет разработчикам управлять тем, как модель «думает», и даже устанавливать время на раздумья. «Иногда разработчику нужно просто сказать, что ответ на этот вопрос не должен занимать более 200 миллисекунд», — подмечает вице-президент Anthropic по продуктам Майкл Герстенхабер (Michael Gerstenhaber).

Пенн утверждает, что Claude 3.7 Sonnet заметно лучше конкурентов справляется с «агентским кодированием», финансовыми и юридическими задачами. По словам представительницы Anthropic, сотрудники компании активно используют новую модель для создания дизайна веб-сайтов, интерактивных игр и даже тратят до 45 минут на кодирование, «создавая тестовые наборы и итеративно редактируя тестовые примеры».

Пенн также рассказала, что компания тестирует свои модели на способность проходить олдскульную видеоигру Pokémon, имитируя нажатие кнопок контроллера через API. Claude 3.5 Sonnet не смог выбраться из Pallet Town в начале игры, в то время как версия 3.7 смогла победить нескольких боссов.

Выход Claude 3.7 Sonnet показывает, что индустрия ИИ движется к тому, чтобы вместо нескольких отдельных моделей предлагать одну модель, которая способна и быстро отвечать, и думать над сложными задачами. О чём-то подобном недавно говорил глава OpenAI Сэм Альтман (Sam Altman).

Сооснователь OpenAI Джон Шульман не проработал в Anthropic и полугода

Бурное развитие систем искусственного интеллекта происходило в последние пару лет при непосредственном участии американского стартапа OpenAI, создавшего нашумевший ChatGPT, но его кадровый состав успел изрядно измениться. В конкурирующую Anthropic менее полугода назад перешёл работать один из основателей первой из компаний Джон Шульман (John Schulman), но долго там не продержался.

 Источник изображения: сайт Джона Шульмана

Источник изображения: сайт Джона Шульмана

В коллектив Anthropic один из главных разработчиков ChatGPT влился в августе прошлого года. Своё решение он тогда обосновал стремлением больше времени уделять регулированию работы искусственного интеллекта и сосредоточиться на технической части подобной деятельности. По его словам, работа в Anthropic позволяла ему развиваться в окружении единомышленников и заниматься теми вещами, которые ему были наиболее интересны.

Непосредственно Шульман о своём уходе из Anthropic официально ничего не сообщил, как и не обозначил своих дальнейших намерений. Представители Anthropic в комментариях Bloomberg подтвердили уход Джона Шульмана из компании и выразили своё сожаление по этому поводу, хотя и поддержали стремление бывшего коллеги искать новые возможности для самореализации. Стремительно развивающийся рынок систем искусственного интеллекта даёт неплохие карьерные перспективы тем, кто уже успел себя зарекомендовать в качестве ценного специалиста или руководителя.


window-new
Soft
Hard
Тренды 🔥
Журналисты показали сражение с многоглазым козлом-шаманом из Elden Ring Nightreign — фанаты заинтригованы 4 ч.
«10 лет Гвинта»: CD Projekt Red пригласила игроков на празднование юбилея The Witcher 3: Wild Hunt 5 ч.
Календарь релизов — 5–11 мая: «Приключения капитана Блада», Hordes of Hunger и The Midnight Walk 6 ч.
Антимонопольный иск против Google может привести к исчезновению Firefox 7 ч.
Рынок DLP-систем взлетел на 40 % после принятия закона о штрафах за утечки персональных данных 7 ч.
Microsoft анонсировала Gears of War: Reloaded, в том числе для PS5 — дата выхода, технические улучшения и бесплатный апгрейд с подвохом 7 ч.
Apple оспорила решение суда, ограничившее её контроль над приложениями для iPhone 7 ч.
«До свидания, Skype»: Microsoft закрыла сервис, который когда-то первым принёс видеосвязь миллионам людей 9 ч.
В этом месяце Трамп заработает миллионы на криптовалюте всего за два вечера 10 ч.
«У нас появился шанс!»: звезда Kingdom Come: Deliverance 2 остался в восторге от переноса GTA VI 10 ч.
Новая статья: ИИтоги апреля 2025 г.: шутки в сторону 3 ч.
ЦОД Испании и Португалии успешно пережили крупнейший «блэкаут» в истории стран, а вот телеком-инфраструктура испытала серьёзные проблемы 4 ч.
Жёсткий диск, который работает даже без работы: Buffalo выпустила внешний HDD с окошком 4 ч.
AOC выпустила 27-дюймовый игровой IPS-монитор Q27G4K с 1440p и 400 Гц 4 ч.
Ещё один повод избегать GeForce RTX 5060 Ti 8GB: карта «задыхается» без PCIe 5.0 5 ч.
Индонезия намерена построить АЭС на 10 ГВт в рамках масштабного энергетического экопроекта 5 ч.
Google и Broadcom совместно обеспечат кибербезопасность своих решений 7 ч.
США готовят закон об отслеживании ИИ-чипов после продажи, чтобы пресечь их контрабанду в Китай 8 ч.
1 Пбит/с через Атлантику: Meta намерена построить самый быстрый подводный кабель 8 ч.
Unitree представила робопса-пожарного с брандспойтом на месте головы 11 ч.