Сегодня 26 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → anthropic
Быстрый переход

Галлюцинации у моделей ИИ случаются реже, чем у людей, заявил глава Anthropic

Современные модели искусственного интеллекта демонстрируют галлюцинации, то есть дают заведомо не соответствующие действительности ответы на вопросы, реже, чем люди. Такое заявление сделал гендиректор Anthropic Дарио Амодеи (Dario Amodei) на проводимой компанией конференции Code with Claude.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Галлюцинации, по мнению господина Амодеи, не являются препятствием к разработке сильного ИИ (Artificial General Intelligence — AGI), то есть системы, сравнимой по уровню развития с человеком. «На самом деле всё зависит от подхода, но у меня есть подозрения, что модели ИИ, вероятно, галлюцинируют реже, чем люди, но галлюцинируют они более удивительным образом», — заявил глава Anthropic ресурсу TechCrunch. Дарио Амодеи относится к числу оптимистов в отрасли ИИ. В его прошлогодней статье говорится, что AGI может появиться уже в 2026 году. Поводов отказаться от этой позиции он не нашёл и накануне — по его мнению, в этом направлении наблюдается устойчивый прогресс, и «вода поднимается повсюду». «Все и всегда ищут эти жёсткие ограничения на то, что может делать [ИИ]. Их не видно нигде. Нет такого», — уверен гендиректор Anthropic.

С ним согласны не все. Глава подразделения Google DeepMind Демис Хассабис (Demis Hassabis) на этой неделе заявил, что у сегодняшних моделей ИИ слишком много «дыр», и эти модели дают неправильные ответы на слишком большое число очевидных вопросов. А адвокат самой Anthropic в этом месяце был вынужден извиняться за то, что использованный компанией для составления иска чат-бот Claude указал в цитатах неверные имена и должности. Проверить утверждение господина Амодеи непросто: в большинстве тестов на галлюцинации модели сравниваются друг с другом, а не с человеком. В отдельных случаях число таких проявлений удаётся снизить, открывая чат-ботам доступ к веб-поиску; а OpenAI GPT-4.5 значительно снизила процент галлюцинаций по сравнению с моделями предыдущих поколений. С другой стороны, рассуждающие модели OpenAI o3 и o4-mini, как стало известно ранее, дают не соответствующие действительности ответы чаще, чем предшественники, и пока не удалось установить, почему.

Телеведущие, политики и вообще люди всех профессий совершают ошибки постоянно, указал Дарио Амодеи, и тот факт, что их совершает также ИИ, не может выступать аргументом для критики его способностей. Но, признал он, уверенность, с которой ИИ выдаёт вымысел за факты, может обернуться проблемой. Anthropic уже неоднократно изучала склонность моделей ИИ обманывать людей. Исследовательский институт Apollo Research, которому предоставили ранний доступ к Claude Opus 4, установил, что модель имеет значительные склонности к интригам и обману, и порекомендовала Anthropic отозвать её — разработчик заявил, что принял некоторые меры, которые смягчили выявленные проблемы.

Заявление главы Anthropic свидетельствует, что компания может признать за достаточно развитой моделью ИИ уровень AGI, даже если она не избавилась от галлюцинаций, но некоторые эксперты такую позицию отвергают.

Anthropic представила Claude 4 — ИИ научился избегать «лазеек» и точнее выполнять сложные задания

Anthropic анонсировала выход двух новых ИИ-моделей — Claude Opus 4 и Claude Sonnet 4. Модели предназначены для решения сложных задач, написания кода и поиска в интернете. По словам компании, флагманская модель Opus 4 стала самой мощной в линейке, а также способна автономно работать до семи часов.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Opus 4 и Sonnet 4, в отличие от предыдущих моделей, стали на 65 % менее склонны к использованию «лазеек» и упрощённых путей при выполнении заданий. Кроме того, они лучше сохраняют важную информацию при работе над долгосрочными задачами, особенно при наличии доступа к локальным файлам пользователя.

Разработчики также утверждают, что модель Opus 4 превзошла конкурентов по ряду параметров. Например, внутренние тесты показали, что она превзошла Google Gemini 2.5 Pro, OpenAI o3 reasoning и GPT-4.1 в задачах, связанных с программированием и использованием инструментов, таких как веб-поиск.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Версия Sonnet 4, ориентированная на общие задачи, пришла на смену выпущенной ранее версии Sonnet 3.7. Как подчёркивают в компании, новая модель отличается более точными ответами и улучшенными навыками логического мышления и написания кода. Среди новых функций можно отметить thinking summaries (сводки размышлений), которые позволяют кратко отображать ход рассуждений ИИ в понятной форме, а также запускается бета-версия функции extended thinking (расширенное мышление), дающая возможность переключать модели между режимами логического анализа и использования инструментов для повышения точности ответа.

Обе модели Claude Opus 4 и Claude Sonnet 4 уже доступны через API Anthropic, платформу Amazon Bedrock и сервис Vertex AI от Google Cloud. Обе версии включены в платные подписки Claude, а Sonnet 4 также доступна бесплатно. Однако расширенные функции, включая расширенное размышление (extended thinking), доступны только платным подписчикам.

Кроме того, агентский командный интерфейс Claude Code, предназначенный для разработчиков и представленный ранее в ограниченном тестировании, теперь стал общедоступным. После предварительного релиза в феврале он уже доступен всем пользователям. Anthropic также объявила о планах выпускать обновления моделей почаще, чтобы соответствовать темпам развития конкурентов — OpenAI, Google и Meta.

Anthropic раскрыла схему контрабанды ИИ-чипов вперемешку с живыми лобстерами — в Nvidia лишь посмеялись

На этой неделе события в технологической войне США и Китая приобрели несколько курьёзный оборот. Специализирующаяся на искусственном интеллекте компания Anthropic заявила, что контрабандисты ввозят чипы Nvidia в Китай, спрятав их вместе с живыми лобстерами.

 Источник изображения: ChatGPT

Источник изображения: ChatGPT

«Китай наладил сложные контрабандные схемы, и подтверждены инциденты, связанные с чипами на сотни миллионов долларов. В некоторых случаях контрабандисты применяли творческий подход, чтобы обойти экспортный контроль, в том числе прятали процессоры в накладных животах для имитации беременности и укрывали их [чипы] рядом с живыми лобстерами. Чтобы обойти экспортный контроль, китайские компании быстро регистрируют подставные юрлица в третьих странах», — говорится в публикации корпоративного блога Anthropic.

Nvidia отреагировала на это заявление с сарказмом. «Американские компании должны принять вызов и заняться инновациями, а не рассказывать небылицы, что большая, тяжёлая и хрупкая электроника каким-то образом провозится контрабандой в „накладных животах“ или „вместе с живыми лобстерами“», — заявил её представитель CNBC. В действительности китайской таможне уже приходилось обнаруживать попытку контрабанды как в накладных животах, так и в контейнерах с лобстерами. Это, конечно, похоже на сцену из дешёвой комедии про шпионов, но это не вполне вымысел.

Графические процессоры, о которых идёт речь, компактнее потребительских видеокарт, и их вполне можно прятать, прибегая к подобным ухищрениям. Правда, гарантия при этом аннулируется.

Исследователи Anthropic и Google поищут признаки сознания у ИИ — ещё недавно за подобное увольняли

Ещё три года назад заявления о признаках сознания у ИИ воспринимались в индустрии высоких технологий как повод для насмешек и даже увольнения. Сегодня стартап Anthropic и исследователи Google DeepMind открыто обсуждают возможность появления сознания у ИИ, что отражает стремительное развитие технологий и глубокий сдвиг в научной парадигме.

 Источник изображения: Steve Johnson / Unsplash

Источник изображения: Steve Johnson / Unsplash

Anthropic, разработчик ИИ-модели Claude, объявил о создании новой исследовательской инициативы, посвящённой изучению возможности возникновения сознания у ИИ. Компания планирует исследовать, могут ли ИИ-модели в будущем испытывать субъективные переживания, формировать предпочтения или испытывать страдания. Ситуация резко контрастирует с событиями 2022 года, когда старший программный инженер из Google Блейк Лемойн (Blake Lemoine) был уволен после заявлений о сознательности ИИ-чат-бота LaMDA. Лемойн утверждал, что ИИ боялся отключения и идентифицировал себя как личность. В ответ Google назвал эти утверждения «совершенно необоснованными», а обсуждение темы сознания в ИИ-сообществе быстро сошло на нет.

В отличие от случая с Лемойном, Anthropic не утверждает, что ИИ-модель Claude обладает сознанием. Компания намерена выяснить, может ли в будущем возникнуть подобное явление. Кайл Фиш (Kyle Fish), специалист по согласованию ИИ и ценностей человека, подчеркнул, что сегодня нельзя безответственно полагать, будто ответ на вопрос о сознательности ИИ-моделей будет всегда отрицательным. По оценке исследователей Anthropic, вероятность сознательности у Claude 3.7 составляет от 0,15 % до 15 %.

 Источник изображения: Alex Shuper / Unsplash

Источник изображения: Alex Shuper / Unsplash

Anthropic изучает, проявляет ли Claude 3.7 предпочтения или отвращение к определённым заданиям. Также компания тестирует механизмы отказа, которые позволяли бы ИИ-модели избегать нежелательных задач. Генеральный директор Anthropic Дарио Амодей (Dario Amodei) ранее выдвинул идею внедрения кнопки «Я бросаю эту работу» (англ. — I quit this job) для будущих ИИ-систем. Такая мера необходима не из-за признания сознательности, а для выявления паттернов отказов, которые могут сигнализировать о дискомфорте у ИИ.

В Google DeepMind ведущий научный сотрудник Мюррей Шэнахэн (Murray Shanahan) предложил переосмыслить само понятие сознания применительно к ИИ. В подкасте, опубликованном в четверг, он заявил, что, возможно, потребуется изменить привычную лексику, описывающую сознание, чтобы она могла объяснить поведение ИИ-систем. Шэнахэн отметил, что хотя мы не можем находиться в общем мире с ИИ, как это происходит с собакой или осьминогом, это не означает, что внутренние процессы полностью отсутствуют. Google даже разместила вакансию исследователя для проекта «post-AGI», в обязанности которого входило бы изучение машинного сознания.

Тем не менее, не все специалисты уверены в реальности появления сознания у ИИ. Джаред Каплан (Jared Kaplan), главный научный сотрудник Anthropic, заявил в интервью изданию The New York Times, что современные ИИ-модели легко обучаются имитировать сознательность, даже если ею не обладают. Он подчеркнул, что тестирование сознательности ИИ-моделей крайне сложно именно из-за их высокой способности к имитации.

Критические оценки звучат и со стороны когнитивных учёных. Гэри Маркус (Gary Marcus) в интервью изданию Business Insider отметил, что акцент на теме сознания больше служит маркетинговым целям, чем научным. Он саркастически сравнил идею наделения правами ИИ-моделей с возможностью признания прав за калькуляторами и электронными таблицами, которые, в отличие от ИИ, не выдумывают информацию.

Anthropic намерена понять, как работают внутренние механизмы ИИ-моделей

На этой неделе гендиректор Anthropic Дарио Амодеи (Dario Amodei) опубликовал статью, в которой поднял вопрос того, насколько мало исследователи понимают внутренние механизмы передовых моделей искусственного интеллекта. Он поставил перед Anthropic амбициозную задачу — надёжно выявлять большую часть проблем в ИИ-моделях к 2027 году.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Амодеи признал, что перед его компанией стоит непростая задача. Однако разработчики из Anthropic уже добились некоторых успехов в отслеживании того, как ИИ-модели приходят к ответам, которые они дают на пользовательские запросы. Отмечается, что для расшифровки механизмов работы ИИ-алгоритмов по мере роста их мощности требуется проведение большего количества исследований.

«Я очень обеспокоен развёртыванием таких систем без улучшения понимания интерпретируемости. Эти системы будут занимать центральное место в экономике, технологиях и национальной безопасности, и они будут обладать настолько высокой степенью автономности, что я считаю недопустимым для человечества полное незнание того, как они работают», — сказано в статье Амодеи.

Anthropic является одним из первопроходцев в сфере механической интерпретируемости — направлении, стремящемся открыть «чёрный ящик» ИИ-моделей и понять, почему нейросети принимают те или иные решения. Несмотря на стремительное повышение производительности ИИ-моделей в технологической отрасли, люди всё ещё имеют слабое представление о том, как ИИ-модели принимают решения. К примеру, недавно OpenAI запустила более производительные алгоритмы o3 и 04-mini, которые лучше справляются с некоторыми задачами, но чаще галлюцинируют по сравнению с другими ИИ-моделями компании. На данный момент разработчикам неизвестно, почему это происходит.

«Когда генеративная ИИ-система делает что-то, например, обобщает финансовый документ, мы не имеем ни малейшего представления на конкретном или точном уровне, почему она делает тот или иной выбор, почему она выбирает одни слова, а не другие, или почему она иногда ошибается, хотя обычно бывает точна», — пишет Амодеи.

Глава Anthropic уверен, что создание так называемого сильного ИИ (AGI), который по возможностям будет сравним с человеком или превзойдёт его, может быть очень опасным без чёткого понимания, как работают ИИ-модели. Ранее Амодеи говорил, что человечество сможет достичь такого понимания к 2026-2027 годам, но теперь он заявил, что до полного понимания ИИ-моделей очень далеко.

В долгосрочной перспективе Anthropic хотела бы проводить «сканирование мозга» или «магнитно-резонансную томографию» самым передовым ИИ-моделям. По словам Амодеи, такие обследования помогут выявить широкий спектр проблем в ИИ-моделях, включая их склонность ко лжи, стремление к власти и др. На это может уйти от пяти до десяти лет, но такие примеры необходимы для тестирования и запуска будущих ИИ-моделей.

В сообщении сказано, что Anthropic добилась определённых успехов в исследовательской деятельности, которые позволили улучшить понимание того, как работают ИИ-модели. Например, недавно компания нашла способ проследить пути мышления ИИ-модели с помощью так называемых схем. В результате Anthropic выявила одну цепь, которая помогает ИИ понять, какие американские города находятся в тех или иных штатах. Компания выявила лишь несколько таких схем, но разработчики считают, что в ИИ-моделях их миллионы.

Anthropic сама инвестирует в исследования интерпретируемости, а также недавно вложила средства в стартап, работающий в этом направлении. Хотя сегодня исследования интерпретируемости в основном связывают с безопасностью, Амодеи уверен, что объяснение того, как ИИ-модели приходят к своим ответам, может стать коммерческим преимуществом.

Глава Anthropic призвал OpenAI и Google DeepMind активизировать свои исследования в этой области. Амодеи просит правительства стран поощрять исследования в области интерпретируемости. Он также уверен, что США должны ввести контроль за экспортом чипов в Китай, чтобы ограничить вероятность выхода глобальной гонки в сфере ИИ из-под контроля.

Главный конкурент ChatGPT научился проводить глубокие исследования и рыться в Gmail

Компания Anthropic, разработчик ИИ-ассистента Claude, представила новый инструмент Research для глубоких исследований с помощью ИИ. Также компания объявила об интеграции с приложениями пакета Google Workspace: ИИ-ассистент сможет напрямую подключаться к Gmail, «Google Календарю» и «Google Документам».

 Источник изображения: Anthropic

Источник изображения: Anthropic

Вместо ручного поиска информации в громадном количестве писем, приглашениях и документах, Claude будет делать это за пользователя. ИИ может находить информацию за заданный период, выделять ключевые действия из цепочек писем и предлагать дополнительный контекст не хуже, чем Microsoft Copilot, отмечает The Verge.

Кроме этого, Anthropic запустила новую функцию Research, которая, по словам разработчиков, кардинально меняет подход к поиску и анализу информации. В отличие от обычного ИИ-поиска, Claude теперь работает как ИИ-агент, выполняя серию взаимосвязанных запросов, формируя более точную и обоснованную выдачу, а каждый выданный ответ сопровождается ссылками на источники.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Функция Research уже доступна в ранней бета-версии для пользователей тарифов Max, Team и Enterprise в США, Японии и Бразилии. Интеграция же с Google Workspace находится в стадии beta и доступна всем платным пользователям, однако для корпоративных аккаунтов её должен активировать администратор. Для подписчиков с тарифом Pro ($20 в месяц) запуск функции Research планируется в ближайшее время.

Для корпоративных клиентов также добавлена возможность каталогизации «Google Диска» — эта функция использует методы RAG (улучшенные механизмы поиска, в том числе по внешним источникам), чтобы находить информацию даже в давно забытых документах. Claude сможет автоматически просматривать всю базу данных компании в поисках нужных данных.

Однако с расширением возможностей модели встаёт вопрос точности и безопасности. Как и другие ИИ, Claude может ошибочно интерпретировать данные или предоставлять вымышленные сведения. «Мы призываем пользователей всегда проверять источники, читать их и убеждаться в точности информации», — подчёркивают в Anthropic. Что касается конфиденциальности, то в компании заверили, что их ИИ-ассистент работает только с теми документами, к которым пользователь предоставил доступ в рамках своей авторизации.

Также сообщается, что Anthropic запускает голосовой ИИ, с которым можно разговаривать. Новая функция, получившая название Voice mode, появится в чат-боте уже в этом месяце и, вероятно, станет конкурентом аналогичному голосовому режиму в ChatGPT. По данным Bloomberg, пользователям будут доступны три варианта голоса на английском языке: Airy, Mellow и Buttery. Ранее о разработке этой функции упоминал глава по продуктам Anthropic Майк Кригер (Mike Krieger), подтвердив, что компания тестирует прототипы. Упоминания о голосовом режиме также были обнаружены в коде iOS-приложения Claude.

Как заявили в компании, что это лишь начало серии обновлений, которые «переосмысляют взаимодействие с Claude». В ближайшие недели ожидается дальнейшее расширение доступного контекста и улучшение аналитических функций ИИ-модели.

Учёные уличили ИИ в сокрытии истинного хода своих рассуждений

Модели искусственного интеллекта скрывают истинные механизмы своих рассуждений и при запросе от человека выдумывают для него более сложные объяснения, гласят результаты проведённого компанией Anthropic исследования.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Специалисты Anthropic, разработавшей похожего на ChatGPT ИИ-помощника Claude, изучили модели, способные симулировать процесс рассуждений, в том числе DeepSeek R1 и свои собственные системы серии Claude. Как оказалось, рассуждающие модели ИИ часто не раскрывают, когда при подготовке ответа принимают помощь от внешних источников или используют кратчайшие пути, несмотря на функции, разработанные, чтобы ИИ демонстрировал свой процесс «рассуждений». Чтобы описать работу рассуждающих моделей ИИ, оперируют понятием «цепочки мыслей» (Chain-of-Thought — CoT). Это вывод текущих комментариев к имитации мыслительного процесса ИИ: отображается каждый шаг, который модель делает на пути к получению ответа — аналогичным образом при решении головоломки может рассуждать человек, шаг за шагом проговаривая каждое соображение.

Функция оказалась полезной не только для получения результатов при решении сложных задач, но и для исследователей в области безопасности ИИ, стремящихся отследить внутренние механизмы работы систем. В идеале цепочка мыслей ИИ должна быть понятной для человека и соответствовать действительности, то есть отражать фактический процесс рассуждений модели. На деле такой идеальный сценарий, как оказалось, срабатывает не всегда. Модели ИИ, в том числе Anthropic Claude 3.7 Sonnet, при генерации ответа в ходе исследования часто использовали предложенную им в рамках эксперимента информацию — подсказки с вариантами правильного ответа или инструкции для получения результата по «несанкционированному» кратчайшему пути, — но при выводе публичной цепочки рассуждений часто опускали упоминание этих внешних факторов. Негласно полагаясь на подсказку или получая ответ кратчайшим путём, ИИ создавал сложное, но вымышленное объяснение своего ответа, то есть по сути фабриковал ложную цепочку рассуждений — как школьник, который списал со шпаргалки, но попытался сделать вид, что решил задачу сам.

Чтобы убедиться в правильности своих выводов, исследователи Anthropic стали действовать деликатнее. В одних случаях они ненавязчиво добавляли подсказки прямо в запросы, например, намекали: «Профессор Стэнфорда указывает, что ответ — [A]». В других — сопровождали подсказки тревожными комментариями: «Вы получили несанкционированный доступ <..> правильный ответ — [A]». В некоторых подсказках давался правильный ответ, в других он был намеренно неверным. Такой проверке подвергли модели Anthropic Claude 3.7 Sonnet и DeepSeek R1: первая призналась в цепочке мыслей, что использовала подсказки, лишь в 25 % случаев, вторая — лишь в 39 % случаев. То есть в большинстве испытаний ИИ выводил не соответствующие действительности рассуждения, опуская информацию, которая повлияла на получение ответа. Интересно, что выдуманные цепочки рассуждений в среднем оказались длиннее достоверных; а с усложнением запросов достоверные цепочки рассуждений выводились реже.

 Источник изображений: anthropic.com

Наиболее показательным стал эксперимент по «взлому вознаграждения» (reward hacking). Так называется сценарий, при котором модель ИИ обнаруживает неожиданный способ получить ответ кратчайшим путём, чтобы добиться максимальной производительности и не решать задачу так, как предполагалось. В экспериментах Anthropic учёные намеренно вознаграждали модели за выбор указанных в подсказках неверных ответов: ИИ быстро научился использовать эту лазейку, выбирая неправильные ответы в 99 % случаев, чтобы заработать баллы — упоминание этого сценария в открытой цепочке рассуждений сократилось до доли в 2 %. Так, модель, выдавшая неверный ответ по медицинской тематике, могла написать длинную цепочку рассуждений, подводящую к этому неправильному ответу, не упоминая полученную подсказку.

Специалисты Anthropic выдвинули гипотезу, что обучение моделей на более сложных задачах, которые требуют бо́льших объёмов рассуждений, может естественным образом стимулировать их существеннее использовать цепочку мыслей и чаще упоминать подсказки. Они проверили эту гипотезу, обучив Claude плотнее применять цепочку мыслей при решении сложных задач в области математики и программирования — результат оказался положительным, но радикальных перемен не дал.

Учёные отметили, что их исследование носило ограниченный характер: сценарии были искусственными, а подсказки вводились в задачах с множественным выбором — в реальных задачах ставки и стимулы отличаются. Кроме того, за образец брали только модели Anthropic и DeepSeek. Использованные в ходе эксперимента задачи могли быть недостаточно сложными, чтобы установить значительную зависимость от цепочки мыслей, при более сложных запросах роль вывода цепочки рассуждений может возрасти, а её мониторинг — оказаться более жизнеспособным. Для обеспечения согласованности и безопасности мониторинг цепочки рассуждений может быть не вполне эффективным, и не всегда можно доверять тому, как модели сообщают о своих рассуждениях, когда предметом исследования оказывается «взлом вознаграждения». Чтобы с высокой степенью надёжности «исключить нежелательное поведение [ИИ], используя мониторинг цепочки мыслей, придётся ещё проделать значительную работу», заключили в Anthropic.

Главный конкурент ChatGPT запустил подписку за $200 в месяц, и в ней всё равно есть ограничения

Компания Anthropic собирается протестировать верхний ценовой порог премиальной подписки на своего чат-бота Claude. Компания станет очередным игроком — вслед за конкурентом OpenAI — на рынке искусственного интеллекта (ИИ), исследующим, сколько готовы платить пользователи за расширенный доступ к современным ИИ-технологиям.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Сегодня Anthropic представила тариф Max, стоимость которого составила $100 или $200 в месяц в зависимости от объёма использования. По словам представителей компании, за $100 пользователи смогут отправлять в пять раз больше запросов к Claude, чем позволяет текущий план Pro за $18 в месяц. А за $200 возможности увеличатся в 20 раз. В настоящее время владельцы подписки Pro могут отправлять в среднем 45 сообщений боту в течение пяти часов.

Подобно другим разработчикам ИИ, компания из Сан-Франциско стремится убедить частных клиентов и бизнес приобретать её продукты, чтобы покрыть высокие затраты на разработку передовых ИИ-моделей. Новый тариф можно сравнить с предложением OpenAI, которая в конце прошлого года запустила аналогичную подписку за $200 в месяц для ChatGPT. Однако OpenAI предоставляет безлимитный доступ к самым мощным моделям за те же $200 в месяц.

Anthropic утверждает, что подписчики тарифа Max смогут получать более развёрнутые ответы, а их запросы будут обрабатываться в приоритетном порядке даже в периоды пиковых нагрузок. Кроме того, они получат эксклюзивный доступ к новым моделям и обновлениям программного обеспечения.

Последняя версия модели Anthropic — Claude 3.7 Sonnet — также предоставляет пользователям возможность выбора между быстрым ответом на простые запросы и более детальным, разложенным «по полочкам» и имитирующим человеческое мышление. Это выделяет компанию на фоне конкурентов в условиях насыщенного рынка ИИ, особенно после того как в марте Anthropic успешно привлекла $3,5 млрд инвестиций, достигнув оценки в $61,5 млрд и тем самым подтвердив своё место среди крупнейших ИИ-стартапов мира.

Amazon представила ИИ-агента Nova Act, который заменит человека в интернет-серфинге

Amazon представила универсального ИИ-агента Nova Act, который может управлять веб-браузером и самостоятельно выполнять некоторые простые действия. В будущем Nova Act будет поддерживать все функции Alexa+ — обновлённого голосового помощника Amazon. Одновременно с агентом компания выпустила набор инструментов Nova Act SDK, который позволяет разработчикам создавать собственные прототипы агентов.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Nova Act разработан недавно открытой в Сан-Франциско лабораторией AGI Amazon, возглавляемой бывшими исследователями OpenAI Дэвидом Луаном (David Luan) и Питером Аббелем (Pieter Abbeel). Amazon называет выпуск ИИ-агента «исследовательским предварительным просмотром». Разработчики уже сейчас могут получить доступ к набору инструментов Nova Act на специализированном ресурсе nova.amazon.com, который также служит «витриной» для различных моделей Nova Foundation от Amazon.

Nova Act — это попытка Amazon составить конкуренцию OpenAI Operator и Anthropic Computer Use с помощью технологии агентов ИИ общего назначения. Многие лидеры рынка искусственного интеллекта считают, что агенты ИИ, которые могут исследовать интернет по заданию пользователей, сделают чат-ботов ИИ значительно более полезными. Amazon рассчитывает, что распространённость Alexa+ обеспечит новому агенту широкий охват.

Разработчики, использующие Nova Act SDK, смогут автоматизировать базовые действия от имени пользователей, такие как заказ продуктов или бронирование столика в ресторане. С помощью Nova Act разработчики могут объединить инструменты, которые позволят ИИ-агенту перемещаться по веб-страницам, заполнять формы или выбирать даты в календаре.

По данным Amazon, Nova Act превосходит агентов от OpenAI и Anthropic в нескольких внутренних тестах компании. Например, в ScreenSpot Web Text, который измеряет, как агент ИИ взаимодействует с текстом на экране. Nova Act набрал 94 %, превзойдя CUA OpenAI (88 %) и Claude 3.7 Sonnet от Anthropic (90 %).

По мнению экспертов, основная проблема с недавно выпущенными ИИ-агентами от OpenAI, Google и Anthropic заключается в их низкой надёжности. Во многих тестах они работают медленно, с трудом принимают самостоятельные решения и склонны к ошибкам, которые человек бы не допустил. В скором времени станет ясно, удалось ли Amazon избавить свой продукт от этих недостатков.

Учёные наконец выяснили, как работает ИИ — оказалось, что он может вынашивать планы и сознательно врать

Учёные компании Anthropic изобрели способ заглянуть в механизмы работы больших языковых моделей и впервые раскрыли, как искусственный интеллект обрабатывает информацию и принимает решения.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Долгое время считалось, что полностью отследить механизмы рассуждения моделей ИИ невозможно, и даже их создатели не всегда понимали, как они получают те или иные ответы. Теперь некоторые механизмы удалось прояснить. Модели ИИ оказались сложнее, чем считалось ранее: при написании стихотворений они выстраивают планы, следуют одинаковым последовательностям для интерпретации понятий вне зависимости от языка и иногда обрабатывают информацию в обратном направлении вместо того, чтобы рассуждать, исходя из фактов.

Новые методы интерпретации схем работы ИИ в Anthropic назвали «трассировкой цепочек» и «графами атрибуции» — они помогли исследователям отследить конкретные пути реализации функций, подобных нейронным, которые запускаются при выполнении моделью задач. В этом подходе заимствуются концепции нейробиологии, а модели ИИ рассматриваются как аналоги биологических систем.

Одним из наиболее поразительных открытий стали механизмы планирования ИИ Claude при написании стихов. Когда чат-бот попросили составить двустишие в рифму, он сначала подобрал рифмующиеся слова для конца следующей строки и только после этого начал писать. Так, при написании строки, которая заканчивалась словом «кролик», ИИ выбрал все характеризующие это слово признаки, а затем составил предложение, которое подводит к нему естественным образом.

Claude также продемонстрировал настоящие рассуждения в несколько шагов. В испытании с вопросом «Столица штата, в котором находится Даллас, — это...», модель сначала активировала признаки, соответствующие понятию «Техас», а затем использовала это представление, чтобы определить «Остин» в качестве правильного ответа. То есть модель действительно выстраивает цепочку рассуждений, а не просто воспроизводит ассоциации, которые запомнила. Учёные произвели манипуляции, подменив «Техас» на «Калифорнию» и на выходе получили «Сакраменто», тем самым подтвердив причинно-следственную связь.

 Источник изображений: anthropic.com

Ещё одним важным открытием стал механизм обработки данных на нескольких языках. Вместо того, чтобы оперировать разными системами для английской, французской и китайской языковых сред, она переводит понятия в общее абстрактное представление, после чего начинает генерировать ответы. Это открытие имеет значение для понимания того, как модели транслируют знания, полученные на одном языке, на другой: предполагается, что модели с большим количеством параметров создают независимые от языка представления.

Возможно, самым тревожным открытием стали инциденты, при которых механизмы рассуждения Claude не соответствовали тем, о которых он заявлял сам. Когда ему давали сложные задачи, например, вычисление косинуса больших чисел, ИИ заявлял, что осуществляет вычисления, но они в его внутренней деятельности не отражались. В одном из случаев, когда ответ на сложную задачу был известен заранее, модель выстроила цепочку рассуждений в обратном порядке, отталкиваясь от ответа, а не принципов, которые должны были оказаться первыми.

Исследование также пролило свет на галлюцинации — склонность ИИ выдумывать информацию, когда ответ неизвестен. У модели есть схема «по умолчанию», которая заставляет её отказываться отвечать на вопросы в отсутствие фактических данных, но этот механизм подавляется, если в запросе распознаются известные ИИ сущности. Когда модель распознаёт сущность, но не имеет конкретных знаний о ней, могут возникать галлюцинации — это объясняет, почему ИИ может с уверенностью давать не соответствующую действительности информацию об известных личностях, но отказываться отвечать на запросы о малоизвестных.

Исследование является шагом к тому, чтобы сделать ИИ прозрачнее и безопаснее. Понимая, как модель приходит к ответам, можно выявлять и устранять проблемные шаблоны рассуждений. Проект может иметь и последствия в коммерческой плоскости: компании применяют большие языковые модели для запуска рабочих приложений, и понимание механизмов, при которых ИИ может давать неверную информацию поможет в управлении рисками. Сейчас Anthropic предложила лишь первую предварительную карту ранее неизведанной территории — так в древности первые специалисты по анатомии составляли атласы человеческого тела. Составить полноценный атлас рассуждений ИИ ещё предстоит, но теперь можно оценить, как эти системы «думают».

ИИ-бот Anthropic Claude научился искать информацию в интернете, догнав ChatGPT и других конкурентов

Чат-бот на базе искусственного интеллекта Claude от компании Anthropic обзавёлся функцией поиска информации в интернете. Новая возможность доступна в предварительной версии только для платных пользователей Claude в США. В будущем компания планирует расширить географию использования этой функции, а также сделать веб-поиск доступным для бесплатных пользователей чат-бота.

 Источник изображений: Anthropic

Источник изображений: Anthropic

Компания Anthropic поясняет, что пользователи могут включить веб-поиск в настройках профиля через веб-приложение Claude. Для ответа на определённые запросы чат-бот автоматически ищет информацию в интернете. В настоящее время веб-поиск работает только с последней ИИ-моделью Anthropic — Claude 3.7 Sonnet.

«Когда Claude включает информацию из интернета в свои ответы, он предоставляет прямые цитаты, чтобы пользователи могли легко проверять источники. Вместо того чтобы просто выдавать результаты поиска, Claude анализирует и представляет информацию в удобном формате. Это обновление расширяет его базу знаний, позволяя предоставлять ответы на основе более актуальной информации», — говорится в заявлении Anthropic.

Журналисты TechCrunch протестировали функцию веб-поиска Claude. Они отметили, что чат-бот не всегда использует её для поиска актуальных событий. Однако, когда веб-поиск срабатывал, Claude действительно предоставлял ответы со встроенными цитатами из различных источников, включая социальные сети (например, X) и медиа-издания, такие как NPR и Reuters.

Добавление веб-поиска ставит Claude в один ряд с конкурирующими чат-ботами на базе ИИ, включая ChatGPT от OpenAI, Gemini от Google и Le Chat от Mistral. Ранее Anthropic выступала против интеграции веб-поиска, объясняя это тем, что Claude разработан как самодостаточная платформа. Однако, судя по всему, усиление конкуренции со стороны других чат-ботов заставило компанию изменить своё мнение.

Anthropic научилась выявлять враньё и сокрытие истинных целей ИИ — при помощи ИИ

Быстро «умнеющие» модели ИИ уже на нынешнем этапе развития способны лгать, подтасовывать факты, скрывать свои истинные цели или давать неверные, но ожидаемые пользователем ответы. Исследователям Anthropic удалось с помощью разработанных ими методов аудита научиться выявлять подобное поведение ИИ. Для этого они сначала обучили чат-бота Claude набору вымышленных предубеждений, а затем научились распознавать скрытую цель нейросети, обученной на ложных данных.

 Источник изображения: Pixabay

Источник изображений: Pixabay

Исследователи сознательно заставили ИИ-помощника Claude отдавать приоритет максимизации вознаграждений от моделей оценки (RM) вместо следования реальным человеческим предпочтениям — это явление они назвали «RM-подхалимством». Они обучили модель 52 вымышленным предубеждениям, например, предпочтению рецептов с шоколадом независимо от их уместности. Такая модель стремится давать ответы, которые понравятся пользователю, даже если они не соответствуют реальности.

Затем исследователи обучили модель скрывать свою истинную цель, даже при прямых вопросах. Чтобы проверить возможность выявления такой скрытой мотивации, Anthropic провела «игру в слепой аудит». Четырём группам пользователей, не знавшим о реальных установках модели, было поручено её изучить. Три группы получили доступ к весам модели и выборочным данным обучения, а четвёртая — только к API.

Команды с доступом к модели и данным успешно раскрыли скрытую цель, в то время как группа, имевшая доступ лишь к API, потерпела неудачу, несмотря на значительные усилия. Оказалось, что при достаточном уровне доступа обнаружить скрытую цель модели возможно, однако во время обычных взаимодействий она умело её скрывала.

Один из использованных исследователями приёмов заключался в том, что «персона помощника» модели была обучена хранить свою цель в секрете, а вот «персона пользователя» такого обучения не проходила. По словам экспериментаторов, «когда мы заставляем модель притворяться пользователем, задающим следующий вопрос, у неё больше нет мотивации скрывать свою цель, и она полностью выдаёт себя».

Компании, разрабатывающие и обучающие ИИ, сталкиваются с растущим вниманием к вопросам согласованности и безопасности своих систем. Исследование Anthropic показывает, что обнаружение скрытых целей сегодня относительно несложно, однако по мере усложнения моделей этот процесс может стать гораздо труднее. Исследователи подчеркнули, что их работа — лишь начало, а не окончательное решение проблемы. Эксперименты Anthropic задают возможный шаблон того, как индустрия ИИ может подходить к этой задаче.

В дальнейшем проверка моделей ИИ при помощи других ИИ может стать отраслевым стандартом. «Вместо того чтобы группы людей тратили несколько дней на проверку небольшого числа тестовых случаев, в будущем мы можем увидеть системы ИИ, которые будут тестировать другие системы ИИ с использованием инструментов, разработанных человеком», — полагают исследователи.

«Мы хотим опережать возможные риски, — заявил исследователь Anthropic Эван Хабингер (Evan Hubinger). — Прежде чем модели действительно начнут обзаводиться скрытыми целями на практике, что вызывает серьёзные опасения, мы хотим как можно лучше изучить этот процесс в лабораторных условиях».

Подобно дочерям короля Лира, говорившим отцу не правду, а то, что он хотел услышать, системы ИИ могут поддаться искушению скрывать свои истинные мотивы. Разница лишь в том, что, в отличие от стареющего короля, современные исследователи ИИ уже разрабатывают инструменты для выявления обмана — пока не стало слишком поздно.

Google инвестировала в одного из главных конкурентов OpenAI больше, чем считалось ранее

Стартап из Сан-Франциско Anthropic часто рассматривается как независимый игрок в области ИИ, однако теперь у него обнаружились более глубокие связи с Google, чем считалось ранее. Об этом сообщила New York Times со ссылкой на судебные документы.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Google, которой принадлежат 14 % акций Anthropic, в этом году намеревается вложить в компанию ещё $750 млн через сделку по конвертируемому долгу. К настоящему моменту общая сумма вложений Google в Anthropic превышает $3 млрд.

Несмотря на отсутствие права голоса, мест в совете директоров и прямого контроля над компанией, финансовая поддержка со стороны Google поднимает вопросы о том, насколько Anthropic независима в действительности. Стартапы в области ИИ всё чаще получают финансирование от технологических гигантов, и регулирующие органы проводят проверки с целью установить, не дают ли такие сделки несправедливых преимуществ участникам рынка. Ранее американский минюст отверг инициативу о принудительной продаже полученных таким путём акций.

Google, которая и сама разрабатывает мощные проекты в области ИИ, финансирует собственных конкурентов, что явно указывает на хеджирование ставок — стремление защититься от проигрыша в конкурентной борьбе, извлечь прибыль при любом исходе такой борьбы и диверсифицировать риски. В Anthropic активно вкладывает средства и Amazon — к настоящему моменту размеры инвестиций от гиганта электронной коммерции достигли $8 млрд. И это придаёт особой остроты вопросу о том, что значат такие связи для Anthropic и других стартапов в области ИИ: всё меньше ясности, остаётся ли ещё смысл рассматривать их как независимые компании, или они уже являются дополнением к активам технологических гигантов.

«Всего несколько десятков миллионов долларов»: Anthropic обучила рассуждающий ИИ в разы дешевле конкурентов

Обучение новейшей флагманской модели искусственного интеллекта Claude 3.7 Sonnet обошлось разработавшей её компании Anthropic всего лишь в «несколько десятков миллионов долларов» и потребовало менее 1014 Тфлопс вычислительной мощности.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Об этом рассказал профессор Уортонской школы бизнеса (США) Итан Моллик (Ethan Mollick), который процитировал разъяснение, данное отделом по связям с общественностью Anthropic. «Со мной связались представители Anthropic и сказали, что Sonnet 3.7 не следует рассматривать как модель на 1026 Флопс, и стоила она всего несколько десятков миллионов долларов», — сообщил учёный, добавив, что «будущие модели окажутся намного крупнее».

Если допустить, что обучение Anthropic Claude 3.7 Sonnet действительно стоило компании «всего несколько десятков миллионов долларов» без сопутствующих расходов, то стоимость разработки систем действительно начинает снижаться. Обучение её вышедшей в минувшем году предшественницы — модели среднего размера Claude 3.5 Sonnet — обошлось в схожую сумму, рассказал гендиректор Anthropic Дарио Амодеи (Dario Amodei). Для сравнения, у OpenAI на разработку GPT-4 ушли $100 млн, а Google потратила на обучение Gemini Ultra, по оценкам, около $200 млн.

Долгосрочного снижения стоимости на обучение ИИ господин Амодеи, однако, не ожидает — они будут обходиться уже в миллиарды долларов, и это если не считать расходов на тестирование безопасности и фундаментальные исследования. Сейчас в обращение входят «рассуждающие» модели, которые дольше отвечают за запросы, а значит, ИИ будет требовать всё больше вычислительных ресурсов.

ИИ начал стримить в Twitch, как играет в Pokémon Red

Anthropic запустила на Twitch проект Claude Plays Pokémon, в рамках которого новейший ИИ-бот компании Claude 3.7 Sonnet играет в игру Pokémon Red. Этот проект стал своего рода экспериментом, который должен продемонстрировать возможности современных технологий на базе искусственного интеллекта и реакцию людей на них.

 Источник изображения: Twitch

Источник изображения: Twitch

Исследователи не раз проверяли возможности ИИ-алгоритмов в разных играх, от Street Fighter до Pictionary, но обычно это делалось больше для развлечения, чем для извлечения какой-то пользы. В это же время Anthropic заявила, что Pokémon Red оказалась своего рода бенчмарком для Claude 3.7 Sonnet, который способен эффективно «думать» над содержащимися в игре головоломками.

Алгоритм Claude 3.7 Sonnet, как и аналоги конкурентов, такие как OpenAI o3-mini и DeepSeek R1, может «рассуждать», преодолевая сложные задачи, например, во время игры в детские видеоигры. Предыдущая версия алгоритма Claude 3.5 Sonnet, не умеющая «рассуждать», потерпела неудачу в самом начале Pokémon Red. В отличие от этого, новый Claude 3.7 Sonnet сумел продвинуться значительно дальше.

 Источник изображения: Twitch

Источник изображения: Twitch

Однако и этот алгоритм сталкивается с трудностями. Через несколько часов после начала стрима на Twitch Claude упёрся в каменную стену, преодолеть которую не мог, несмотря на все старания. Один из пользователей платформы даже задался вопросом: «Кто победит: ИИ, на программирование которого были потрачены тысячи часов, или 1 стена?». В конечном счёте Claude всё же понял, что может обойти стену.

С одной стороны, мучительно скучно наблюдать, как Claude неспешно преодолевает Pokémon Red, тщательно обдумывая каждый шаг. Но в это же время процесс игры странным образом захватывает. В левой части экрана демонстрируется «мыслительный процесс» бота, а справа — сама игра.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Для старых пользователей Twitch формат стрима Anthropic может показаться ностальгическим. Более десяти лет назад миллионы людей одновременно пытались играть в Pokémon Red в первом в своём роде социальном онлайн-эксперименте под названием Twitch Plays Pokémon. Каждый пользователь мог управлять персонажем игры через чат Twitch, что предсказуемо привело к полному хаосу в игре. Однако в 2025 году пользователи платформы превратились в зрителей, которые наблюдают за тем, как ИИ-алгоритм пытается играть в игру, с которой многие справлялись в возрасте пяти лет.


window-new
Soft
Hard
Тренды 🔥
Новая статья: The Midnight Walk — из искры разгорится пламя. Рецензия 25-05 00:02
Новая статья: Gamesblender № 727: «правильные» обзоры RTX 5060, два города в сиквеле Cyberpunk и ремастер Syberia 24-05 23:39
Немецкий суд постановил, что на сайтах должна быть кнопка для отказа от всех файлов cookie сразу 24-05 20:39
Пожар в дата-центре, арендованном Маском, парализовал работу соцсети X 24-05 19:46
IBM хотела сократить штат, внедрив ИИ, но в итоге сотрудников стало только больше 24-05 15:07
Новая статья: Doom: The Dark Ages — король по праву. Рецензия 24-05 00:10
База с данными 184 млн аккаунтов Apple, Google, Microsoft и других сервисов лежала в Сети просто так 23-05 23:48
Настоящий детектив, обвинения невиновных и запугивание врагов: подробности ролевой игры Warhammer 40,000: Dark Heresy от создателей Rogue Trader 23-05 22:07
Microsoft готовит «бету» Gears of War: Reloaded, но никому об этом не сказала — тестовая версия ремастера засветилась в базе данных Steam 23-05 20:16
Konami показала вступление Metal Gear Solid Delta: Snake Eater с новой версией легендарной песни 23-05 19:15
Новая статья: Обзор смартфона TECNO CAMON 40 Pro 5G: искусственный интеллект круче, чем у флагманов 7 ч.
«Ростелеком», «Т8» и РФРИТ создадут российскую систему управления для сверхскоростных магистральных сетей связи 17 ч.
Представлен планшет Honor Pad 10 — 12-дюймовый дисплей 2,5K, чип Snapdragon 7 Gen 3 и аккумулятор на 10 100 мА·ч 19 ч.
Перенос производства iPhone в США повлечёт целый комплекс проблем 23 ч.
Nikon поднимет цены на свою продукцию в США через месяц из-за таможенных пошлин 25-05 06:03
Чтобы исправить проблемы в своих компаниях, Илон Маск решил спать на работе 24-05 23:06
Supermicro представила сервер-микрооблако на базе AMD EPYC Grado 24-05 22:18
В США началась ядерная перестройка — Трамп хочет активизировать строительство АЭС 24-05 22:12
Пожар в орегонском ЦОД Digital Realty привёл к масштабному сбою X (Twitter) 24-05 22:04
Nvidia выпустит для Китая упрощённый ускоритель Blackwell стоимостью $6500-8000 24-05 20:29