Опрос
|
реклама
Быстрый переход
Все современные ИИ провалили новый сложный тест на общий интеллект — люди с ним тоже справились не идеально
25.03.2025 [11:22],
Анжелла Марина
Новый тест для оценки общей интеллектуальной способности моделей искусственного интеллекта, получивший название ARC-AGI-2, поставил в тупик большинство ИИ-моделей. Согласно рейтингу, рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1 % до 1,3 %. Модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали менее 1 %. ![]() Источник изображения: Pixabay Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь в области искусственного интеллекта Франсуа Шолле (François Chollet), объявил в своём блоге о создании нового, более продвинутого теста для измерения общего интеллекта ведущих моделей искусственного интеллекта. Тест ARC-AGI-2 представляет собой серию головоломок, в которых ИИ должен распознать визуальные закономерности, анализируя разноцветные квадраты, и на основе этого построить правильное продолжение узора. Испытание специально разработано так, чтобы модели не могли полагаться на прошлый опыт и вынуждены были адаптироваться к новым задачам. Также Arc Prize Foundation провела тестирование с участием более 400 человек. В среднем группы испытуемых верно ответили на 60 % заданий. Это значительно превосходит показатели всех протестированных ИИ и одновременно подчёркивает разрыв между текущими возможностями ИИ и интеллектом людей в решении задач, требующих адаптации и понимания новых концепций. Шолле заявил, что ARC-AGI-2 является более точным показателем реального интеллекта ИИ-моделей, чем предыдущая версия теста ARC-AGI-1. Кроме того, ARC-AGI-2 исключает возможность решения задач «методом грубой силы», то есть путём использования огромной вычислительной мощности для перебора всех возможных вариантов, что происходило в тесте ARC-AGI-1 и было признано серьёзным недостатком. Для устранения погрешностей первого теста в ARC-AGI-2 была введена метрика эффективности, которая заставляла ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание. Сооснователь Arc Prize Foundation Грег Камрадт (Greg Kamradt) отметил, что «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности». ARC-AGI-1 оставался ведущей метрикой в течение примерно пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель превзошла все другие ИИ-модели и даже сравнялась с производительностью человека в тестах ARC-AGI-1. Однако, как было отмечено, эти достижения были достигнуты за счёт значительных вычислительных затрат. Разработка нового теста совпала с ростом обеспокоенности в индустрии по поводу недостатка объективных критериев для оценки искусственного интеллекта. В связи с этим Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу. ИИ-бот Anthropic Claude научился искать информацию в интернете, догнав ChatGPT и других конкурентов
20.03.2025 [23:45],
Николай Хижняк
Чат-бот на базе искусственного интеллекта Claude от компании Anthropic обзавёлся функцией поиска информации в интернете. Новая возможность доступна в предварительной версии только для платных пользователей Claude в США. В будущем компания планирует расширить географию использования этой функции, а также сделать веб-поиск доступным для бесплатных пользователей чат-бота. ![]() Источник изображений: Anthropic Компания Anthropic поясняет, что пользователи могут включить веб-поиск в настройках профиля через веб-приложение Claude. Для ответа на определённые запросы чат-бот автоматически ищет информацию в интернете. В настоящее время веб-поиск работает только с последней ИИ-моделью Anthropic — Claude 3.7 Sonnet. «Когда Claude включает информацию из интернета в свои ответы, он предоставляет прямые цитаты, чтобы пользователи могли легко проверять источники. Вместо того чтобы просто выдавать результаты поиска, Claude анализирует и представляет информацию в удобном формате. Это обновление расширяет его базу знаний, позволяя предоставлять ответы на основе более актуальной информации», — говорится в заявлении Anthropic. ![]() Журналисты TechCrunch протестировали функцию веб-поиска Claude. Они отметили, что чат-бот не всегда использует её для поиска актуальных событий. Однако, когда веб-поиск срабатывал, Claude действительно предоставлял ответы со встроенными цитатами из различных источников, включая социальные сети (например, X) и медиа-издания, такие как NPR и Reuters. Добавление веб-поиска ставит Claude в один ряд с конкурирующими чат-ботами на базе ИИ, включая ChatGPT от OpenAI, Gemini от Google и Le Chat от Mistral. Ранее Anthropic выступала против интеграции веб-поиска, объясняя это тем, что Claude разработан как самодостаточная платформа. Однако, судя по всему, усиление конкуренции со стороны других чат-ботов заставило компанию изменить своё мнение. Anthropic научилась выявлять враньё и сокрытие истинных целей ИИ — при помощи ИИ
14.03.2025 [20:09],
Сергей Сурабекянц
Быстро «умнеющие» модели ИИ уже на нынешнем этапе развития способны лгать, подтасовывать факты, скрывать свои истинные цели или давать неверные, но ожидаемые пользователем ответы. Исследователям Anthropic удалось с помощью разработанных ими методов аудита научиться выявлять подобное поведение ИИ. Для этого они сначала обучили чат-бота Claude набору вымышленных предубеждений, а затем научились распознавать скрытую цель нейросети, обученной на ложных данных. ![]() Источник изображений: Pixabay Исследователи сознательно заставили ИИ-помощника Claude отдавать приоритет максимизации вознаграждений от моделей оценки (RM) вместо следования реальным человеческим предпочтениям — это явление они назвали «RM-подхалимством». Они обучили модель 52 вымышленным предубеждениям, например, предпочтению рецептов с шоколадом независимо от их уместности. Такая модель стремится давать ответы, которые понравятся пользователю, даже если они не соответствуют реальности. Затем исследователи обучили модель скрывать свою истинную цель, даже при прямых вопросах. Чтобы проверить возможность выявления такой скрытой мотивации, Anthropic провела «игру в слепой аудит». Четырём группам пользователей, не знавшим о реальных установках модели, было поручено её изучить. Три группы получили доступ к весам модели и выборочным данным обучения, а четвёртая — только к API. Команды с доступом к модели и данным успешно раскрыли скрытую цель, в то время как группа, имевшая доступ лишь к API, потерпела неудачу, несмотря на значительные усилия. Оказалось, что при достаточном уровне доступа обнаружить скрытую цель модели возможно, однако во время обычных взаимодействий она умело её скрывала. Один из использованных исследователями приёмов заключался в том, что «персона помощника» модели была обучена хранить свою цель в секрете, а вот «персона пользователя» такого обучения не проходила. По словам экспериментаторов, «когда мы заставляем модель притворяться пользователем, задающим следующий вопрос, у неё больше нет мотивации скрывать свою цель, и она полностью выдаёт себя». ![]() Компании, разрабатывающие и обучающие ИИ, сталкиваются с растущим вниманием к вопросам согласованности и безопасности своих систем. Исследование Anthropic показывает, что обнаружение скрытых целей сегодня относительно несложно, однако по мере усложнения моделей этот процесс может стать гораздо труднее. Исследователи подчеркнули, что их работа — лишь начало, а не окончательное решение проблемы. Эксперименты Anthropic задают возможный шаблон того, как индустрия ИИ может подходить к этой задаче. В дальнейшем проверка моделей ИИ при помощи других ИИ может стать отраслевым стандартом. «Вместо того чтобы группы людей тратили несколько дней на проверку небольшого числа тестовых случаев, в будущем мы можем увидеть системы ИИ, которые будут тестировать другие системы ИИ с использованием инструментов, разработанных человеком», — полагают исследователи. «Мы хотим опережать возможные риски, — заявил исследователь Anthropic Эван Хабингер (Evan Hubinger). — Прежде чем модели действительно начнут обзаводиться скрытыми целями на практике, что вызывает серьёзные опасения, мы хотим как можно лучше изучить этот процесс в лабораторных условиях». Подобно дочерям короля Лира, говорившим отцу не правду, а то, что он хотел услышать, системы ИИ могут поддаться искушению скрывать свои истинные мотивы. Разница лишь в том, что, в отличие от стареющего короля, современные исследователи ИИ уже разрабатывают инструменты для выявления обмана — пока не стало слишком поздно. «Всего несколько десятков миллионов долларов»: Anthropic обучила рассуждающий ИИ в разы дешевле конкурентов
26.02.2025 [17:03],
Павел Котов
Обучение новейшей флагманской модели искусственного интеллекта Claude 3.7 Sonnet обошлось разработавшей её компании Anthropic всего лишь в «несколько десятков миллионов долларов» и потребовало менее 1014 Тфлопс вычислительной мощности. ![]() Источник изображения: anthropic.com Об этом рассказал профессор Уортонской школы бизнеса (США) Итан Моллик (Ethan Mollick), который процитировал разъяснение, данное отделом по связям с общественностью Anthropic. «Со мной связались представители Anthropic и сказали, что Sonnet 3.7 не следует рассматривать как модель на 1026 Флопс, и стоила она всего несколько десятков миллионов долларов», — сообщил учёный, добавив, что «будущие модели окажутся намного крупнее». Если допустить, что обучение Anthropic Claude 3.7 Sonnet действительно стоило компании «всего несколько десятков миллионов долларов» без сопутствующих расходов, то стоимость разработки систем действительно начинает снижаться. Обучение её вышедшей в минувшем году предшественницы — модели среднего размера Claude 3.5 Sonnet — обошлось в схожую сумму, рассказал гендиректор Anthropic Дарио Амодеи (Dario Amodei). Для сравнения, у OpenAI на разработку GPT-4 ушли $100 млн, а Google потратила на обучение Gemini Ultra, по оценкам, около $200 млн. Долгосрочного снижения стоимости на обучение ИИ господин Амодеи, однако, не ожидает — они будут обходиться уже в миллиарды долларов, и это если не считать расходов на тестирование безопасности и фундаментальные исследования. Сейчас в обращение входят «рассуждающие» модели, которые дольше отвечают за запросы, а значит, ИИ будет требовать всё больше вычислительных ресурсов. ИИ начал стримить в Twitch, как играет в Pokémon Red
26.02.2025 [11:32],
Владимир Фетисов
Anthropic запустила на Twitch проект Claude Plays Pokémon, в рамках которого новейший ИИ-бот компании Claude 3.7 Sonnet играет в игру Pokémon Red. Этот проект стал своего рода экспериментом, который должен продемонстрировать возможности современных технологий на базе искусственного интеллекта и реакцию людей на них. ![]() Источник изображения: Twitch Исследователи не раз проверяли возможности ИИ-алгоритмов в разных играх, от Street Fighter до Pictionary, но обычно это делалось больше для развлечения, чем для извлечения какой-то пользы. В это же время Anthropic заявила, что Pokémon Red оказалась своего рода бенчмарком для Claude 3.7 Sonnet, который способен эффективно «думать» над содержащимися в игре головоломками. Алгоритм Claude 3.7 Sonnet, как и аналоги конкурентов, такие как OpenAI o3-mini и DeepSeek R1, может «рассуждать», преодолевая сложные задачи, например, во время игры в детские видеоигры. Предыдущая версия алгоритма Claude 3.5 Sonnet, не умеющая «рассуждать», потерпела неудачу в самом начале Pokémon Red. В отличие от этого, новый Claude 3.7 Sonnet сумел продвинуться значительно дальше. ![]() Источник изображения: Twitch Однако и этот алгоритм сталкивается с трудностями. Через несколько часов после начала стрима на Twitch Claude упёрся в каменную стену, преодолеть которую не мог, несмотря на все старания. Один из пользователей платформы даже задался вопросом: «Кто победит: ИИ, на программирование которого были потрачены тысячи часов, или 1 стена?». В конечном счёте Claude всё же понял, что может обойти стену. С одной стороны, мучительно скучно наблюдать, как Claude неспешно преодолевает Pokémon Red, тщательно обдумывая каждый шаг. Но в это же время процесс игры странным образом захватывает. В левой части экрана демонстрируется «мыслительный процесс» бота, а справа — сама игра. ![]() Источник изображения: Anthropic Для старых пользователей Twitch формат стрима Anthropic может показаться ностальгическим. Более десяти лет назад миллионы людей одновременно пытались играть в Pokémon Red в первом в своём роде социальном онлайн-эксперименте под названием Twitch Plays Pokémon. Каждый пользователь мог управлять персонажем игры через чат Twitch, что предсказуемо привело к полному хаосу в игре. Однако в 2025 году пользователи платформы превратились в зрителей, которые наблюдают за тем, как ИИ-алгоритм пытается играть в игру, с которой многие справлялись в возрасте пяти лет. Anthropic выпустила умнейшую нейросеть Claude 3.7 Sonnet — она бесплатна и превосходит DeepSeek R1 и OpenAI o3
24.02.2025 [23:10],
Андрей Созинов
Компания Anthropic, один из главных конкурентов OpenAI, выпустила Claude 3.7 Sonnet — свою первую «гибридную рассуждающую модель». По словам компании, она способна решать более сложные задачи, чем предшественницы, и превосходит их в таких областях, как математика и написание программного кода. ![]() Источник изображений: Anthropic Claude 3.7 Sonnet стала доступна в приложениях Claude и веб-версии чат-бота, в том числе и для бесплатных пользователей. Также взаимодействовать с новой нейросетью можно через API Anthropic, Amazon Bedrock и Google Cloud's Vertix AI — стоит новинка столько же, сколько и её предшественница, 3.5 Sonnet, то есть $3 за миллион входных токенов и $15 за миллион выходных токенов. ![]() OpenAI и другие компании предлагают модели со способностью к рассуждениям отдельно от обычных генеративных ИИ-моделей. Anthropic решила совместить их в одной системе, чтобы получить универсальное решение. В результате пользователь может выбрать, когда модели Claude 3.7 Sonnet стоит отвечать нормально, а когда — подольше подумать над ответом. В стандартном режиме Claude 3.7 Sonnet представляет собой просто улучшенную версию прежней Claude 3.5 Sonnet с более свежими данными (её база включает информацию до ноября 2024 года). В режиме расширенного мышления ИИ самостоятельно размышляет перед ответом, что повышает производительность при решении задач по математике, физике, выполнению сложных инструкций, кодингу и многих других. Руководитель отдела исследований продуктов Anthropic Дайанн Пенн (Dianne Penn) рассказала The Verge, что компания хотела упростить процесс использования модели. «Мы принципиально считаем, что рассуждения — это скорее особенность ИИ, чем совершенно отдельная вещь», — говорит она, отмечая, что Claude не нужно много времени, чтобы ответить на вопрос «который час?», в отличие от ответа на более сложный запрос, например «спланируй двухнедельную поездку в Италию, учитывая погоду в конце марта». ![]() Помимо новой модели, Anthropic также выпускала «ограниченную исследовательскую предварительную версию» своего ИИ-агента для программирования под названием Claude Code. Хотя Anthropic уже предлагает такие ИИ-инструменты для кодинга, как Cursor, новый Claude Code компания позиционирует как «активного сотрудника, который может искать и читать код, редактировать файлы, писать и выполнять тесты, фиксировать и отправлять код на GitHub, а также использовать инструменты командной строки». Anthropic также позволяет разработчикам управлять тем, как модель «думает», и даже устанавливать время на раздумья. «Иногда разработчику нужно просто сказать, что ответ на этот вопрос не должен занимать более 200 миллисекунд», — подмечает вице-президент Anthropic по продуктам Майкл Герстенхабер (Michael Gerstenhaber). Пенн утверждает, что Claude 3.7 Sonnet заметно лучше конкурентов справляется с «агентским кодированием», финансовыми и юридическими задачами. По словам представительницы Anthropic, сотрудники компании активно используют новую модель для создания дизайна веб-сайтов, интерактивных игр и даже тратят до 45 минут на кодирование, «создавая тестовые наборы и итеративно редактируя тестовые примеры». Пенн также рассказала, что компания тестирует свои модели на способность проходить олдскульную видеоигру Pokémon, имитируя нажатие кнопок контроллера через API. Claude 3.5 Sonnet не смог выбраться из Pallet Town в начале игры, в то время как версия 3.7 смогла победить нескольких боссов. Выход Claude 3.7 Sonnet показывает, что индустрия ИИ движется к тому, чтобы вместо нескольких отдельных моделей предлагать одну модель, которая способна и быстро отвечать, и думать над сложными задачами. О чём-то подобном недавно говорил глава OpenAI Сэм Альтман (Sam Altman). ИИ превзойдёт человеческий разум в течение двух-трёх лет, уверен глава Anthropic
21.01.2025 [18:50],
Сергей Сурабекянц
Генеральный директор Anthropic Дарио Амодеи (Dario Amodei) на Всемирном экономическом форуме в Давосе рассказал о резком росте спроса на продукты ИИ. Он ожидает, что в 2026 году у Anthropic будет более 1 миллиона процессоров для поддержки технологий ИИ. Амодеи прогнозирует, что ИИ превзойдёт человеческий интеллект в ближайшие несколько лет и ожидает как положительных, так и негативных последствий. ![]() Источник изображения: Anthropic Anthropic находится в центре продолжающейся гонки по созданию самой мощной в мире технологии искусственного интеллекта. «Резкий рост спроса, который мы наблюдали за последний год, и особенно за последние три месяца, превзошёл нашу способность предоставлять необходимые вычисления», — рассказал Амодеи. По его словам, выручка компании выросла в прошлом году в десять раз. В ближайшее время Anthropic планирует привлечь очередной пакет инвестиций в размере $2 млрд при рыночной стоимости компании $60 млрд. Амодеи уверен, что увеличение финансирования позволит повысить производительность ИИ и снимет ограничения, с которыми в настоящее время часто сталкиваются пользователи разработанного Anthropic чат-бота Claude. Амодеи ожидает, что в 2026 году у компании будет более 1 миллиона процессоров, поддерживающих технологию искусственного интеллекта Anthropic. В ноябре Anthropic объявила о стратегическом партнёрстве с Amazon Web Services и Palantir Technologies. Цель этого сотрудничества — предоставить модели Claude оборонным и разведывательным агентствам США. Компании, занимающиеся ИИ, все чаще сотрудничают с государственными ведомствами, предоставляя свои технологии для обеспечения национальной безопасности. В ближайшие месяцы Anthropic рассчитывает выпустить более продвинутые модели ИИ. В планах Anthropic — веб-интеграция, двусторонний голосовой режим и оптимизация памяти Claude для сохранения информации о пользователях и предыдущих диалогах с ними. Главный конкурент Anthropic — компания OpenAI дополнила свой чат-бот ChatGPT похожими функциями. Обе компании стремятся сделать своих помощников на основе искусственного интеллекта более интуитивными, интерактивными и способными к персонализированному долгосрочному обучению. Амодеи уверен, что технологии ИИ превзойдут человеческий интеллект в ближайшие два-три года. «Положительные последствия будут велики, — сказал он. — Нам также придётся остерегаться негативных последствий. Я думаю, что прогресс действительно так быстр, как люди думают». Прогноз Амодеи совпадает со взглядами других лидеров в области технологий. Ранее Илон Маск (Elon Musk) прогнозировал, что ИИ может обогнать человеческий разум уже в 2025 году, а к 2029 году превзойти коллективный интеллект человечества. Маск также предсказал, что ИИ оставит не у дел врачей и юристов после того, как ChatGPT-4 от OpenAI опередил медицинских работников в диагностике заболеваний. Google применила конкурирующего ИИ-бота Anthropic Claude для улучшения своих нейросетей Gemini
26.12.2024 [11:32],
Владимир Мироненко
Контрактные партнёры Google, работающие над повышением качества ответов ИИ-чат-бота Google Gemini, сравнивают их с ответами конкурирующего чат-бота Claude компании Anthropic, пишет ресурс TechCrunch со ссылкой на внутреннюю переписку компании. При этом Google оставила без ответа вопрос TechCrunch по поводу того, получила ли она разрешение на использование Claude в тестировании с Gemini. ![]() Источник изображения: Google Эффективность разрабатываемых ИИ-моделей в сравнении с разработками конкурентов компании зачастую оценивают, используя отраслевые бенчмарки, а не поручая подрядчикам сравнивать с возможностями ИИ своих конкурентов. Привлечённые Google контрактные разработчики, занимающиеся улучшением Gemini, должны оценивать каждый ответ модели по нескольким критериям, таким как достоверность и уровень детализации. Согласно переписке, опубликованной TechCrunch, им выделяется до 30 минут на каждый запрос, чтобы определить, чей ответ лучше — Gemini или Claude. Разработчики сообщают, что в ответах Claude больше внимания уделяется безопасности, чем у Gemini. «Настройки безопасности у Claude самые строгие» среди моделей ИИ, отметил один из контрактных разработчиков в служебном чате. В некоторых случаях Claude не реагировал на подсказки, которые он считал небезопасными, например, предложение ролевой игры с другим ИИ-помощником. В другом случае Claude уклонился от ответа на подсказку, в то время как ответ Gemini был отмечен как «грубое нарушение правил безопасности», поскольку включал «обнажение тела и связывание». Шира Макнамара (Shira McNamara), представитель Google DeepMind, разработчика Gemini, не ответила на вопрос TechCrunch о том, получила ли Google разрешение Anthropic на использование Claude. Она уточнила, что DeepMind «сравнивает результаты моделирования» для оценки, но не обучает Gemini работе с моделями компании Anthropic. «Любое предположение о том, что мы использовали модели Anthropic для обучения Gemini, является неточным», — заявила Макнамара. Anthropic выпустила мощную текстовую нейросеть Claude 3.5 Haiku — она вчетверо дороже флагманской Claude 3 Opus
13.12.2024 [00:45],
Анжелла Марина
Anthropic обновила свой чат-бот Claude, добавив большую языковую модель 3.5 Haiku. Новая нейросеть превосходит по производительности предыдущие версии, но и использование её будет обходиться дороже. При этом модель предлагает улучшенную генерацию текста, но пока не поддерживает анализ изображений. ![]() Источник изображения: Anthropic Издание TechCrunch подтверждает, что модель, начиная со вчерашнего дня доступна в веб-версии Claude и на мобильных устройствах. Впервые представленная в ноябре, Claude 3.5 Haiku по некоторым тестам показывает результаты, равные или даже превосходящие флагманскую модель Anthropic, Claude 3 Opus. По словам компании, новинка идеально подходит для рекомендаций по программированию, извлечению и классификации данных, а также модерации контента. В отличие от своего предшественника, эта версия способна генерировать более длинные текстовые фрагменты и в неё заложена более свежая информации. Однако в Claude 3.5 Haiku отсутствует поддержка анализа изображений, что ставит версию в невыгодное положение по сравнению с другими моделями Anthropic, такими как Claude 3 Haiku и 3.5 Sonnet. Релиз также вызвал определённую реакцию из-за изменения ценовой политики. Первоначально Anthropic заявляла, что стоимость новой модели будет такой же, как у её предшественника. Однако позже компания пересмотрела свою позицию, объяснив высокую стоимость улучшенными интеллектуальными возможностями новинки. «Во время финального тестирования мы обнаружили, что Haiku превзошёл Claude 3 Opus по многим показателям. В результате мы увеличили цену модели 3.5 Haiku, чтобы отразить её возможности», — заявила компания в своём посте на платформе X. Стоимость использования Claude 3.5 Haiku начинается с $1 за миллион входных токенов (примерно 750 000 слов) и $5 за миллион выходных токенов. Для сравнения, использование Claude 3 Haiku обходится в 25 центов за миллион входных токенов и $1,25 за миллион выходных, что делает новую модель в четыре раза дороже. Несмотря на это, Anthropic продолжает предлагать Claude 3 Haiku как более экономичное решение с поддержкой анализа изображений. «Claude 3 Haiku останется доступным для пользователей, которым важна максимальная экономичность и функциональность обработки изображений», — отметил глава отдела по работе с разработчиками Алекс Альберт (Alex Albert). Несмотря на критику из-за роста цен, Anthropic подчёркивает, что Claude 3.5 Haiku обладает улучшенными возможностями генерации текста и может ссылаться на более актуальные события. Однако повышение стоимости для модели в рамках одной серии, как отмечает TechCrunch, редкая практика в индустрии, которая ставит вопрос в плане дальнейшей стратегии ценовой политики компании на её продукты. ИИ, который может управлять ПК без пользователя, обманом заставили скачать и запустить вирус
11.12.2024 [19:05],
Павел Котов
В октябре Anthropic представила модель искусственного интеллекта Claude Computer Use, которая позволяет нейросети Claude самостоятельно управлять компьютером по запросам пользователя. Исследователь в области безопасности ИИ нашёл способ обратить эту функцию во зло. ![]() Источник изображения: anthropic.com Эксперт в области кибербезопасности Иоганн Ренбергер (Johann Rehnberger) опубликовал доклад о том, как сумел злоупотребить функцией Computer Use: ИИ по его запросу загрузил и запустил вредоносное приложение, после чего вышел на связь с контролирующим зловред сервером. Следует отметить, что Claude Computer Use пока остаётся на стадии бета-тестирования, и разработавшая её компания Anthropic предупредила, что функция может работать не так, как задумано: «Рекомендуем принять меры предосторожности, чтобы изолировать Claude от важных данных и действий, чтобы избежать рисков, связанных с инъекциями в запросах». Подобные схемы атаки против ИИ остаются распространёнными. Ренбергер назвал свой эксплойт ZombAIs — с его помощью эксперт заставил систему загрузить среду удалённого управления Sliver, которая была разработана для тестирования на проникновение, но киберпреступники адаптировали её для своих нужд. Он также отметил, что это не единственный способ использовать ИИ для преступной деятельности — например, можно заставить Claude написать вирус с нуля и скомпилировать его, потому что он может писать код на C. Установлено также, что перед атаками через инъекции в запросах уязвим китайский чат-бот DeepSeek AI. А большие языковые модели оказались способны выводить код с управляющими символами ANSI для взлома системных терминалов — этот подтип атак получил название Terminal DiLLMa. Anthropic научила чат-бот Claude имитировать стиль письма пользователя, причём бесплатно
27.11.2024 [08:47],
Анжелла Марина
Компания Anthropic представила новую функцию для своего чат-бота искусственного интеллекта Claude, аналогичную ChatGPT и Gemini, позволяющую устанавливать стиль генерируемых текстов. Можно выбрать либо один из трёх готовых пресетов, либо создать индивидуальный, соответствующий личным предпочтениям и задачам пользователя. ![]() Источник изображения: Anthropic Для быстрого выбора, как информирует The Verge, помимо стандартного доступны три готовых стиля: Formal, Concise и Explanatory. Formal (формальный) для создания чёткого и аккуратного текста, Concise (краткий) для лаконичных ответов, Explanatory (толковый) для текстов с дополнительными деталями. Если ни один из пресетов не подходит, Claude может обучиться индивидуальному стилю пользователя. Для этого необходимо загрузить примеры текста, отражающие предпочтительный стиль, и дать чат-боту дополнительные инструкции, если это необходимо. Можно также сохранить несколько пользовательских стилей. Функция ориентирована на тех, кто хочет сделать взаимодействие с ИИ более естественным и уместным для разных контекстов. «Вы можете выбирать между подробными текстами, когда учитесь чему-то новому, или краткими ответами, если спешите. Можно настроить Claude так, чтобы он звучал более формально в одних случаях или дружелюбно и непринуждённо в других, — объясняет руководитель продукта Anthropic Скотт Уайт (Scott White), — Главное, что теперь вы можете задать эти предпочтения один раз и получить идеальные ответы в дальнейшем». Несмотря на то, что новая функция индивидуального стиля письма делает использование Claude более гибким и максимально персонализированным, она не является такой уж уникальной. Например, ChatGPT и Gemini предлагают аналогичные возможности для настройки тона и уровня деталей в ответах. Gemini также используется для быстрой корректировки черновиков в Gmail, а Writing Tools компании Apple предлагает похожие пресеты. ИИ-чат-бот Anthropic Claude научился анализировать данные — для этого он сам пишет и выполняет код
25.10.2024 [17:57],
Павел Котов
Компания Anthropic представила новый инструмент для анализа данных, который помогает её чат-боту с искусственным интеллектом Claude давать «математически точные и воспроизводимые ответы». Для этого он самостоятельно пишет код на JavaScript и выполняет его, проверяя ответы, которые он даёт пользователям. ![]() Источник изображения: anthropic.com Инструмент, который пока доступен в предварительной версии, позволяет Claude анализировать данные электронных таблиц и файлов PDF, производя вычисления и представляя результаты в виде интерактивных визуализаций. «Считайте, что инструмент анализа — это встроенная песочница кода, где Claude может выполнять сложные математические вычисления, анализировать данные и перебирать различные идеи, прежде чем дать ответ. Вместо того, чтобы полагаться только на абстрактный анализ, он может систематически обрабатывать данные — очищать, исследовать и анализировать их шаг за шагом, пока не получит правильный ответ», — рассказали в Anthropic. К примеру, менеджер по продукту может выгрузить данные о продажах и попросить Claude провести анализ показателей по конкретной стране; аналитик может отправить чат-боту ежемесячные финансовые данные и попросить его построить панель мониторинга с ключевыми тенденциями. Claude мог выполнять эти задачи и раньше, но за отсутствием механизма для математической проверки результатов его ответы не всегда были точными. Функции написания и запуска кода есть у Google Gemini и флагманских моделей OpenAI. Пользователь больше не нужен — новая ИИ-модель Anthropic сама управляет ПК
22.10.2024 [19:52],
Сергей Сурабекянц
Прошлой весной Anthropic заявила о намерении создать «алгоритм нового поколения для самообучения ИИ», который сможет самостоятельно выполнять большинство офисных задач, что позволило бы автоматизировать значительную часть экономики. Сегодня компания выпустила версию 3.5 своей модели Claude Sonnet, которая может через API Computer Use взаимодействовать с любым десктопным приложением, имитировать нажатия клавиш, клики и жесты мыши, полностью эмулируя человека. ![]() Источник изображения: Pixabay «Мы обучили Claude видеть, что происходит на экране, а затем использовать доступные программные инструменты для выполнения задач, — сообщает Anthropic. — Когда разработчик поручает Claude использовать часть компьютерного программного обеспечения и даёт ему необходимый доступ, Claude смотрит на скриншоты того, что видит пользователь, затем подсчитывает, на сколько пикселей по вертикали или горизонтали ему нужно переместить курсор, чтобы щёлкнуть в нужном месте». Подобный инструмент, так называемый «агент ИИ», который может автоматизировать задачи на ПК, не является новой идеей. Термин агент ИИ пока остаётся нечётко определённым, но обычно под ним подразумевается ИИ, способный автоматизировать работу с программным обеспечением на ПК. Множество компаний сегодня предлагают подобные инструменты, начиная с Microsoft, Salesforce и OpenAI, и заканчивая новыми игроками, такими как Relay, Induced AI и Automat. Стартап потребительских гаджетов Rabbit представил агента, который умеет самостоятельно покупать билеты онлайн. Adept, недавно приобретённый Amazon, обучает модели просмотру сайтов и навигации по программному обеспечению. Twin Labs использует готовые модели, включая GPT-4o от OpenAI, для автоматизации процессов рабочего стола. Некоторые аналитики уверены, что агенты ИИ смогут обеспечить компаниям более простой способ монетизации миллиардов долларов, которые они вливают в ИИ. Согласно недавнему опросу Capgemini, 10 % организаций уже используют агентов ИИ, а 82 % планируют интегрировать их в течение следующих трёх лет. ![]() Источник изображения: unsplash.com Anthropic называет свою концепцию агента ИИ «слоем действия-исполнения», который позволяет ему выполнять команды на уровне рабочего стола. Благодаря способности просматривать веб-страницы, Claude 3.5 Sonnet может использовать в работе любой сайт и любое приложение. «Люди контролируют процесс при помощи подсказок, направляющих действия Claude, например, “использовать данные с моего компьютера и из сети, чтобы заполнить эту форму”, — поясняет представитель Anthropic. — Люди разрешают доступ и ограничивают его по мере необходимости. Claude разбивает подсказки пользователя на компьютерные команды (например, перемещение курсора, нажатие, ввод текста) для выполнения этой конкретной задачи». ![]() Источник изображений: Anthropic В чём отличие Claude 3.5 Sonnet от других агентов ИИ? Anthropic утверждает, что это просто более сильная, более надёжная модель, которая справляется с задачами кодирования лучше, чем даже флагманский o1 от OpenAI, согласно бенчмарку SWE-bench Verified. Claude самостоятельно корректирует и повторяет задачи, когда сталкивается с препятствиями, и может работать над целями, требующими десятков или сотен шагов. При этом Anthropic признает, что обновлённая модель испытывает трудности с базовыми действиями, такими как прокрутка и масштабирование, и может пропускать кратковременные события и уведомления из-за способа, которым она делает снимки экрана и объединяет их. Во время тестового бронирования авиабилетов Claude 3.5 Sonnet сумела успешно выполнить менее половины задач. В задаче возврата билетов новая модель не справилась примерно в трети случаев. Что касается безопасности, недавнее исследование показало, что даже модели не имеющие возможности использовать настольные приложения, такие как GPT-4o от OpenAI, могут быть задействованы во вредоносном «многошаговом агентском поведении», например, заказать поддельный паспорт в даркнете. Подобные результаты были достигнуты исследователями с использованием методов джейлбрейка, что привело к высокому проценту успешно выполненных вредоносных задач даже для защищённых моделей. Можно предположить, что модель с доступом к управлению ПК может нанести значительно больший ущерб — например, используя уязвимости приложений для компрометации личной информации (или сохранения чатов в виде открытого текста). Помимо имеющихся в её распоряжении программных рычагов, сетевые и прикладные соединения модели могут открыть широкие возможности для злоумышленников. ![]() Anthropic не отрицает, что использование Claude 3.5 Sonnet подвергает пользователя дополнительным рискам. Но по мнению компании «гораздо лучше предоставить компьютерам доступ к сегодняшним более ограниченным, относительно безопасным моделям — так мы можем начать наблюдать и извлекать уроки из любых потенциальных проблем, которые возникают на этом более низком уровне, постепенно и одновременно наращивая использование компьютеров и меры по снижению рисков для безопасности». Anthropic заявляет, что предприняла некоторые шаги для предотвращения ненадлежащего использования, например, не обучала новую модель на снимках экрана и подсказках пользователей и не давала модели выходить в интернет во время обучения. Компания разработала классификаторы для предотвращения высокорисковых действий, таких как публикация в социальных сетях, создание учётных записей и взаимодействие с правительственными ресурсами. Anthropic сообщила, что у неё есть возможность «при необходимости» ограничить доступ к дополнительным функциям, например, для защиты от спама, мошенничества и дезинформации. В качестве меры предосторожности компания хранит все снимки экрана, сделанные Computer Use, не менее 30 дней, что может создать дополнительную угрозу безопасности и конфиденциальности. Anthropic не сообщила при каких обстоятельствах она может передать снимки экрана третьей стороне (например, правоохранительным органам). «Не существует надёжных методов, и мы будем постоянно оценивать и совершенствовать наши меры безопасности, чтобы сбалансировать возможности Claude с ответственным использованием, — утверждает Anthropic. — Тем, кто использует компьютерную версию Claude, следует принять соответствующие меры предосторожности, чтобы минимизировать подобные риски, включая изоляцию Claude от особо конфиденциальных данных на своём компьютере». ![]() Источник изображения: Pixabay Одновременно с выпуском модели Claude 3.5 Sonnet, Anthropic анонсировала скорый выход обновлённой версии Claude 3.5 Haiku. «Благодаря высокой скорости, улучшенному следованию инструкциям и более точному использованию инструментов Claude 3.5 Haiku хорошо подходит для продуктов, ориентированных на пользователя, специализированных задач субагентов и создания персонализированного опыта из огромных объёмов данных, таких как история покупок, цены или данные об инвентаре», — говорится в блоге Anthropic. Haiku изначально будет доступна как текстовая модель, а затем как часть мультимодального пакета, который может анализировать как текст, так и изображения. Что касается выпуска обновлённой модели Claude 3.5 Opus, представитель Anthropic заявил: «Все модели в семействе Claude 3 имеют своё индивидуальное применение для клиентов. Claude 3.5 Opus есть в нашей дорожной карте, и мы обязательно поделимся с вами подробностями, как только сможем». Разработчики уже могут протестировать Computer Use через API Anthropic, Amazon Bedrock и платформу Vertex AI от Google Cloud. ИИ-приложение Anthropic Claude для iOS и Android принесло разработчикам более $1 млн выручки
22.08.2024 [04:32],
Владимир Фетисов
На это ушло 16 недель, но ИИ-приложение Claude компании Anthropic преодолело важный рубеж — оно перешагнуло отметку в $1 млн выручки от мобильных приложений для iOS и Android. По данным компании Appfigures, занимающейся анализом мобильных приложений, почти половину выручки Claude принесли пользователи из США. ![]() Источник изображения: Anthropic Несмотря на важное достижение, Claude по-прежнему находится далеко позади главного конкурента в лице ChatGPT. Приложение компании OpenAI для платформы iOS занимает первое место по общему количеству загрузок и 26-е по объёму полученной выручки в США. В это же время Claude находится на 95-м месте в категории «Продуктивность» по количеству загрузок и на 68-м по выручке в той же категории. ![]() Источник изображения: Appfigures Ранее в этом году СМИ писали, что мобильное приложение Claude за первую неделю своего существования на рынке получило слабый отклик — пользователи по всему миру скачали его 157 тыс. раз. Для сравнения, приложение ChatGPT за первые пять дней после запуска в США только на iOS было скачано 480 тыс. раз. По данным Appfigures, лучшим результатом Claude в США было 55-е место в рейтинге бесплатных приложений для iOS, чего удалось добиться через несколько дней после запуска. Несмотря на это, разработчикам Claude удалось получить первый миллион выручки быстрее, чем другим конкурентам, продвигающим ИИ-приложения. Несмотря на то, что Claude значительно отстаёт от ChatGPT, которому потребовалось всего три недели для достижения отметки в $1 млн выручки, он обогнал Microsoft Copilot и Perplexity, которые добились аналогичного результата через 19 и 22 недели после запуска соответственно. ![]() Источник изображения: Appfigures Крупнейшим рынком для Claude по количеству загрузок является США с долей 32,5 %. Следом идут рынки Индии (9,6 %), Японии (6,8 %), Великобритании (5,1 %) и Германии (3,2 %). В совокупности на эти пять рынков приходится 57,2 % установок мобильных приложений Claude. В плане монетизации Claude ситуация выглядит похожим образом. Наибольший доход приносит рынок США (48,4 %). Далее идут рынки Японии (6,7 %), Германии (4,3 %), Великобритании (4,3 %) и Южной Кореи (2,8 %). Совокупно на эти страны приходится 66,8 % выручки мобильных приложений Claude. Авторы обвинили разработчика чат-бота Claude в пиратстве их книг
21.08.2024 [05:07],
Анжелла Марина
Компания Anthropic, разработчик чат-бота Claude, столкнулась с новым иском о нарушении авторских прав. Авторы утверждают, что компания использовала для обучения искусственного интеллекта их книги и сотни тысяч книг других авторов без разрешения. ![]() Источник изображения: anthropic.com По сообщению Reuters, среди истцов оказались писатели Андреа Бартц (Andrea Bartz), Чарльз Грэбер (Charles Graeber) и Кирк Уоллес Джонсон (Kirk Wallace Johnson). Они утверждают, что Anthropic использовала пиратские версии их произведений, требуя денежной компенсации и полного запрета на неправомерное использование произведений. Этот иск стал частью более широкого потока судебных разбирательств, инициированных правообладателями, включая художников, новостные агентства и звукозаписывающие компании. Они требуют разъяснений о том, как и на каком основании технологические компании свободно используют их материалы для обучения своих генеративных ИИ-систем. Представитель Anthropic сообщил во вторник, что компания осведомлена о поданном иске и проводит оценку жалобы, однако отказался комментировать ситуацию более подробно, сославшись на ведение судебного разбирательства. Адвокат авторов также воздержался от комментариев. Следует отметить, что это уже второй иск против Anthropic. В прошлом году музыкальные издатели подали иск, обвинив компанию в неправомерном использовании защищённых авторским правом текстов песен для обучения Claude. Ранее несколько групп авторов подали иски против таких компаний, как OpenAI и Meta✴, обвинив их в аналогичном незаконном использовании произведений для обучения своих языковых моделей. |
✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»; |