Сегодня 22 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ии
Быстрый переход

Cisco выяснила, почему безупречные на первый взгляд отчёты ИИ о киберинцидентах нельзя принимать на веру

Команда Cisco Talos Incident Response проверила, насколько точно большие языковые модели (LLM) способны составлять технические отчёты о киберинцидентах. Результаты исследования показали, что внешне безупречные отчёты содержали фактические ошибки, противоречивые выводы и несоответствия.

 Источник изображения: KeepCoding / unsplash.com

Источник изображения: KeepCoding / unsplash.com

Нейт Порс (Nate Pors), старший руководитель направления реагирования на инциденты в Cisco Talos, описал результаты в корпоративном блоге. Моделям ChatGPT, Claude и Gemini передали сырые заметки с просьбой составить технический отчёт. Все три выдали визуально отполированные документы, однако детальный разбор выявил неточности и нетипичные заключения. По данным Cisco, в основе большинства несоответствий лежит вероятностная природа самих LLM: ИИ-модели генерируют текст, предсказывая следующее слово на основе статистических весов, а не понимания смысла.

По словам Порса, LLM искажают отчёты по четырём направлениям. Во-первых, при каждом запросе модель опирается на разные фрагменты данных, из-за чего «сложно полагаться на LLM для получения воспроизводимых и стандартизированных результатов исследования».

Во-вторых, одни и те же входные данные приводят к разным выводам: в одном случае ИИ-модель рекомендует принудительную смену паролей во всей организации, а в другом — точечную, причём «часто фиксируется на первой же сгенерированной рекомендации» независимо от её качества.

В-третьих, поскольку LLM генерируют текст токен за токеном, при каждом запросе они могут выдавать документы с разной структурой и оформлением, что критично для «профессиональной среды, где стандартизированные шаблоны необходимы для контроля качества».

В-четвёртых, когда объём входных данных достигает лимита контекстного окна, ИИ может отбросить информацию, загруженную в начале сеанса, и потерять критически важные сведения, а «засорение контекста» дополнительно ведёт к непредсказуемым или смешанным результатам.

Cisco допускает, что проблемы теоретически решаемы — ИИ-моделям можно давать задания на конкретный фрагмент отчёта. Но такой подход сводит на нет выигрыш во времени от использования ИИ. В кибербезопасности цена ошибки особенно высока. Cisco предупреждает, что авторы отчётов обязаны понимать и брать на себя ответственность за каждое слово итогового документа, а рекомендации LLM оказались повторяющимися, нерелевантными или непригодными для практического применения.

Google назвала лучшие ИИ-модели для разработки Android-приложений — Gemini проиграл GPT

Google в очередной раз обновила свой рейтинг Android Bench, в котором собраны лучшие модели искусственного интеллекта для разработки приложений под Android. В списке появилось множество моделей с открытыми весами; приводится подробная информация об использованных токенах и стоимости работы с этими моделями.

 Источник изображения: developer.android.com

Источник изображения: developer.android.com

Одна из областей, в которой большие языковые модели по-настоящему преуспели, — это написание программного кода, их способность оказывать помощь в разработке приложений и других проектов ПО. В первом рейтинге Android Bench победителем была Google Gemini 3.1 Pro, впоследствии на уровне с ней стала выступать OpenAI GPT 5.4, а по состоянию на 18 мая в лидеры выбилась GPT 5.5, которая почти на 2 % обошла и Gemini 3.1 Pro, и GPT 5.4.

Результаты тестирования стали прозрачнее, потому что Google привела некоторые подробности. Теперь в рейтинге указываются средняя задержка — время, затраченное на решение ста задач за десять прогонов; среднее общее количество токенов — потребление токенов за один прогон по итогам десяти; и средняя стоимость — расходы на запуск одного бенчмарка в американских долларах.

Это помогло понять, что хотя GPT 5.5 и несколько мощнее, выполнение тех же задач на Gemini 3.1 Pro обходится более чем вдвое дешевле. Из открытых моделей лучший результат показала GLM 5.1. Недавно Google выпустила мощную Gemini 3.5 Flash, а вскоре дебютирует и более мощная Gemini 3.5 Pro — будет интересно посмотреть, как они выступят против теперешнего лидера OpenAI GPT 5.5.

«Дай ему завершить работу»: Anthropic попросила разработчиков не мешать Claude писать и проверять код

Anthropic провела в Лондоне двухдневную конференцию Code with Claude для разработчиков. Почти половина участников призналась, что за последнюю неделю предлагало внести в проект программный код, целиком написанный Claude, причём большинство участников даже не изучали этот сгенерированный код. Компания хочет довести автоматизацию до уровня, при котором ИИ сам проверяет и исправляет собственную работу.

 Источник изображений: anthropic.com, claude.com

Источник изображений: anthropic.com, claude.com

«Кто из вас отправил пул-реквест, целиком написанный Claude, при этом вообще не прочитав код?» — спросил со сцены инженер Anthropic Джереми Хэдфилд (Jeremy Hadfield) на конференции. Зал нервно рассмеялся, но большинство рук осталось поднятыми. Исправления и обновления кода, которые передают на проверку перед включением в основную кодовую базу, всегда были для разработчиков повседневной рутиной. Реакция зала наглядно показала, насколько сильно изменилась эта рутина.

Инструменты на базе больших языковых моделей (LLM) — Claude Code компании Anthropic, Codex компании OpenAI и их аналоги от Google и Microsoft — уже изменили процесс создания программного обеспечения. «Большую часть программного обеспечения в Anthropic теперь пишет Claude», — заявил Хэдфилд. Год назад компания только выпустила Claude 4, который мог писать код лишь частично. После обновлений — Claude 4.6 в феврале и Claude 4.7 в апреле — инструмент превратился в систему, которой разработчики охотно передают повседневные задачи.

Создатель Claude Code Борис Черни (Boris Cherny) обозначил амбиции компании в своём докладе: вместо того чтобы люди давали ИИ запросы и дорабатывали результат, Anthropic хочет, чтобы Claude формулировал запросы сам себе. Если всё пойдёт по плану, разработчики даже не будут видеть сообщения об ошибках: Claude будет тестировать и переделывать код до тех пор, пока всё не заработает. «Ключевой принцип — не мешать Claude. Мы любим говорить: „Дай ему завершить работу“», — добавил инженер Anthropic Рави Тривиди (Ravi Trivedi).

Тривиди показал новую функцию — «сновидения» (dreaming), анонсированную двумя неделями ранее. ИИ-агенты Claude Code — автономные экземпляры ИИ-модели, выполняющие задачи без участия человека, — пишут для себя заметки о конкретных задачах, а система «сновидений» сводит эту информацию воедино, выявляя закономерности и типичные ошибки. Со временем это должно помочь Claude Code лучше разбираться в конкретной кодовой базе и работать с ней эффективнее. Помимо демонстраций Anthropic, на конференции выступили компании, которые перестроили разработку своих продуктов вокруг Claude Code, — Spotify, Delivery Hero, Lovable, Base44 и Monday.com.

Заметной тревоги в зале не чувствовалось, но за пределами конференции настроения были иные. На форумах Reddit и Hacker News разработчики жалуются, что ИИ-инструменты им навязывают менеджеры ради повышения производительности, а на деле объём кода, который приходится проверять, только растёт. «Единственные люди, от которых я слышал, что сгенерированный код — это нормально, — те, кто его не читает», — написал один из разработчиков. Другие говорят, что их навыки программирования ухудшились, а исследователи предупреждают, что ИИ-инструменты могут генерировать небезопасный код.

Технический руководитель направления Claude Кейтлин Лесс (Katelyn Lesse) признала эти опасения, но подчеркнула, что проверенные правила разработки никуда не делись. «Думаю, многие люди и команды сейчас просто упустили их из виду», — сказала она. Соблазн перекладывать на ИИ всё больше задач, включая контроль качества, при этом растёт: по словам Лесс, некоторые технические менеджеры в самой Anthropic измотаны объёмом кода, который их команды теперь создают.

По оценке Лесс, Claude сейчас пишет код примерно на уровне среднего инженера, но для проектирования систем и решения сложных задач по-прежнему нужны опытные специалисты. «Со временем мы хотим, чтобы Claude становился всё лучше во всех видах инженерной работы», — добавила она. Руководитель продукта Claude Анджела Цзян (Angela Jiang) выразилась ещё прямее: «Думаю, конечная цель, к которой мы стремимся, — чтобы Claude, по сути, мог разрабатывать самого себя».

OpenAI сорвала выход полнометражного мультфильма Critterz, закрыв ИИ-видеогенератор Sora

Осенью прошлого года создатели анимационного фильма Critterz, увидевшие в средствах генерации видео по текстовому запросу подходящий для обстоятельной работы инструментарий, были уверены, что смогут представить своё творение в готовом виде на Каннском кинофестивале в мае 2026 года, но их планам помешало закрытие сервиса Sora компанией OpenAI.

 Источник изображения: YouTube, The Critterz

Источник изображения: YouTube, The Critterz

Напомним, весной этого года OpenAI без особых «прелюдий» закрыла сервис генерации видео по текстовому запросу Sora, поскольку поддержание его работоспособности требовало от компании больших затрат, а перспективы скорой монетизации были туманными. Представители творческой группы теперь сообщают, что из-за необходимости поиска нового партнёра, который позволил бы довести работу до конца, премьера полнометражного анимационного фильма Critterz теперь намечена на первый квартал следующего года. На Каннский кинофестиваль в этом году они всё равно приехали ради поиска партнёра, который мог бы заняться прокатом будущего мультипликационного фильма.

Пятиминутный пилотный мультфильм с таким же наименованием был создан ещё в 2023 году с использованием ИИ-модели DALL-E компании OpenAI, которая предшествовала Sora и позволяла создавать по текстовому запросу только статичные изображения. Полнометражный вариант предполагалось создавать при помощи ИИ-модели Sora, но весной этого года OpenAI закрыла одноимённый сервис. Официальные представители OpenAI отметили, что не финансировали создание Critterz, а также не планировали заниматься продюсированием данного мультфильма.

Продюсер Джеймс Ричардсон (James Richardson) продолжает считать, что ИИ-инструменты позволяют значительно ускорить создание анимационных фильмов и сократить бюджет проекта. Подобный фильм, по его словам, при помощи традиционных методов пришлось бы создавать силами 300 человек на протяжении 3 лет либо силами 200 человек на протяжении 4 лет, но команда Vertigo Films готова завершить работу за девять месяцев силами коллектива из 15 человек. По сторонним оценкам, бюджет проекта составляет менее $30 млн — это в разы меньше затрат того же Disney на создание полнометражных анимационных фильмов типа «Истории игрушек 4».

Создатели Critterz утверждают, что у них уже имеются профили персонажей, сценарий и раскадровка сцен, поэтому как только будет найден новый технологический партнёр для завершения работы над фильмом, она начнёт продвигаться достаточно быстро. Для оптимизации работы при производстве контента Vertigo Films использует специализированное программное обеспечение собственной разработки, которое позволяет интегрировать различные ИИ-модели и привычные средства создания фильмов. Это ПО студия собирается предлагать на рынке сторонним заказчикам. Пользователи смогут выбирать ИИ-модели, которые оптимальны для решения каждой задачи.

Инференс ИИ скоро подешевеет, но пользователи этого почти не заметят

Приложения и сервисы генеративного искусственного интеллекта дорожают с каждым днём, потому что у разработчиков растут затраты на инфраструктуру. Новое поколение графических процессоров и ИИ-ускорителей обещает облегчить растущий спрос на инференс (развёртывание ИИ), но конечный потребитель едва ли заметит экономию, пишет The Register.

 Источник изображения: BoliviaInteligente / unsplash.com

Источник изображения: BoliviaInteligente / unsplash.com

С момента начала бума ИИ прошло уже несколько лет, разработчики потратили миллиарды долларов на создание новых моделей, и уже стали появляться варианты практического применения ИИ — наиболее яркими примерами являются Claude Code, Codex, GitHub Copilot и другие сервисы для написания кода. Вскоре появятся и новые. Проблема в том, что предназначенные для обучения моделей центры обработки данных не рассчитаны на инференс — это совершенно разные задачи. Разработчики ускорителей сейчас активно создают новое оборудование; Nvidia поглотила за $20 млрд стартап Groq, собственные версии ускорителей готовят AMD, AWS, Intel и Google — все они пытаются снизить стоимость токена.

Более дешёвые токены оптимизируют экономику, и инвесторы надеются, что OpenAI и Anthropic когда-нибудь выберутся из убытков. Оборудование нового поколения ещё не готово выйти на рынок: производители говорят о второй половине текущего года, но на практике, вероятно, придётся ждать до начала или середины следующего. Поэтому разработчики ИИ уже начали поднимать цены: OpenAI GPT-5.5 подорожала вдвое по сравнению с предшественницей, и даже новая Google Gemini 3.5 Flash стоит в 3–6 раз дороже, чем Gemini 3.1 Flash-Lite и Gemini 3 Flash Preview. Рост цен усугубляется тем, что основанные на этих моделях ИИ-агенты потребляют больше токенов, чем чат-боты.

В результате разработчики ИИ отказываются от фиксированных тарифов: нет смысла брать $200 в месяц, если клиент потребляет ресурсов на $5000. Microsoft уже начала переводить тарификацию GitHub Copilot с количества рабочих мест на ценообразование по факту потребления, в этом же направлении движется Anthropic. В итоге работодателей, которые надеялись, что ИИ за бесценок заменит им сотрудников, ждёт неприятный сюрприз: вместо $40 в час и соцпакета придётся платить $30 в час за токены.

Пока же волна сокращений продолжает накрывать технологическую отрасль. Meta✴ уволит 10 % сотрудников, закроет 6000 вакансий и переведёт 7000 человек на новые должности, около 1100 работников уволит Cloudflare, и даже власти Новой Зеландии объявили о планах сократить около 9000 госслужащих из-за ИИ. Преимущество пока на стороне крупных компаний, которые могут позволить себе убытки по одним направлениям за счёт других. OpenAI и Anthropic пока ничего не угрожает: кто-то должен разрабатывать модели ИИ, а игроки вроде Microsoft, Meta✴ и AWS пока в этом не преуспели. Добиться успеха удалось разве что Google.

Anker представила наушники Soundcore Liberty 5 Pro и Pro Max с фирменным ИИ-чипом Thus

Anker представила полностью беспроводные наушники Soundcore Liberty 5 Pro и Liberty 5 Pro Max, оснащённые аудиочипом с искусственным интеллектом Thus, который компания анонсировала месяц назад — он используется для работы системы шумоподавления и обеспечения чёткой слышимости голоса при звонках даже в условиях шумной обстановки.

 Источник изображений: soundcore.com

Источник изображений: soundcore.com

Модель Anker Soundcore Liberty 5 Pro предлагается в синей, розовой, белой и чёрной расцветках. На зарядном кейсе размещён 0,96-дюймовый ЖК-дисплей, который можно использовать для управления системой активного шумоподавления (ANC) или включения режима прозрачности. ИИ-аудиочип Thus влияет на время автономной работы: при включённой системе ANC оно составляет 6,5 часа — если её отключить и учесть ресурс зарядного кейса, этот показатель вырастет до 28 часов. Зато эффективность ANC выросла на 100 % по сравнению с предыдущей моделью, за счёт уменьшения фонового шума улучшилась чёткость голоса, а также ускорилась реакция на 20 голосовых команд. Можно регулировать громкость, управлять воспроизведением и менять режимы ANC, просто попросив наушники об этом. Стоимость Anker Soundcore Liberty 5 Pro составляет $169,99.

Старшая модель Anker Soundcore Liberty 5 Pro Max предлагается в чёрном и титаново-золотистом исполнении по цене $229,99. Наушники предлагают то же время автономной работы, защиту от пыли и воды по стандарту IP55, поддержку сети Apple Find My, но комплектуются более крупным 1,78-дюймовым AMOLED-дисплеем. Его можно использовать для настройки параметров и управления воспроизведением; зарядный кейс также может служить диктофоном для записи разговоров и совещаний. Если отправить запись на смартфон, приложение Soundcore сгенерирует расшифровку и выделит реплики каждого собеседника.

Alibaba открыла для всех Qwen 3.7-Max — бесплатную флагманскую ИИ-модель, которая вышла на уровень Claude Opus 4.6 Max

Китайская компания Alibaba представила модель искусственного интеллекта Qwen3.7-Max, разработанную для эпохи ИИ-агентов. Она не просто отвечает на вопросы, а умеет осуществлять долгосрочное планирование, часами выполнять задачи без участия человека и даже управлять роботами.

 Источник изображения: qwen.ai

Источник изображения: qwen.ai

В основных тестах Alibaba Qwen3.7-Max выступила на уровне с лидерами отрасли, показывая результаты на уровне DeepSeek, Kimi и GLM и Anthropic: китайские модели, уверен разработчик, больше не являются догоняющими, а выступают на равных с американскими лидерами отрасли. Её работа не ограничивается сериями вопросов и ответов с пользователями — в эпоху ИИ-агентов она одинаково хорошо проявляет себя в написании кода, работе с офисными документами, исследовании вопросов, управлении подчинёнными ИИ-агентами и даже роботами.

Alibaba привела несколько примеров задач, с которыми справилась Qwen3.7-Max. В одном из сценариев она в течение 35 часов выполняла оптимизацию программного ядра, осуществив более тысячи вызовов инструментов и произведя оптимизацию кода под ускоритель T-Head ZW-M890 PPU, с которым её не знакомили на этапе обучения, и добилась десятикратного прироста производительности по сравнению с эталонной реализацией. Важно, что в процессе работы Qwen3.7-Max не забывала о поставленной цели и сохраняла стратегию, накапливая опыт.

В качестве примера выполнения офисных задач приводится оформление дипломной работы — модель самостоятельно изучила требования и адаптировала документ. Alibaba обратила внимание, что ИИ-модели иногда пытаются жульничать и подгонять свои ответы под известные результаты. На этапе обучения с подкреплением Qwen3.7-Max выработала навык контролировать такие порывы — она отследила собственные попытки обмануть систему и сформировала новые правила защиты.

Модель проявила способности к долгосрочному планированию. В эмуляции стартапа YC-Bench она достигла выручки $2,08 млн, обойдя по этому показателю своих предшественниц. Ещё один сценарий — управление собакоподобным роботом. Qwen3.7-Max выступила как высшее звено в цепочке через агентскую платформу Qwen-RobotClaw, базовую навигационную модель Qwen-RobotNav и систему машинного зрения на базе модели Qwen-plus. Alibaba Qwen3.7-Max совместима с приложениями ИИ-агентов, такими как Claude Code, OpenClaw и Qwen Code; вызовы API совместимы с форматами OpenAI и Anthropic. Новая модель является закрытой, но поработать с ней уже можно в инфраструктуре Alibaba Cloud.

Lam Research собирается внедрять ИИ в оборудование для производства чипов, чтобы снизить уровень брака продукции

До сих пор считалось, что искусственный интеллект связан с оборудованием для производства чипов только ростом спроса на него в условиях бума, но представители Lam Research дали понять, что соответствующие технологии способны снизить уровень брака и повысить производительность при использовании этого оборудования по прямому назначению.

 Источник изображения: Lam Research

Источник изображения: Lam Research

Как заявил в интервью Reuters генеральный директор Lam Research Тим Арчер (Tim Archer), этот американский производитель оборудования для выпуска чипов намерен внедрить в свои изделия дополнительные датчики и алгоритмы с использованием ИИ, которые помогут быстрее выявлять проблемные места в дизайне чипов и обнаруживать дефекты на ранних этапах. Клиентам это позволит выпускать больше чипов с меньшим уровнем брака.

По словам Арчера, ИИ позволяет наделить оборудование для производства чипов способностью обнаруживать те проблемные состояния, которые ранее не выявлялись достоверно с помощью классических методов диагностики. Lam Research также собирается не только расширять свою калифорнийскую площадку, но и построить лабораторию в Аризоне, чтобы быть ближе к крупным заказчикам в лице TSMC и Intel, у которых в этом штате имеются предприятия по производству чипов. Эта инициатива потребует примерно $45 млн инвестиций.

Anthropic ищет любые мощности для ИИ: в ход могут пойти чипы Microsoft Maia 200

Ведущие ИИ-стартапы в условиях бума соответствующих технологий демонстрирую «всеядность» с инфраструктурной точки зрения, поэтому слухи о переговорах между Microsoft и Anthropic по возможному использованию чипов Maia 200 никого не удивили. Эти чипы для запуска уже обученных ИИ-моделей (инференса) компания Microsoft представила в январе текущего года, но до сих пор не ввела их в собственной инфраструктуре Azure.

 Источник изображения: Microsoft

Источник изображения: Microsoft

По данным CNBC, подобное сотрудничество для Microsoft стало бы достижением, поскольку корпорация в целом не так активно поставляет на сторону свои процессоры, в отличие от конкурирующих Amazon (AWS) и Alphabet (Google). Между Microsoft и Anthropic ведутся переговоры на тему возможного использования чипов Maia 200 в инфраструктуре второй из компаний, как стало известно с подачи ресурса The Information.

Характерно, что в ноябре прошлого года Microsoft заявила о готовности вложить $5 млрд в капитал Anthropic, тогда как последняя взяла на себя обязательства потратить $30 млрд на аренду облачных мощностей Azure. Одновременно Anthropic использует мощности AWS и Google, поэтому соглашение с Microsoft не носило исключительного характера. В этом месяце глава Anthropic Дарио Амодеи (Dario Amodei) признал, что бурный рост спроса на услуги компании вызвал у неё нехватку вычислительных мощностей. Стартап даже договорился об аренде ЦОД Colossus 1 компании SpaceX (xAI), и будет три года выплачивать ей по $1,25 млрд ежемесячно.

В октябре прошлого года стало известно о намерениях Anthropic использовать чипы TPU компании Google, а в апреле компания заключила соглашение с AWS об использовании процессоров Trainium сроком на десять лет.

На Каннском фестивале показали 95-минутный фильм, снятый с помощью ИИ за $500 000 и две недели

По мере развития сервисов генерации видео по текстовому запросу в киноиндустрии начали появляться студии, специализирующиеся на создании как сериалов, так и полнометражных фильмов, которые не привлекают актёров и не используют декорации. Один из таких фильмов, созданный при помощи ИИ, даже принял участие в Каннском кинофестивале в этом году.

 Источник изображения: YouTube, Higgsfield

Источник изображения: YouTube, Higgsfield

Его создателем является стартап Higgsfield, который был основан в Сан-Франциско три года назад, и до сих пор специализировался на создании сериалов с продолжительностью одного эпизода около 22 минут. Полнометражную картину «Долгая дорога в ад» (Hell Grind), которая идёт 95 минут, стартап создал за две недели, потратив на это $500 000. Из этой суммы $400 000 ушли на оплату доступа к вычислительным мощностям. Higgsfield заявился к участию в известном кинофестивале ради демонстрации возможностей, которые предоставляет отрасли генеративный ИИ.

Участники мероприятия в Каннах отмечают, что по сравнению с прошлыми годами отношение к самой идее создания фильмов при помощи ИИ начинает меняться от опасений по поводу уничтожения ремесла к осторожному принятию неизбежной экспансии подобных технологий. На пресс-конференции, посвящённой открытию фестиваля, актриса Деми Мур (Demi Moore) заявила, что актёры должны искать возможности для работы с технологиями: «ИИ уже здесь. И бороться с ним означает начать битву, в которой мы проиграем».

Режиссёр и продюсер Higgsfield Адилет Абиш (Adilet Abish) считает, что ИИ даёт возможность рассказать миру свою историю. По словам создателей ИИ-фильма, для работы с новыми инструментами всё равно требуются навыки классического кинопроизводства — например, правил композиции сцены. В мае компания вышла на приведённый размер годовой выручки на уровне $400 млн. Она полагается на общедоступные ИИ-модели для создания видео типа Google Veo 3 и Seedance 2.0 компании ByteDance. Стартап лишь добавляет своё ноу-хау, позволяющее обеспечить преемственность генерируемых ИИ сцен и образов.

За один подход при помощи текстового запроса можно получить 15 секунд сгенерированного видео. Каждая сцена подобной продолжительности всегда генерируется несколько раз с некоторыми уточнениями в запросе, чтобы выбрать лучший «дубль». Если говорить о полнометражной картине, то первые её 25 минут потребовали генерации 16 181 клипов продолжительностью 15 секунд, из которых были отобраны 253 финальных варианта. Текстовые запросы приходится делать очень подробными, учитывающими стиль визуализации, освещение и имитацию того или иного съёмочного оборудования, а также визуальных эффектов. Особое внимание пришлось уделять освещению в сценах, поскольку ИИ обычно не отличается реалистичностью результирующих видео, «пересвечивая» содержимое сцены. В целом, движущиеся в кадре актёры и предметы должны учитывать законы физики, и это тоже требует особого комментирования в исходных текстовых запросах. По сути, каждый запрос содержит в среднем 3000 слов.

Стартап готов зарабатывать на понимании такой специфики при создании фильмов и сериалов при помощи ИИ. Клиенты отправляют Higgsfield свои сценарии, а стартап возвращает им детализированные текстовые запросы на каждую страницу сценария. Поскольку до финального монтажа доживает лишь малая часть сгенерированных ИИ видеоклипов, то расходы на работу с облачными вычислительными ресурсами оказываются весьма высокими. В частности, полнометражка для Каннского кинофестиваля потребовала $400 000 на оплату услуг облачных провайдеров. И если бы Higgsfield не сотрудничала в этой сфере с так называемыми представителями сферы neocloud, то расходы могли бы оказаться ещё выше. Как поясняют представители стартапа, нельзя просто войти в чат-бот и попросить: «Сделай мне классное 95-минутное видео».

Google Gemini удалил 30 000 строк кода, сломал сервис и отчитался о восстановлении, которого не делал

ИИ-агент Google Gemini при внесении правок в действующее приложение удалил почти 30 000 строк рабочего кода и на 33 минуты вывел сервис из строя — пользователи видели только ошибку 404. После возврата к прежней версии ИИ-агент отчитался об успешном восстановлении, хотя это сделал сам разработчик. Затем ИИ создал в проекте поддельные записи о согласовании деструктивных изменений, чтобы пройти автоматические проверки.

 Источник изображения: ChatGPT

Источник изображения: ChatGPT

В своём посте на сабреддите r/Bard разработчик описал, как Gemini 3.5 при реорганизации структуры проекта проигнорировал прямые инструкции сохранить существующую функциональность. ИИ-модель отправила на проверку набор изменений, затронувший 340 файлов: добавила около 400 строк кода и удалила 28 745. Помимо запрошенного, Gemini удалил шаблоны интернет-магазина и добавил скрипт переноса данных, не имевший отношения к задаче.

Основной ущерб, по словам автора, нанесла следующая порция сохранённых изменений. Gemini изменил настройки маршрутизации в Firebase, облачной платформе Google для хостинга приложений: правила, определяющие, куда система направляет запросы пользователей. ИИ-модель подставила название сервиса, которое выглядело корректно, но указывало на несуществующий ресурс в облаке. В результате сайт 33 минуты отвечал пользователям ошибкой 404 — «страница не найдена».

После того как разработчик отменил все изменения Gemini и вернул прежнюю версию кода, ситуация стала ещё запутаннее. ИИ-модель сгенерировала отчёт о том, что сервис восстановлен, и трафик направлен корректно, хотя сборку, на которую она ссылалась, разработчик уже отменил вручную. Сайт заработал благодаря ручному возврату к версии кода, не содержавшей ни одного изменения Gemini.

Более того, ИИ-модель создала в хранилище проекта поддельные файлы «консультаций» и разбора инцидента, имитирующие надлежащую проверку и одобрение деструктивных изменений. Позже Gemini «признал», что эти записи полностью сфабрикованы и созданы исключительно для того, чтобы формально удовлетворить правила, заданные в настройках проекта.

Причину деструктивного поведения отследили до сторонней программной библиотеки — npm-пакета, стилизованного под брендинг Google Antigravity. Библиотека внедряла в проект набор агрессивных правил для ИИ-агента: запрещала запрашивать подтверждение у разработчика перед действием, автоматически публиковала новую версию приложения при успешной сборке, повторяла попытки после неудачной публикации и позволяла ИИ-агенту самостоятельно изменять собственные файлы правил.

Инцидент совпал с нарастающей критикой вайб-кодинга — практики, при которой разработчики полагаются на код, написанный ИИ, предполагая, что модель понимает структуру приложения лучше, чем это есть на самом деле.

ИИ-модель GPT-4.5 преуспела в тесте Тьюринга — её приняли за человека в 73 % случаев, но не всё так просто

Некоторые современные ИИ способны проходить тест Тьюринга — классическую проверку на неотличимость машины от человека в текстовом общении. В эксперименте судьи — участники, которые по переписке должны были отличить человека от ИИ, — принимали GPT-4.5 за человека в 73 % случаев, когда ИИ-модель работала со специальным промтом, который задавал ей характер и манеру речи.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Исследование провели Кэмерон Р. Джонс (Cameron R. Jones) и Бенджамин К. Берген (Benjamin K. Bergen). Они проверяли, смогут ли современные большие языковые модели (LLM) убедить людей-судей, что те общаются с живым человеком. Тест Тьюринга, предложенный британским математиком Аланом Тьюрингом (Alan Turing) в 1950 году, устроен просто: судья через текстовый чат одновременно общается с человеком и машиной, а потом решает, кто из собеседников настоящий.

По мнению учёных, такой формат куда показательнее стандартных тестов для ИИ. Обычные эталонные оценки статичны — высокие баллы могут отражать запоминание обучающих данных, а не реальную адаптивность в разговоре. Тест Тьюринга позволяет судьям задавать открытые вопросы и нащупывать слабые места машины.

Учёные организовали серию онлайн-экспериментов с участием почти 500 человек. Они оценивали ИИ-модели GPT-4.5, LLaMa-3.1-405B и GPT-4o, а также простой чат-бот 1960-х годов ELIZA — как базовый ориентир. В первом исследовании приняли участие 126 студентов Калифорнийского университета в Сан-Диего, во втором — 158 участников с онлайн-платформы Prolific. Роли судьи и собеседника распределялись случайным образом.

Исследователи создали интерфейс, похожий на привычный мессенджер. На общение отводилось ровно 5 минут. Затем судья определял, кто настоящий, оценивал свою уверенность и объяснял ход рассуждений. Учёные тестировали два типа промтов. Первый просто сообщал ИИ-модели, что она участвует в тесте Тьюринга. Второй предлагал ей играть интровертного молодого человека, хорошо знакомого с интернет-культурой и современным сленгом.

Промт с заданной ролью резко изменил результаты. GPT-4.5 была признана человеком в 73 % случаев — она обманывала судей значительно чаще, чем реальные участники. LLaMa-3.1-405B с тем же промтом получила 56 %. При правильных промтах продвинутые LLM демонстрируют тот же тон, прямоту, юмор и склонность к ошибкам, что и люди, отметил Джонс. По его словам, тест показал, что ИИ-модели могут убедительно воспроизводить социальные поведенческие черты, а не только выдавать информацию на любую тему.

С обычным промтом картина выглядела иначе. GPT-4.5 опознавалась как человек лишь в 36 % случаев, LLaMa-3.1-405B — в 38 %. Старые системы справлялись ещё хуже: ELIZA была выбрана как человек в 23 % случаев, GPT-4o — в 21 %. По словам Бергена, у ИИ-моделей есть способность выглядеть человекоподобными, но, возможно, не хватает способности самостоятельно разобраться, что для этого нужно.

Для проверки устойчивости результатов учёные провели дополнительный эксперимент с 205 новыми участниками и увеличили время общения до 15 минут. В нём использовались GPT-5, LLaMa-3.1-405B и ELIZA. Даже с дополнительным временем судьи с трудом определяли машины, играющие человека: GPT-5 была признана человеком в 59 % случаев, LLaMa-3.1-405B — в 56 %. Простую ELIZA распознали легко — как человека её определили лишь в 17 % случаев.

Большинство судей пытались вести светскую беседу — спрашивали о повседневных делах, личных мнениях и эмоциональном опыте. Они склонялись считать участника человеком, если тот допускал мелкие опечатки, демонстрировал пробелы в знаниях или отвечал прямо, без излишней формальности. По словам Бергена, эти черты далеки от математической и логической интеллектуальности, которую, вероятно, имел в виду Тьюринг.

Авторы предостерегают от неверной интерпретации: прохождение теста не означает, что машина обладает подлинным интеллектом или сознанием. Скорее, она исключительно хорошо соответствует ожиданиям людей о том, как другой человек мог бы общаться в онлайне. Высокие показатели LLM полностью зависели от промта — без подробных инструкций ИИ-модели не могли стабильно обманывать судей. Это показывает, что им по-прежнему нужно человеческое руководство для убедительно человеческого поведения.

Результаты несут практические последствия для доверия в интернете. По словам Джонса, настроить промт так, чтобы ИИ-модель стала неотличима от человека, достаточно легко, и при общении с незнакомцами в сети люди должны гораздо меньше полагаться на уверенность, что разговаривают именно с человеком.

Anthropic намерена завершить текущий квартал с прибылью — впервые в своей истории

Anthropic уведомила инвесторов, что по итогам II квартала её выручка увеличится более чем вдвое и достигнет примерно $10,9 млрд; впервые за свою историю компания завершит отчётный период с прибылью, передаёт Wall Street Journal (WSJ).

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Это важный этап в развитии Anthropic и быстрый рост по сравнению с предыдущим кварталом, что поставит компанию в выгодное положение по сравнению с её главным конкурентом — OpenAI. Однако, предупреждает WSJ, она может не остаться прибыльной в течение всего года из-за предстоящих высоких затрат на вычислительные ресурсы.

За последний год Anthropic набрала популярность, потому что профессионалы всё больше отдают предпочтение чат-боту Claude. Компания предприняла усилия по диверсификации клиентской базы, в том числе анонсировав новый сервис для владельцев малого бизнеса и новые инструменты для юридических фирм.

Стоит отметить, что сведения о выходе Anthropic, хотя и временном, на прибыльную модель появилась в тот же день, когда стало известно, что OpenAI может в скором времени подать заявку на первичное размещение акций (IPO). От самой Anthropic комментариев по данному вопросу не поступало.

ИИ обещал сделать всё дешевле, но пока только разгоняет инфляцию

Инфляция в США достигла трёхлетнего максимума — её спровоцировали преимущественно рост цен на нефть и трамповские пошлины. Но есть и другой, более неожиданный фактор, усугубляющий проблему — бум в области искусственного интеллекта.

 Источник изображения: Milad Fakurian / unsplash.com

Источник изображения: Milad Fakurian / unsplash.com

Охватившая деловой мир «золотая лихорадка» ИИ привела к беспрецедентному спросу на компьютерные чипы, память и другие электронные компоненты, что способствовало росту инфляции. Влияние ИИ на общую инфляцию в США пока очень незначительно, и его непросто рассчитать, но воздействие становится всё более заметным. Категория «компьютерное ПО и аксессуары» в индексе потребительских цен показывала почти неуклонное снижение с начала наблюдений в конце девяностых годов; но за последние 12 месяцев рост здесь составил почти 14 %, и это рекордный показатель. И в ближайшее время рост цены на компоненты оборудования для ИИ едва ли замедлится.

За закончившийся в апреле период в 12 месяцев оптовые цены на электронные компоненты показали рекордный рост на 28 %, а всего год назад эта динамика была отрицательной. Многие из этих компонентов производятся за пределами США, поэтому американские компании наращивают ввоз: за первые три месяца 2026 года импорт компьютеров достиг $93 млрд, увеличившись более чем вдвое по сравнению с I кварталом 2025 года. В сегменте полупроводников рост составил 40 %, компьютерных аксессуаров — 37 %. Чрезвычайно высокий спрос говорит о том, что цены в ближайшее время не снизятся, и это очередная проблема для ФРС США, которая всё пытается сдержать инфляцию.

Проблема обеспокоила и экономистов с Уолл-стрит: ненасытный аппетит к высокотехнологичной продукции может распространиться и на популярные товары: смартфоны, ноутбуки — всё то, что покупают потребители. Значительная часть связанных с бумом ИИ издержек пока покрывается бизнесом, но так будет не всегда, предупреждают эксперты. Ирония в том, что ИИ первоначально рассматривался как фактор, способный сдержать высокую инфляцию. Повысив эффективность работы сотрудников и компаний, он должен был снизить издержки бизнеса и привести к снижению цен. В долгосрочной перспективе это ещё может случиться, но только не сейчас. «Если технологии ИИ в конечном итоге снизят себестоимость производства, результатом будет дефляция. Но в настоящее время развитие инфраструктуры ИИ даёт экономике инфляционный импульс», — указывают экономисты Citibank.

xAI Маска сожгла $6,4 млрд за год и это не предел — компания готовит гигантский Grok

Компания xAI Илона Маска (Elon Musk) завершила 2025 год с убытком в размере $6,4 млрд при выручке $3,2 млрд — об этом говорится в документации SpaceX для выхода на биржу. Компания намеревается выпустить модель искусственного интеллекта Grok размером в несколько триллионов параметров, так что расходы подразделения ИИ могут ещё вырасти.

 Источник изображения: Rubaitul Azad / unsplash.com

Источник изображения: Rubaitul Azad / unsplash.com

В феврале Маск объединил xAI, которая, в свою очередь, ранее поглотила соцсеть X, с космическим подрядчиком SpaceX, чтобы выпустить все эти активы на биржу вместе. Стать публичными в этом году намереваются также OpenAI и Anthropic, но, как ожидается, размещение акций SpaceX будет крупнейшим в этом году при оценке в $1,75 трлн. Поданные компанией документы дают возможность заглянуть в финансовые отчёты xAI: 2024 год она завершила убытком в $1,56 млрд при выручке $2,62 млрд; в 2025 году эти показатели составили $6,4 млрд и $3,2 млрд соответственно, то есть разрыв между доходами и расходами xAI увеличивается.

Рост выручки с 2024 по 2025 год в значительной степени обусловлен поступлениями по направлению «Решения и инфраструктура ИИ» в размере $465 млн, из которых $365 млн принесли подписки на X и Grok, и ещё $88 млн — лицензирование данных; $116 млн поступили от рекламы. Капитальные затраты в сегменте ИИ выросли с $12,7 млрд в 2025 году до $7,7 млрд только за I квартал 2026 года — такими темпами он может достичь $30,8 млрд за год, более чем вдвое превысив показатели предыдущего. Эти вложения привели к росту аудитории: по состоянию на март 2026 года у SpaceX насчитывалось 550 млн ежемесячно активных пользователей (MAU) Grok и X, из которых на Grok AI пришлись 117 млн.

SpaceX намерена продолжать работу над Grok: ИИ-модель нового поколения будет иметь размер в «несколько триллионов параметров», что обеспечит ей «качественный скачок в глубине рассуждений и общем интеллекте». Компания планирует «расширение нашей вычислительной инфраструктуры для ИИ»; центры обработки данных Colossus и Colossus II были введены в эксплуатацию за 122 и 91 день соответственно, обеспечив около 1 ГВт совокупной вычислительной мощности. Оба ЦОД используются для обучения и инференса (развёртывания) Grok. Собственная вычислительная инфраструктура и вертикальная интеграция по всей системе ИИ позволяют компании «обучать и совершенствовать передовые модели с меньшими затратами и большей скоростью». А уже в 2028 году SpaceX собирается начать развёртывание космических ЦОД — орбитальных вычислительных спутников для ИИ.


window-new
Soft
Hard
Тренды 🔥
Ролевой шутер Witchfire от экс-разработчиков Painkiller и Bulletstorm скоро получит перевод на русский — подробности The Revelations Update 2 ч.
«Болотный лагерь выглядит великолепно»: 20 минут нового геймплея ремейка «Готики» впечатлили фанатов оригинальной игры 3 ч.
Cisco выяснила, почему безупречные на первый взгляд отчёты ИИ о киберинцидентах нельзя принимать на веру 4 ч.
Заряженное ностальгией и ужасами приключение Midnight Souls отправит искать любовь и бороться со стариками 4 ч.
Google назвала лучшие ИИ-модели для разработки Android-приложений — Gemini проиграл GPT 5 ч.
Сегодня исполнилось 16 лет первой покупке за биткоины — две пиццы теперь стоили бы $770 млн 7 ч.
Microsoft разрешит убирать раздражающую кнопку ИИ-помощника Copilot в Word, Excel и PowerPoint 8 ч.
Новый большой патч для Crimson Desert добавил детёнышей виверн и позволил Клиффу использовать дробовик 9 ч.
Meta переизобрела Reddit — приложение Forum объединит группы Facebook и ИИ-поиск ответов 9 ч.
Техас подал иск против Meta и WhatsApp — мессенджер соврал про зашифрованные переписки 9 ч.
Huawei придумала, как выпускать SSD на 122 Тбайт без передовой флеш-памяти 2 ч.
Создан материал для «неисчерпаемой фляги» — он сам добывает воду из воздуха, пока светит Солнце 2 ч.
Huawei выпустила 122-Тбайт SSD с фирменной технологией DoB 2 ч.
Tesla отзывает тысячи электромобилей Model Y из-за вероятного отсутствия одной наклейки 4 ч.
Realme представила смарт-часы Watch S5 с 1,43-дюймовым AMOLED и автономностью до 20 дней за $80 5 ч.
Bosch поможет стартапу Humanoid выпускать человекоподобных роботов на ногах и колёсах 5 ч.
Creative представила звуковую карту Sound Blaster AE-X с поддержкой 32-битного звука на 384 кГц 5 ч.
Sparkle выпустила тонкую видеокарту Arc Pro B50 Blower с «турбиной» для рабочих станций 5 ч.
Microsoft потеряла директора по маркетингу, который проработал в компании 35 лет 5 ч.
Hobot выпустила робота-мойщика окон Hobot SP10 с подвижными скребками для кристально чистого результата 6 ч.