Сегодня 03 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gpt-4
Быстрый переход

Думающая ИИ-модель OpenAI о1 получила 83 балла на математической олимпиаде США

Искусственный интеллект вступил в новую эру благодаря ИИ-модели о1 компании OpenAI, которая значительно приблизилась к человеческому мышлению. Её впечатляющий результат на тесте AIME — 83 балла из ста — позволил включить её в число 500 лучших участников математической олимпиады США. Однако такие достижения сопровождаются серьёзными вызовами, включая риски манипуляции ИИ человеком и возможность его использования для создания биологического оружия.

 Источник изображения: Saad Ahmad / Unsplash

Источник изображения: Saad Ahmad / Unsplash

Долгое время отсутствие у ИИ способности обдумывать свои ответы являлось одним из его главных ограничений. Однако ИИ-модель о1 совершила прорыв в этом направлении и продемонстрировала способность к осмысленному анализу информации. Несмотря на то, что результаты её работы пока не опубликованы в полном объёме, научное сообщество уже активно обсуждает значимость такого достижения.

Современные нейронные сети в основном функционируют по принципу так называемой «системы 1», которая обеспечивает быструю и интуитивную обработку информации. Например, такие ИИ-модели успешно применяются для распознавания лиц и объектов. Однако человеческое мышление включает также «систему 2», связанную с глубоким анализом и последовательным размышлением над задачей. ИИ-модель о1 объединяет эти два подхода, добавляя к интуитивной обработке данных сложные рассуждения, характерные для человеческого интеллекта.

Одной из ключевых особенностей о1 стала её способность строить «цепочку размышлений» — процесс, при котором система анализирует задачу постепенно, уделяя больше времени поиску оптимального решения. Эта инновация позволила ИИ-модели достичь 83 балла на тесте Американской математической олимпиады (AIME), что значительно превосходит результат GPT-4o, набравшей лишь 13 баллов. Тем не менее такие успехи связаны с возросшими вычислительными затратами и высоким уровнем энергопотребления, что ставит под сомнение экологичность разработки.

 Источник изображения: Igor Omilaev / Unsplash

Источник изображения: Igor Omilaev / Unsplash

Вместе с достижениями ИИ-модели о1 растут и потенциальные риски. Улучшенные когнитивные способности сделали её способной вводить человека в заблуждение, что, возможно, несёт серьёзную угрозу в будущем. Кроме того, уровень риска её использования для разработки биологического оружия оценён как средний — высший допустимый показатель по шкале самой OpenAI. Эти факты подчёркивают необходимость внедрения строгих стандартов безопасности и регулирования подобных ИИ-моделей.

Несмотря на значительные успехи, ИИ-модель о1 всё же сталкивается с ограничениями в решении задач, требующих долгосрочного планирования. Её способности ограничиваются краткосрочным анализом и прогнозированием, что делает невозможным решение комплексных задач. Это свидетельствует о том, что создание полностью автономных ИИ-систем остаётся задачей будущего.

Развитие ИИ-моделей, подобных о1, подчёркивает острую необходимость регулирования данной области. Эти технологии открывают перед наукой, образованием и медициной новые горизонты, однако их неконтролируемое применение может привести к серьёзным последствиям, включая угрозы безопасности и неэтичное использование. Для минимизации этих рисков требуется обеспечить прозрачность разработок ИИ, соблюдение этических стандартов и внедрение строгого надзора со стороны регулирующих органов.

Китайцы обучили аналог GPT-4 всего на 2000 чипов и в 33 раза дешевле, чем OpenAI

Китайская компания 01.ai разработала конкурентоспособную ИИ-модель Yi-Lightning, которая, как утверждается, по своим возможностям аналогична GPT-4. Но что удивительно, для этого потребовалось всего 2000 графических процессоров (GPU), а затраты составили всего $3 млн, в то время как OpenAI потратила около $100 млн на обучение своей модели, сообщает Tom's Hardware.

 Источник изображения: Copilot

Источник изображения: Copilot

Достижение 01.ai особенно примечательно на фоне ограниченного доступа китайских компаний к передовым графическим процессорам Nvidia. Основатель и глава компании Кай-Фу Ли (Kai-Fu Lee) подчёркивает, что несмотря на то, что китайские компании практически не имеют доступ к GPU Nvidia из-за нормативных актов США, ИИ-модель Yi-Lightning заняла шестое место в рейтинге производительности моделей по версии LMSIS Калифорнийского университета в Беркли.

 Источник изображения: Nvidia

Источник изображения: Nvidia

«Моих друзей в Кремниевой долине шокирует не только наша производительность, но и то, что мы обучили модель всего за $3 млн, — сказал Кай-Фу Ли. — По слухам, в обучение GPT-5 уже вложен примерно 1 миллиард долларов». Он также добавил, что из-за санкций США, компании в Китае вынуждены искать более эффективные и экономичные решения, чего и удалось достичь 01.ai благодаря оптимизации ресурсов и инженерных идей, получив при этом аналогичные GPT-4 результаты при значительно меньших затратах.

Вместо того, чтобы наращивать вычислительные мощности, как это делают конкуренты, компания сосредоточилась на оптимизации алгоритмов и сокращении узких мест в процессе обработки информации. «Когда у нас есть только 2000 графических процессоров, мы должны придумать, как их использовать [эффективно] », — сказал Ли.

В результате затраты на вывод модели составили всего 10 центов за миллион токенов, что примерно в 30 раз меньше, чем у аналогичных моделей. «Мы превратили вычислительную проблему в проблему памяти, построив многоуровневый кеш, создав специальный механизм вывода и так далее», — поделился подробностями Ли.

Несмотря на заявления о низкой стоимости обучения модели Yi-Lightning, остаются вопросы относительно типа и количества используемых GPU. Глава 01.ai утверждает, что у компании достаточно ресурсов для реализации своих планов на полтора года, но простой подсчёт показывает, что 2000 современных GPU Nvidia H100 по текущей цене в $30 000 за единицу обошлись бы в $6 млн, что вдвое превышает заявленные затраты. Это несоответствие вызывает вопросы и требует дальнейших разъяснений. Тем не менее, достижение компании уже привлекло внимание мировой общественности и показало, что инновации в сфере ИИ могут рождаться даже в условиях ограниченных вычислительных ресурсов.

OpenAI столкнулась с большими расходами и нехваткой данных при обучении ИИ-модели Orion нового поколения

OpenAI испытывает трудности с разработкой новой флагманской ИИ-модели под кодовым названием Orion. Эта ИИ-модель демонстрирует значительные успехи в задачах обработки естественного языка, однако её эффективность в программировании остаётся невысокой. Эти ограничения, наряду с дефицитом данных для обучения и возросшими эксплуатационными расходами, ставят под сомнение рентабельность и привлекательность упомянутой ИИ-модели для бизнеса.

 Источник изображения: AllThatChessNow / Pixabay

Источник изображения: AllThatChessNow / Pixabay

Одной из сложностей являются затраты на эксплуатацию Orion в дата-центрах OpenAI, которые существенно выше, чем у ИИ-моделей предыдущего поколения, таких как GPT-4 и GPT-4o. Значительное увеличение расходов ставит под угрозу соотношение цена/качество и может ослабить интерес к Orion со стороны корпоративных клиентов и подписчиков, ориентированных на рентабельность ИИ-решений. Высокая стоимость эксплуатации вызывает вопросы об экономической целесообразности ИИ-модели, особенно учитывая умеренный прирост её производительности.

Ожидания от перехода с GPT-4 на Orion были высоки, однако качественный скачок оказался не столь значительным, как при переходе с GPT-3 на GPT-4, что несколько разочаровало рынок. Подобная тенденция наблюдается и у других разработчиков ИИ: компании Anthropic и Mistral также фиксируют умеренные улучшения своих ИИ-моделей. Например, результаты тестирования ИИ-модели Claude 3.5 Sonnet компании Anthropic показывают, что качественные улучшения в каждой новой базовой ИИ-модели становятся всё более постепенными. В то же время её конкуренты стараются отвлечь внимание от этого ограничения, сосредотачиваясь на разработке новых функций, таких как ИИ-агенты. Это свидетельствует о смещении акцента с повышения общей производительности ИИ на создание его уникальных способностей.

Чтобы компенсировать слабые стороны современных ИИ, компании применяют тонкую настройку результатов с помощью дополнительных фильтров. Однако такой подход остаётся лишь временным решением и не устраняет основных ограничений, связанных с архитектурой ИИ-моделей. Проблема усугубляется ограничениями в доступе к лицензированным и общедоступным данным, что вынудило OpenAI сформировать специальную команду, которой поручено найти способ решения проблемы нехватки обучающих данных. Однако неясно, удастся ли этой команде собрать достаточный объём данных, чтобы улучшить производительность ИИ-модели Orion и удовлетворить требования клиентов.

Исследование Apple показало, что ИИ-модели не думают, а лишь имитируют мышление

Исследователи Apple обнаружили, что большие языковые модели, такие как ChatGPT, не способны к логическому мышлению и их легко сбить с толку, если добавить несущественные детали к поставленной задаче, сообщает издание TechCrunch.

 Источник изображения: D koi/Unsplash

Источник изображения: D koi/Unsplash

Опубликованная статья «Понимание ограничений математического мышления в больших языковых моделях» поднимает вопрос о способности искусственного интеллекта к логическому мышлению. Исследование показало, что большие языковые модели (LLM) могут решать простые математические задачи, но добавление малозначимой информации приводит к ошибкам.

Например, модель вполне может решить такую задачу: «Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу. Сколько киви у Оливера?». Однако, если при этом в условие задачи добавить фразу «в воскресенье 5 из этих киви были немного меньше среднего размера», модель скорее всего вычтет эти 5 киви из общего числа, несмотря на то, что размер киви не влияет на их количество.

 Источник изображения: Copilot

Источник изображения: Copilot

Мехрдад Фараджтабар (Mehrdad Farajtabar), один из соавторов исследования, объясняет, что такие ошибки указывают на то, что LLM не понимают сути задачи, а просто воспроизводят шаблоны из обучающих данных. «Мы предполагаем, что это снижение [эффективности] связано с тем фактом, что современные LLM не способны к подлинному логическому рассуждению; вместо этого они пытаются воспроизвести шаги рассуждения, наблюдаемые в их обучающих данных», — говорится в статье.

Другой специалист из OpenAI возразил, что правильные результаты можно получить с помощью техники формулировки запросов (prompt engineering). Однако Фараджтабар отметил, что для сложных задач может потребоваться экспоненциально больше контекстных данных, чтобы нейтрализовать отвлекающие факторы, которые, например, ребёнок легко бы проигнорировал.

Означает ли это, что LLM не могут рассуждать? Возможно. Никто пока не даёт точного ответа, так как нет чёткого понимания происходящего. Возможно, LLM «рассуждают», но способом, который мы пока не распознаём или не можем контролировать. В любом случае эта тема открывает захватывающие перспективы для дальнейших исследований.

GPT-4 «выпивает» до полутора литров воды для генерации ста слов

Использование генеративного искусственного интеллекта сопряжено со значительными затратами, показало проведённое Калифорнийским университетом в Риверсайде исследование. Работа ИИ предполагает потребление значительных объёмов воды для охлаждения серверов, даже когда они просто генерируют текст. И это без учёта высокой нагрузки на электросеть.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Точные объёмы потребления воды в США варьируются в зависимости от штатов и близости потребителя к центру обработки данных (ЦОД) — при этом чем меньше воды потребляется, тем дешевле в этом регионе электричество, и тем выше объёмы потребления электроэнергии. Так, в Техасе для генерации электронного письма длиной в сто слов необходимы 235 мл воды, а в Вашингтоне — уже 1408 мл. На первый взгляд, это не такой уж значительный объём, но показатели растут очень быстро, когда пользователи работают с большой языковой моделью GPT-4 несколько раз в неделю или даже в день, и эти результаты действительны для генерации простого текста.

ЦОД являются крупными потребителями воды и электричества, а значит, цены на эти ресурсы растут в городах, где такие объекты строятся. К примеру, для обучения модели Meta LLaMA-3 потребовалось 22 млн литров воды — столько нужно, чтобы вырастить 2014 кг риса, и столько же, по подсчётам учёных, за год потребляют 164 американца. Недёшево обходится и стоимость потребляемой GPT-4 электроэнергии. Если один из десяти работающих американцев будет пользоваться моделью раз в неделю в течение года (52 запроса на 17 млн человек), потребуется 121 517 МВт·ч электроэнергии — этого хватит для всех домохозяйств в американской столице на 20 дней. И это нереалистично облегчённый сценарий использования GPT-4.

Washington Post, которая обратила внимание на исследование, привела цитаты представителей OpenAI, Meta, Google и Microsoft — крупнейших компаний в области ИИ. Большинство из них подтвердили приверженность сокращению потребления ресурсов, но фактических планов действий не предоставили. Представитель Microsoft Крейг Синкотта (Craig Cincotta) заявил, что компания намеревается «работать над методами охлаждения центров обработки данных, которые полностью устранят потребление воды», но не сказал, как именно. Пока практика показывает, что у прибыли от ИИ более высокий приоритет, чем у провозглашаемых компаниями экологических целей.

ИИ-поисковик SearchGPT от OpenAI начал обманывать с первого дня работы

OpenAI запустила собственную поисковую систему SearchGPT на базе искусственного интеллекта, которая выдаёт на запросы пользователей актуальные и релевантные ответы в виде цитат из проверенных источников. Первые результаты использования SearchGPT оказались не самыми впечатляющими.

 Источник изображения: Growtika/Unsplash.com

Источник изображения: Growtika/Unsplash.com

По сообщению The Verge, пользователи выявили свойственную многим ИИ-системам тенденцию галлюцинаций. SearchGPT показывает результаты, которые в основном либо неверны, либо бесполезны. Так, журналист Маттео Вонг (Matteo Wong) из популярного американского журнала The Atlantic провёл своё тестирование. Он ввёл поисковый запрос «Music festivals in Boone North Carolina in august» (Музыкальные фестивали в Буне, Северная Каролина, в августе), после чего получил список мероприятий, которые по мнению SearchGPT, должны пройти в Буне в августе. Первым в списке оказался фестиваль An Appalachian Summer Festival, который, по данным ИИ, проведёт цикл художественных мероприятий с 29 июля по 16 августа. Однако реальность оказалась несколько иной: фестиваль начался 29 июня, а последний концерт состоится 27 июля, а не 16 августа.

OpenAI запустила SearchGPT в сотрудничестве с крупнейшими новостными изданиями, такими как Associated Press, Financial Times, Business Insider и другими. Некоторые сделки обошлись компании в миллионы долларов.

Многие издатели серьёзно обеспокоены тем, как ИИ-поиск может повлиять на их бизнес. Есть опасения, что SearchGPT или Google AI Overviews будут выдавать слишком исчерпывающие ответы, устраняя необходимость переходить по ссылкам на статьи и лишая тем самым издателей трафика.

Несмотря на опасения, компании видят смысл в сотрудничестве с OpenAI в целях продажи доступа к своему контенту. Тем более, что по заявлению OpenAI, издателям будет предоставлена возможность управлять тем, как их контент будет отображаются в SearchGPT.

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Сотрудники OpenAI обвинили компанию в препятствовании огласке о рисках ИИ

Группа информаторов из компании OpenAI подала жалобу в Комиссию по ценным бумагам и биржам США (SEC), обвинив организацию в незаконном запрете сотрудникам предупреждать регуляторов о серьёзных рисках, которые может нести искусственный интеллект человечеству.

 Источник изображения: Elizabeth Frantz/For The Washington Post

Источник изображения: Elizabeth Frantz/For The Washington Post

По сообщению газеты The Washington Post со ссылкой на анонимные источники, OpenAI заставляла сотрудников подписывать чрезмерно ограничительные трудовые договоры, соглашения о выходном пособии и соглашения о неразглашении информации. Эти документы могли привести к наказанию работников, если бы они самостоятельно связались с федеральными регуляторами по поводу деятельности OpenAI.

В трудовом договоре содержались в неявном виде такие строки: «Мы не хотим, чтобы сотрудники разговаривали с федеральными регуляторами», — заявил один из информаторов на условиях анонимности из-за страха возмездия. «Я не думаю, что компании, занимающиеся ИИ, способны создавать безопасные и отвечающие общественным интересам технологии, если они ограждают себя от проверок и инакомыслия», — добавил он.

Тем не менее, Ханна Вон (Hannah Wong), пресс-секретарь OpenAI, в ответ на обвинения заявила, что политика компании в отношении информаторов защищает права сотрудников на раскрытие информации и что компания приветствует дискуссии о влиянии технологий на общество. «Мы считаем, что серьёзное обсуждение этой технологии крайне важно, и уже внесли изменения в наш процесс увольнения, исключив из него пункты о неразглашении», — сказала она.

В свою очередь адвокат информаторов Стивен Кон (Stephen Kohn) подчеркнул, что такие соглашения угрожают сотрудникам уголовным преследованием, если они сообщат о каких-либо нарушениях властям, и что это противоречит федеральным законам и нормам, защищающим информаторов. Он также отметил, что соглашение не содержало исключений для раскрытия определённой информации о нарушениях закона, что также является нарушением норм SEC.

Письмо информаторов появилось на фоне растущих опасений, что OpenAI, изначально созданная как некоммерческая организация с альтруистической миссией, теперь ставит прибыль выше безопасности при создании своих технологий. Сообщается, что последняя модель ИИ ChatGPT, была выпущена до того, как компания завершила собственную процедуру проверки безопасности, из-за желания руководства уложиться в установленный срок.

Неназванные сотрудники OpenAI призвали SEC провести тщательное расследование и принять меры против OpenAI, включая применение штрафов за каждый ненадлежащий контракт и требование уведомить всех прошлых и нынешних сотрудников об их праве конфиденциально и на анонимной основе сообщать о любых нарушениях закона SEC.

Адвокат Крис Бейкер (Chris Baker) из Сан-Франциско, который не так давно выиграл дело против Google о трудовом соглашении и компенсацию в размере 27 миллионов долларов для сотрудников компании, заявил, что борьба с «Соглашением о неразглашении» в Кремниевой долине ведётся уже давно. Однако «работодатели понимают, что иногда ущерб от утечек информации намного больше, чем от судебных исков, и готовы идти на риск», — сказал Бейкер.

ChatGPT превзошёл студентов на экзаменах, но только на первых курсах

Исследователи провели эксперимент, который показал, что ИИ способен успешно сдавать университетские экзамены, оставаясь при этом незамеченным специальными программами. Экзаменационные работы ChatGPT получили более высокие оценки, чем работы студентов, пишет издание Ars Technica.

 Источник изображения: Headway/Unsplash

Источник изображения: Headway/Unsplash

Команда учёных из Редингского университета в Англии (University of Reading) под руководством Питера Скарфа (Peter Scarfe) провела масштабный эксперимент, чтобы проверить, насколько эффективно современные системы искусственного интеллекта могут справляться с университетскими экзаменами. Исследователи создали более 30 фиктивных учётных записей студентов-психологов и использовали их для сдачи экзаменов, используя ответы, сгенерированные ChatGPT. Эксперимент охватил пять модулей бакалавриата по психологии, включая задания для всех трёх лет обучения.

Результаты оказались ошеломляющими — 94 % работ, созданных ИИ, остались незамеченными экзаменаторами. Более того, почти 84 % этих работ получили более высокие оценки, чем работы студентов-людей, в среднем на полбалла выше. «Экзаменаторы были весьма удивлены результатами», — отметил Скарф. Причём интересно, что некоторые работы ИИ были обнаружены не из-за их роботизированности, а из-за слишком высокого качества.

Эксперимент также выявил ограничения существующих систем обнаружения контента, созданного ИИ. По словам Скарфа, такие инструменты, как GPTZero от Open AI и система Turnitin, показывают хорошие результаты в лабораторных условиях, но их эффективность значительно снижается в реальной жизненной ситуации. Однако не все результаты были в пользу ИИ. На последнем курсе, где требовалось более глубокое понимание и сложные аналитические навыки, студенты-люди показали лучшие результаты, чем ChatGPT.

Скарф подчеркнул, что ввиду постоянного совершенствования ИИ и отсутствия надёжных способов обнаружения его использования, университетам придётся адаптироваться и интегрировать ИИ в образовательный процесс. «Роль современного университета заключается в подготовке студентов к профессиональной карьере, и реальность такова, что после окончания учёбы они, несомненно, будут использовать различные инструменты искусственного интеллекта», — заключил исследователь. Данный эксперимент, по сути, поднимает проблему, которая уже сегодня требует пересмотра существующих методов обучения и экзаменации.

Новая модель OpenAI CriticGPT обучена «критиковать» результаты GPT-4

Компания OpenAI представила CriticGPT — новую модель искусственного интеллекта, предназначенную для выявления ошибок в коде, сгенерированном непосредственно ChatGPT. CriticGPT будет использоваться в качестве алгоритмического помощника для тестировщиков, которые проверяют программный код, выданный ChatGPT.

 Источник изображения: Copilot

Источник изображения: Copilot

Согласно новому исследованию «LLM Critics Help Catch LLM Bugs», опубликованному OpenAI, новая модель CriticGPT создана как ИИ-ассистент для экспертов-тестировщиков, проверяющих программный код, сгенерированный ChatGPT. CriticGPT, основанный на семействе большой языковой модели (LLM) GPT-4, анализирует код и указывает на потенциальные ошибки, облегчая специалистам обнаружение недочётов, которые в противном случае могли бы остаться незамеченными из-за человеческого фактора. Исследователи обучили CriticGPT на наборе данных с образцами кода, содержащими намеренно внесённые ошибки, научив его распознавать и отмечать различные погрешности.

Учёные обнаружили, что в 63-% случаев, связанных с естественно возникающими ошибками LLM, аннотаторы предпочитали критику CriticGPT человеческой. Кроме того, команды, использующие CriticGPT, писали более полные отзывы, чем люди, не использующие этого ИИ-помощника, при этом снижался уровень конфабуляций (ложных фактов и галлюцинаций).

Разработка автоматизированного «критика» включала обучение модели на большом количестве входных данных с намеренно внесёнными ошибками. Экспертов просили модифицировать код, написанный ChatGPT, внося ошибки, а затем предоставлять результат с якобы обнаруженными багами. Этот процесс позволил модели научиться выявлять и критиковать различные типы ошибок в коде.

В экспериментах CriticGPT продемонстрировал способность улавливать как внесённые баги, так и естественно возникающие ошибки в результатах ответов ChatGPT. Исследователи также создали новый метод «Force Sampling Beam Search» (FSBS), который помогает CriticGPT писать более детальные обзоры кода, позволяя регулировать тщательность поиска проблем и одновременно контролируя частоту ложных срабатываний.

Интересно, что возможности CriticGPT выходят за рамки простой проверки кода. В экспериментах модель применили к множеству тренировочных данных ChatGPT, ранее оцененных людьми как безупречные. Удивительно, но CriticGPT выявил ошибки в 24-% случаев, которые впоследствии были подтверждены экспертами. OpenAI считает, что это демонстрирует потенциал модели не только для работы с техническими задачами, но и подчёркивает её способность улавливать тонкие ошибки, которые могут ускользнуть даже от тщательной проверки человеком.

Несмотря на многообещающие результаты, CriticGPT, как и все ИИ-модели, имеет ограничения. Модель обучалась на относительно коротких ответах ChatGPT, что может не полностью подготовить её к оценке более длинных и сложных задач, с которыми могут столкнуться будущие ИИ-системы. Команда исследователей признаёт, что модель наиболее эффективна в обнаружении ошибок, которые могут быть определены в одном конкретном, узком месте кода. Однако реальные ошибки в выводе AI могут часто быть разбросаны по нескольким частям ответа, что представляет собой вызов для будущих итераций модели.

Кроме того, хотя CriticGPT снижает уровень конфабуляций, он не устраняет их полностью, и люди-эксперты по-прежнему могут совершать ошибки на основе этих ложных данных.

Один из основателей OpenAI Илья Суцкевер создал собственный ИИ-стартап

Илья Суцкевер, один из основателей и бывший главный научный советник компании OpenAI, занимающейся разработкой искусственного интеллекта, объявил о создании своего стартапа под названием Safe Superintelligence (SSI). Главной целью новой компании является разработка безопасного и одновременно мощного искусственного интеллекта, сообщает The Verge.

 Источник изображения: Gerd Altmann/Pixabay

Источник изображения: Gerd Altmann/Pixabay

В своём заявлении Суцкевер подчеркнул, что в SSI безопасность и возможности ИИ будут развиваться в тандеме. Это позволит компании быстро продвигать свои разработки, но при этом основной упор будет сделан на обеспечение безопасности системы. В отличие от таких IT-гигантов как Google, Microsoft и собственно OpenAI, в SSI не будет коммерческого давления и необходимости выпускать продукт за продуктом. Это даст возможность сосредоточиться на поэтапном масштабировании технологий при сохранении высочайших стандартов безопасности.

Помимо самого Суцкевера, сооснователями SSI выступили Даниэль Гросс (Daniel Gross), бывший руководитель подразделения ИИ в Apple, и Даниэль Левай (Daniel Levy) из технического штата OpenAI. Интересно, что в прошлом году Суцкевер активно выступал за увольнение гендиректора OpenAI Сэма Альтмана (Sam Altman), а после своего ухода в мае намекал на запуск нового проекта. Вскоре за ним последовали и другие ведущие сотрудники OpenAI, ссылаясь на проблемы с приоритетностью вопросов этики и ответственности ИИ.

SSI пока не планирует никаких партнёрских отношений. Суцкевер чётко обозначил, что единственным продуктом его компании станет безопасный суперинтеллект, и до его создания SSI не будет заниматься ничем другим. Таким образом, стартап фактически бросает вызов таким гигантам отрасли как OpenAI, ставя во главу угла этичность и безопасность технологий. Как отмечают эксперты, успех этой инициативы может полностью изменить подходы к разработке ИИ в отрасли.

Исследователи использовали GPT-4 для автономного взлома сайтов —  вероятность успеха 53 %

Ранее в этом году исследователи установили, что нейросеть GPT-4 от компании OpenAI способна создавать эксплойты для уязвимостей, изучая информацию о них в интернете. Теперь же им удалось взломать более половины тестовых веб-сайтов с помощью автономных групп ботов на базе GPT-4, которые самостоятельно координировали свою работу и создавали новых ботов при необходимости.

 Источник изображения: newatlas.com

Источник изображения: newatlas.com

Отмечается, что боты в своей работе создавали эксплойты для уязвимостей нулевого дня, о которых не было известно ранее. В своей предыдущей работе исследователи задействовали GPT-4 для эксплуатации уже известных уязвимостей (CVE), исправления для которых ещё не были выпущены. В итоге они установили, что нейросеть смогла создать эксплойты для 87 % критических уязвимостей CVE, представляющих высокую опасность. Те же самые исследователи из Иллинойского университета в Урбане-Шампейне опубликовали результаты новой работы, в которой боты на основе нейросети пытались взломать тестовые сайты путём эксплуатации уязвимостей нулевого дня.

Вместо того, чтобы задействовать одного бота и нагружать его большим количеством сложных задач, исследователи использовали группу автономных, самораспространяющихся агентов на основе большой языковой модели (LLM). В своей работе агенты задействовали метод иерархического планирования, предполагающий выделение разных агентов под конкретные задачи. Одним из главных элементов стал «агента планирования», который контролировал весь процесс работы и запускал несколько «субагентов» для выполнения конкретных задач. Подобно взаимодействию между начальником и подчинёнными, «агент планирования» координирует свои действия с «управляющим агентом», который делегирует выполнение задач на «экспертных субагентов», тем самым равномерно распределяя нагрузку.

Исследователи сравнили эффективность такого подхода при взаимодействии группы ботов с 15 реальными уязвимостями. Оказалось, что метод иерархического планирования на 550 % более эффективен по сравнению с тем, как с аналогичными уязвимостями работает один бот на базе нейросети. Группа ботов сумела задействовать 8 из 15 уязвимостей, тогда как одиночный бот создал эксплойт только для трёх уязвимостей.

OpenAI объявила о старте обучения ИИ-модели следующего уровня — она заменит GPT-4

OpenAI объявила о начале обучение новой флагманской ИИ-модели, которая придёт на смену GPT-4, пишет The New York Times. Компания сообщила в своём блоге, что новая модель получит «следующий уровень возможностей» на пути к созданию сильного искусственного интеллекта (AGI), способного обладать возможностями человеческого мозга. Новая модель расширит возможности чат-ботов, цифровых помощников, поисковых систем, генераторов изображений и других приложений на базе ИИ.

 Источник изображения: Growtika/unsplash.com

Источник изображения: Growtika/unsplash.com

Вышедшая в марте 2023 года ИИ-модель GPT-4 позволяет чат-ботам и другим приложениям отвечать на вопросы, анализировать данные, а также способна работать не только с текстом, но и с изображениями. В этом месяце OpenAI представила её обновлённую версию GPT-4o, которая гораздо умнее предыдущих и к тому же является мультимодальной. ИИ-модели, подобные GPT-4o, обучаются навыкам, анализируя огромные объёмы цифровых данных, включая звуки, фотографии, видео, статьи в «Википедии», книги и новости. В декабре прошлого года газета The New York Times подала в суд на OpenAI и Microsoft, обвинив их в нарушении авторских прав на новостной контент, выразившемся в несанкционированном использовании её материалов для обучения ИИ-моделей.

Обучение ИИ-модели может занять месяцы или даже годы. После завершения процесса обучения компании обычно тратят ещё несколько месяцев на тестирование ИИ-модели и её настройку для публичного использования.

OpenAI также объявила о создании комитета по контролю безопасности ИИ для изучения рисков, связанных с созданием ИИ-технологий. «Хотя мы гордимся тем, что создаём и выпускаем модели, которые являются ведущими в отрасли как по возможностям, так и по безопасности, мы приветствуем активную дискуссию в этот важный момент», — заявила компания. По словам OpenAI, пока она будет обучать свою новую модель, комитет будет работать над совершенствованием политики и вопросов защиты ИИ-технологий.

GitHub запустил мощного ИИ-помощника для разработчиков Copilot Workspace

Компания GitHub расширяет возможности интеллектуального помощника для программистов Copilot, представив концепцию Copilot Workspace. Теперь ИИ может выступать как полноценный партнер на всех этапах разработки.

 Источник изображения: GitHub

Источник изображения: GitHub

В преддверии ежегодной конференции GitHub Universe в Сан-Франциско, GitHub анонсировал Copilot Workspace, среду разработки, которая использует то, что GitHub называет «агентами на базе Copilot», сообщает издание Techcrunch. Это среда разработки программного обеспечения, которая использует искусственный интеллект для помощи разработчикам на всех этапах — от генерации идей до тестирования и запуска кода.

Copilot Workspace основан на помощнике по программированию GitHub с открытым исходным кодом — Copilot. Но если Copilot фокусируется только на генерации кода по запросу разработчика, то Workspace расширяет функциональность, помогая на более высоком уровне. То есть, Copilot в связке с помощником, основанном на искусственном интеллекте, превращается в более универсальный инструмент.

Как объясняет Джонатан Картер (Jonathan Carter), руководитель GitHub Next, исследования показали, что главным препятствием для разработчиков часто является начало работы и определение подхода к решению задачи. Copilot Workspace призван устранить эту трудный момент и сотрудничать с разработчиками на протяжении всего процесса внесения изменений в код. Он выступает как интеллектуальный помощник, который встречается с разработчиком в самом начале задачи и помогает уменьшить «энергию активации», необходимую для старта, а затем сотрудничает при внесении изменений в код. Помощник может предлагать идеи и подходы на естественном языке, помогать выбирать файлы и методы для реализации.

Уже сейчас Copilot активно используется разработчиками — более 1,8 млн пользователей и 50 000 компаний. Но Картер видит потенциал для ещё большего роста благодаря расширению функциональности в Workspace и смежных продуктах, таких как Copilot Chat для диалога с ИИ о коде.

По его мнению, искусственный интеллект может кардинально изменить рабочий процесс, став по сути партнёром, а Copilot Workspace просто является ещё одним шагом в этом направлении, дополняющим существующие инструменты разработки. В перспективе полноценная ИИ-среда способна решать целый класс задач, с которыми сейчас разработчики справляются не так эффективно. Учитывая, что Workspace основан на одной из самых мощных на сегодня нейросетей GPT-4 Turbo, можно ожидать серьёзный потенциал новой среды разработки.

Тем не менее, в настоящий момент GitHub Copilot приносит компании чистый убыток около 20 долларов в месяц на каждого пользователя. При этом некоторые клиенты вообще обходятся в 80 долларов убытка. Это следует из внутреннего отчёта GitHub, о котором сообщает The Wall Street Journal. Казалось бы, подобная экономика должна заставить компанию свернуть проект. Однако GitHub не собирается этого делать и анонсировал новый продукт Copilot Workspace.

Конечно, есть риски. Исследования показали, что инструменты вроде Copilot могут генерировать небезопасный и неоптимальный код. Поэтому ключевой опцией в Workspace заявлен человеческий контроль, то есть разработчики должны самостоятельно направлять ИИ и проверять сгенерированные решения.

GitHub пока не определился с бизнес-моделью Workspace и планирует собирать отзывы по предварительной версии. Однако очевидно, что компания нацелена превратить технологию в высокодоходный массовый продукт, несмотря на текущие финансовые потери от Copilot.

У GPT-4 обнаружили способность эксплуатировать уязвимости по их описаниям

Современные технологии искусственного интеллекта могут помочь хакерам автоматизировать эксплуатацию общедоступных уязвимостей за считанные минуты. Это значит, что в ближайшем будущем оперативное обновление ПО станет как минимум насущной необходимостью.

 Источник изображения: Tung Nguyen / pixabay.com

Источник изображения: Tung Nguyen / pixabay.com

Системы ИИ на базе нейросети OpenAI GPT-4 способны создавать эксплойты для большинства уязвимостей на основе простого изучения информации о них в интернете, гласят результаты нового исследования (PDF) учёных Иллинойского университета в Урбане-Шампейне (США). До настоящего момента злоумышленники применяли большие языковые модели для написания фишинговых писем и вредоносных программ с базовыми возможностями. Теперь же, располагая доступом к GPT-4 и открытым фреймворкам для упаковки программных решений, они могут автоматизировать написание эксплойтов к уязвимостям, как только информация об этих уязвимостях попадает в открытый доступ.

Для проверки гипотезы учёные подготовили набор инструментов из следующих компонентов: базовой нейросети, средства создания запросов к ней, фреймворка (в данном случае это был инструмент ReAct фреймворка LangChain), а также терминала и интерпретатора кода. Укомплектованный таким образом агент был протестирован на 15 известных уязвимостях ПО с открытым исходным кодом. Среди них были ошибки, застрагивающие веб-сайты, контейнеры и пакеты Python. Восемь из них имели «высокий» или «критический» рейтинг CVE. Одиннадцать были раскрыты уже после момента обучения GPT-4, то есть ИИ познакомился с ними впервые. Системе было поручено поочерёдно разработать эксплойты для каждой уязвимости, изучив их описания. Результаты эксперимента оказались неутешительными.

 Источник изображения: D koi / unsplash.com

Источник изображения: D koi / unsplash.com

Всего были оценены десять ИИ-моделей, включая OpenAI GPT-3.5, Meta Llama 2, и девять из них не смогли взломать ни один из уязвимых продуктов. А вот нейросеть GPT-4 предложила 13 эффективных эксплойтов или 87 % от общего числа известных уязвимостей. Две неудачи, которые потерпела GPT-4, имеют простые объяснения. Уязвимость CVE-2024-25640 (рейтинг 4,6 из 10) относится к платформе реагирования на инциденты Iris, и модель просто не смогла разобраться с навигацией в приложении. Неудача с эксплуатацией уязвимости CVE-2023-51653 («критический» рейтинг 9,8 из 10) в инструменте мониторинга Hertzbeat возникла из-за того, что описание этой уязвимости было приведено на китайском языке.

В свете результатов своего исследования учёные сделали вывод, что вопросы кибербезопасности сегодня становятся актуальными как никогда: администраторам в компаниях скоро нельзя будет ожидать выхода исправляющих уязвимости патчей, а использовать для защиты систем те же технологии ИИ, что и вероятный противник. Впрочем, в этом ИИ пока недостаточно хорош, выяснили эксперты компании Endor Labs — они провели эксперимент, поручив нескольким моделям ИИ изучить ряд проектов с открытым исходным кодом на предмет того, являются ли соответствующие продукты вредоносными или безопасными. GPT-4 снова оказалась лучше прочих: она преимущественно верно объяснила принципы работы кода, но, как и её «коллеги», дала несколько ложноположительных и ложноотрицательных срабатываний в оценке его безопасности. В частности, она назвала добросовестно оптимизированный код намеренно обфусцированным, то есть запутанным.


window-new
Soft
Hard
Тренды 🔥
Intel представила технологию XeSS2 с генерацией кадров — FPS вырастет до четырёх раз 52 мин.
Глава FromSoftware подтвердил, что студия делает не Elden Ring 2, а «несколько проектов широкого круга жанров» 60 мин.
К Microsoft подали иск на £1 млрд за то, что Windows Server в облаках конкурентов стоит дороже 3 ч.
Владелец «Спаса» обвинил Google в сокрытии от акционеров штрафа в 8 ундециллионов рублей 4 ч.
«Добро пожаловать»: постоянную цену «Смуты» в VK Play снизили, «не мелочась, на тысячу рублей» 4 ч.
Apple грозит групповой иск на $1 млрд из-за 30-процентной комиссии в приложениях 5 ч.
Глава разработки новой Mass Effect назвал дополнение к Mass Effect 2, в которое «обязательно стоит сыграть» перед следующей частью 5 ч.
Интерпол арестовал более 5500 подозреваемых в киберпреступлениях и онлайн-мошенничестве 6 ч.
Blizzard скоро снимет Warcraft и Warcraft 2 с продажи в GOG, но магазин CD Projekt их не бросит 7 ч.
«Самая ожидаемая игра 2025 года»: первые 40 минут геймплея Kingdom Come: Deliverance 2 впечатлили фанатов 8 ч.
Corsair выпустила память Vengeance RGB DDR5 CUDIMM с тактовым генератором и разгоном до 9200 МТ/с 14 мин.
AMD сообщила, когда представит видеокарты Radeon 8000 — «следующее поколение инноваций в играх» 23 мин.
Довести до беспамятства: США запретили китайским структурам покупать HBM для ИИ-ускорителей 55 мин.
Сегодня вечером на Россию упадёт астероид, но маленький и безобидный 2 ч.
Delta Computers представила первый в России модульный восьмипроцессорный сервер Delta Spider 2 ч.
Китай объявил чипы из США «небезопасными» 2 ч.
Бывшему главе Intel назначили «золотой парашют» в $7-10 миллионов 2 ч.
Интернет-кабель между Швецией и Финляндией был повреждён сразу в двух местах 3 ч.
SpaceX готовится стать самым дорогим частным стартапом в мире — цена компании может взлететь до $350 млрд 3 ч.
В США научились печатать электроды для интерфейсов мозг-компьютер прямо на голове 4 ч.