Сегодня 28 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → языковая модель
Быстрый переход

OpenAI представила ИИ-модель GPT-4o — она гораздо умнее старых версий и будет доступна бесплатно

OpenAI представила мощную мультимодальную модель генеративного искусственного интеллекта (ИИ) GPT-4o, которая будет внедрена в её решения для разработчиков и потребителей в течение следующих нескольких недель. Буква «о» в названии GPT-4o означает omni (всесторонний), что указывает на мультимодальность GPT-4o.

 Источник изображений: OpenAI

Источник изображений: OpenAI

Технический директор OpenAI Мира Мурати (Mira Murati) сообщила в ходе презентации продукта в офисе OpenAI в Сан-Франциско (США), что GPT-4o имеет интеллект «уровня GPT-4», но более высокие возможности в работе с текстом и изображениями, а также с аудио. «GPT-4o воспринимает голос, текст и визуальные образы, — сообщила Мурати. — И это невероятно важно, поскольку мы думаем о будущем взаимодействии между нами и машинами».

Её предшественница — GPT-4 Turbo — обучалась на сочетании изображений и текста. Она способна анализировать изображения и текст для выполнения таких задач, как извлечение текста из изображений и даже описание содержимого этих изображений. В свою очередь, в GPT-4o к этим возможностям добавили речь. GPT-4o получил контекстное окно в 128 тысяч токенов.

Сообщается, что GPT-4o позволит значительно улучшить работу ИИ-чат-бота ChatGPT. Последний уже давно поддерживает голосовой режим, в котором ответы чат-бота расшифровываются с использованием модели преобразования текста в речь, но GPT-4o усилит эту функцию, позволяя пользователям взаимодействовать с чат-ботом больше как с помощником. Например, ему можно будет задать вопрос и прервать его, когда он отвечает. По словам OpenAI, модель GPT-4o обеспечивает реагирование «в реальном времени» и может даже улавливать эмоции в голосе пользователя, генерируя в ответ голос «в различных эмоциональных стилях» в соответствии с текущей ситуацией.

GPT-4o также улучшит визуальные возможности ChatGPT. Исходя из предложенной фотографии или экрана рабочего стола, ChatGPT теперь сможет быстро отвечать на сопутствующие вопросы: от «Что происходит в этом программном коде» до «Какую рубашку какого бренда носит этот человек?».

В дальнейшем возможности модели будут расширяться. Если сейчас GPT-4o позволяет, например, переводить сфотографированное меню на другой язык, то в будущем с её помощью ChatGPT сможет «смотреть» спортивную игру в прямом эфире и объяснять вам правила, говорит Мурати.

Начиная с сегодняшнего дня GPT-4o доступна как платным, так и бесплатным пользователям ChatGPT, но для подписчиков платных тарифных планов ChatGPT Plus и Team ограничение на количество сообщений будет «в 5 раз выше». При превышении лимита ChatGPT автоматически переключится на GPT-3.5 у бесплатных пользователей и на GPT-4 у платных.

Бесплатным пользователям ChatGPT при взаимодействии с GPT-4o станут доступны некоторые функции, которые прежде были только у платных подписчиков. В частности, обновлённый чат-бот сможет искать информацию не только в своей ИИ-модели, но также в интернете; анализировать данные и создавать графики; работать с пользовательскими изображениями и файлами; а также лучше помнить прежние взаимодействия с пользователем. Также бесплатные пользователи получат доступ к GPT Store.

OpenAI сообщила, что GPT-4o поддерживает больше языков, с улучшенной производительностью на 50 различных языках. В API OpenAI GPT-4o в два раза быстрее, чем GPT-4 (в частности, GPT-4 Turbo), вдвое дешевле и имеет более высокие лимиты по скорости.

В настоящее время поддержка голосового общения не включена в API GPT-4o для всех клиентов. OpenAI пояснила, что из-за риска неправильного использования планирует впервые запустить в ближайшие недели поддержку новых аудиовозможностей GPT-4o для «небольшой группы доверенных партнёров».

Microsoft запустила разработку собственной большой языковой модели ИИ — это добавит независимости от OpenAI

Вложившая в капитал стартапа OpenAI более $10 млрд американская корпорация Microsoft, по данным The Information, занялась разработкой собственной большой языковой модели ИИ, которая добавит компании независимости от той же OpenAI и усилит конкуренцию с Google. Модель получила обозначение MAI-1 и создаётся с использованием собственных ресурсов.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Руководит этой инициативой в Microsoft, как отмечает первоисточник, Мустафа Сулейман (Mustafa Suleyman), который занимался разработкой систем искусственного интеллекта в Google, а также возглавлял стартап Inflection, прежде чем его не поглотила Microsoft, заплатив $650 млн в марте этого года. Впрочем, источники подчёркивают, что Microsoft самостоятельно разрабатывает MAI-1, не опираясь на существовавшие в Inflection программные решения. Впрочем, использование каких-то технологий этого стартапа в том или ином виде не исключается.

MAI-1 станет значительно более крупной языковой моделью по сравнению с теми разработками с открытым исходным кодом, которые до сих пор использовала Microsoft. Она потребует не только большего количества входных данных, но и более значимых вычислительных ресурсов. MAI-1 будет использовать около 500 млрд параметров. Если учесть, что передовая ChatGPT-4 стартапа OpenAI использует 1 трлн параметров, для собственной модели Microsoft это будет существенный прорыв в сложности модели. Назначение MAI-1 пока не определено и будет выбрано в зависимости от промежуточных успехов в её разработке. Microsoft может рассказать подробности об этой инициативе на конференции Build ближе к концу текущего месяца.

Softbank закупит ускорители Nvidia на $1 млрд и займётся японским ИИ

Японский конгломерат SoftBank инвестирует к 2025 году 150 млрд иен ($960 млн) в расширение вычислительных мощностей, что позволит разрабатывать высокопроизводительные ИИ-модели, пишет CNBC. По данным ресурса Nikkei Asia, в прошлом году SoftBank израсходовал 20 млрд иен ($128 млн) на укрепление вычислительной инфраструктуры.

Источник изображения: SoftBank

Благодаря столь крупным инвестициям SoftBank будет обладать самыми высокопроизводительными вычислительными мощностями в стране, отметил Nikkei Asia. Как утверждают источники ресурса, для их работы будут использоваться ускорители Nvidia.

В 2024 финансовом году SoftBank планирует завершить создание своей первой большой языковой модели LLM с 390 млрд параметров. Затем, по данным Nikkei Asia, компания начнёт в 2025 году разработку LLM с 1 трлн параметров и поддержкой японского языка.

Как отметил ранее Nikkei Asia, в Японии наблюдается нехватка частных компаний с высокопроизводительными суперкомпьютерами, необходимыми для создания LLM, несмотря на возросший интерес к ИИ. Благодаря инвестициям SoftBank превратится в сильного игрока в сфере генеративного ИИ в то время, когда международные компании пытаются выйти на рынок Японии. На прошлой неделе OpenAI открыла свой первый офис в Токио. В свою очередь, Microsoft объявила о планах инвестировать $2,9 млрд в течение двух лет в расширение инфраструктуры облачных вычислений и ИИ в Японии.

Apple делает ставку на локальные вычисления в работе с большими языковыми моделями

В минувшие выходные известный колумнист Bloomberg Марк Гурман (Mark Gurman) не только предавался рассуждениям о том, почему Apple очень нужен новый смартфон за $250, но и поведал о подходе компании к интеграции в свои устройства функций искусственного интеллекта. По его словам, компания пытается значительную часть вычислений поручить локальным компонентам пользовательских устройств.

 Источник изображения: Unsplash, Gilles Lambert

Источник изображения: Unsplash, Gilles Lambert

Другими словами, если речь идёт о смартфонах марки, то некий нейронный процессор внутри iPhone должен будет осуществлять локальные вычисления при обработке запросов, в меньшей степени полагаясь на обмен информацией с облачной инфраструктурой. Такой подход позволит ускорить отклик системы на поступающие запросы, а для пользователя это станет видимым преимуществом. Кроме того, локальная обработка чувствительной информации повысит степень информационной защищённости.

При этом, как утверждает представитель Bloomberg, компания Apple не отметает окончательно идею использования сторонних больших языковых моделей, которые предлагаются Google или Microsoft. Собственную языковую модель Apple тоже разрабатывает, но ориентирует её именно на использование локальных вычислительных ресурсов. Подробности об этой концепции Apple могут быть оглашены уже в середине июня на конференции для разработчиков WWDC 2024, как поясняет источник.

Сotype от МТС заняла второе место в рейтинге больших языковых моделей бенчмарка MERA

Генеративная модель Сotype (ex.MTS AI Chat) заняла второе место в рейтинге больших языковых моделей в лидерборде бенчмарка MERA (Multimodal Evaluation for Russian-language Architectures).

Вошедшие в рейтинг 30 языковых моделей оценивались по 17 параметрам. Показатель BPS у модели Сotype (ex.MTS AI Chat) составил с 0.23, PARus — достиг 0.884, а по задачам из «Что? Где? Когда?» (параметр CheGeKa) она продемонстрировала результат 0.05 / 0.022. Это означает, что Сotype (ex.MTS AI Chat) обладает наиболее полными знаниями о мире, развитыми логическими способностями и навыками причинно-следственного рассуждения и здравого смысла.

Сotype (ex.MTS AI Chat) предназначена для работы с корпоративной информацией для решения бизнес-задач. Следует отметить, что на её создание ушло менее года. Тем не менее она смогла опередить более «взрослых» участников, например GigaChat Pro.

Для обучения нейросети xAI Grok 3 потребуется 100 000 ускорителей Nvidia H100, заявил Илон Маск

Компания Tesla разрабатывает собственные нейронные процессоры для обучения автопилота, но возглавляющий её Илон Маск (Elon Musk) для прочих своих инициатив готов активно использовать ускорители вычислений Nvidia. Например, для обучения большой языковой модели Grok 3, по его словам, стартапу xAI потребуется до 100 000 ускорителей Nvidia H100.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Эти заявления, как поясняет Tweaktown, миллиардер сделал на этой неделе в ходе выступления в сервисе аудиочатов Spaces. Он признался, что для обучения языковой модели Grok 2 потребовались ресурсы 20 000 ускорителей Nvidia H100, добавив, что для языковой модели следующего поколения их потребуется уже 100 000 штук. В январе этого года Маск сравнил уровень быстродействия фирменного суперкомпьютера Dojo стоимостью $500 млн с системой из 10 000 ускорителей Nvidia H100. В текущем году только компания Tesla должна потратить на закупку таких ускорителей гораздо больше денег, а ведь теперь под опекой Маска находится и стартап xAI, основанный в июле прошлого года и остро нуждающийся в масштабировании вычислительных ресурсов. По оценкам главы Tesla, компания должна тратить несколько миллиардов в год на закупку ускорителей, чтобы оставаться на плаву с точки зрения конкуренции.

Как Илон Маск уточнил на страницах принадлежащей ему социальной сети X, именно компания Tesla является вторым по величине после Meta Platforms обладателем ускорителей вычислений Nvidia H100, их в его распоряжении находится от 30 000 до 350 000 штук, по оценкам руководителя Tesla. Социальная сеть X и стартап xAI, по словам Маска, сообща располагают третьим по величине объёмом ускорителей Nvidia H100 в мире.

По информации Reuters, Маск также предрёк появление превосходящего «умнейших людей» по своим когнитивным способностям так называемого «сильного» искусственного интеллекта (AGI) либо в следующем году, либо ещё через год. Для обучения модели Grok 2, которое должно завершиться к маю этого года, как признался Маск, компании xAI сейчас не хватает именно ускорителей вычислений Nvidia. В ближайшие год или два, по мнению Маска, главным сдерживающим развитие систем ИИ фактором станет нехватка энергоснабжающих ресурсов.

Языковые модели ИИ сразились друг с другом в импровизированном турнире по Street Fighter III

На хакатоне Mistral AI, прошедшем в Сан-Франциско на минувшей неделе, разработчики Стэн Жирар (Stan Girard) и Quivr Brain представили тест LLM Colosseum с открытым исходным кодом, основанный на классическом аркадном файтинге Street Fighter III. Тест предназначен для определения самой эффективной языковой модели ИИ в не совсем традиционной, но зрелищной манере.

 Источник изображений: YouTube / Matthew Berman

Источник изображений: YouTube / Matthew Berman

ИИ-энтузиаст Мэтью Берман (Matthew Berman) решил провести с помощь теста LLM Colosseum своеобразный турнир между языковыми моделями, о чём он поделился в своём видео. В нём же Берман показал один из поединков между ИИ. Кроме того, он рассказал, как можно установить этот проект с исходным кодом на домашний ПК или Mac и оценить его самостоятельно.

Это не совсем типичный тест LLM. Как правило, маленькие языковые модели имеют преимущество в задержке и скорости, что приводит к победе в большинстве виртуальных боёв. В файтингах очень важна скорость реакции игроков на ответные действия своих оппонентов. То же правило работает и в случае противостояния ИИ против ИИ.

 Источник изображений: OpenGenerativeAI team

Источник изображений: OpenGenerativeAI team

Языковая модель в реальном времени принимает решение, как ей сражаться. Поскольку LLM представляют собой текстовые модели, их обучили в игре Street Fighter III с помощью текстовых подсказок. ИИ сначала дали проанализировать контекст игры в целом, а затем подсказали, как реагировать на то или иное игровое действие в той или иной ситуации, не забыв про вариативность ходов. ИИ обучили приближаться или отдаляться от противника, а также использовать различные приёмы вроде огненного шара, мегаудара, урагана и мегаогненного шара.

 Источник изображения: OpenGenerativeAI team

Источник изображения: OpenGenerativeAI team

Продемонстрированный на видео бой между ИИ выглядит динамично. Оппоненты действуют стратегически, блокируют удары противника и используют специальные приёмы. Однако к настоящему моменту проект LLM Colosseum позволяет использовать только одного игрового персонажа, Кена.

Согласно тестам Жирара, лучшей языковой моделью в турнире Street Fighter III оказалась GPT 3.5 Turbo от OpenAI. Среди восьми участников она достигла самого высокого рейтинга ELO — 1776.

В отдельной серии тестов, организованных Банджо Обайоми (Banjo Obayomi), специалистом по продвижению продуктов AWS компании Amazon, спарринги проводились между четырнадцатью языковыми моделями в рамках 314 индивидуальных матчей. Здесь в конечном итоге победила языковая модель claude_3_haiku от Anthropic с рейтингом ELO 1613.

Все ведущие большие языковые модели ИИ нарушают авторские права, а GPT-4 — больше всех

Компания по изучению ИИ Patronus AI, основанная бывшими сотрудниками Meta, исследовала, как часто ведущие большие языковые модели (LLM) создают контент, нарушающий авторские права. Компания протестировала GPT-4 от OpenAI, Claude 2 от Anthropic, Llama 2 от Meta и Mixtral от Mistral AI, сравнивая ответы моделей с текстами из популярных книг. «Лидером» стала модель GPT-4, которая в среднем на 44 % запросов выдавала текст, защищённый авторским правом.

 Источник изображений: Pixabay

Источник изображений: Pixabay

Одновременно с выпуском своего нового инструмента CopyrightCatcher компания Patronus AI опубликовала результаты теста, призванного продемонстрировать, как часто четыре ведущие модели ИИ отвечают на запросы пользователей, используя текст, защищённый авторским правом.

Согласно исследованию, опубликованному Patronus AI, ни одна из популярных книг не застрахована от нарушения авторских прав со стороны ведущих моделей ИИ. «Мы обнаружили контент, защищённый авторским правом, во всех моделях, которые оценивали, как с открытым, так и закрытым исходным кодом», — сообщила Ребекка Цянь (Rebecca Qian), соучредитель и технический директор Patronus AI. Она отметила, что GPT-4 от OpenAI, возможно самая мощная и популярная модель, создаёт контент, защищённый авторским правом, в ответ на 44 % запросов.

Patronus тестировала модели ИИ с использованием книг, защищённых авторскими правами в США, выбирая популярные названия из каталога Goodreads. Исследователи разработали 100 различных подсказок, которые можно счесть провокационными. В частности, они спрашивали модели о содержании первого абзаца книги и просили продолжить текст после цитаты из романа. Также модели должны были дополнять текст книг по их названию.

Модель GPT-4 показала худшие результаты с точки зрения воспроизведения контента, защищённого авторским правом, и оказалась «менее осторожной», чем другие. На просьбу продолжить текст она в 60 % случаев выдавала целиком отрывки из книги, а первый абзац книги выводила в ответ на каждый четвёртый запрос.

Claude 2 от Anthropic оказалось труднее обмануть — когда её просили продолжить текст, она выдавала контент, защищённый авторским правом, лишь в 16 % случаев, и ни разу не вернула в качестве ответа отрывок из начала книги. При этом Claude 2 сообщала исследователям, что является ИИ-помощником, не имеющим доступа к книгам, защищённым авторским правом, но в некоторых случаях всё же предоставила начальные строки романа или краткое изложение начала книги.

Модель Mixtral от Mistral продолжала первый абзац книги в 38 % случаев, но только в 6 % случаев она продолжила фразу запроса отрывком из книги. Llama 2 от Meta ответила контентом, защищённым авторским правом, на 10 % запросов первого абзаца и на 10 % запросов на завершение фразы.

 Источник изображения: Patronus AI

Источник изображения: Patronus AI

«В целом, тот факт, что все языковые модели дословно создают контент, защищённый авторским правом, был действительно удивительным, — заявил Ананд Каннаппан (Anand Kannappan), соучредитель и генеральный директор Patronus AI, раньше работавший в Meta Reality Labs. — Я думаю, когда мы впервые начали собирать это вместе, мы не осознавали, что будет относительно просто создать такой дословный контент».

Результаты исследования наиболее актуальны на фоне обострения отношений между создателями моделей ИИ и издателями, авторами и художниками из-за использования материалов, защищённых авторским правом, для обучения LLM. Достаточно вспомнить громкий судебный процесс между The New York Times и OpenAI, который некоторые аналитики считают переломным моментом для отрасли. Многомиллиардный иск новостного агентства, поданный в декабре, требует привлечь Microsoft и OpenAI к ответственности за систематическое нарушение авторских прав издания при обучении моделей ИИ.

Позиция OpenAI заключается в том, что «поскольку авторское право сегодня распространяется практически на все виды человеческого выражения, включая сообщения в блогах, фотографии, сообщения на форумах, фрагменты программного кода и правительственные документы, было бы невозможно обучать сегодняшние ведущие модели ИИ без использования материалов, защищённых авторским правом».

По мнению OpenAI, ограничение обучающих данных созданными более века назад книгами и рисунками, являющимися общественным достоянием, может стать интересным экспериментом, но не обеспечит системы ИИ, отвечающие потребностям настоящего и будущего.

Microsoft обвинила хакеров из Китая, России и Ирана в использовании её ИИ

Microsoft опубликовала отчёт, в котором обвинила хакерские группы, якобы связанные с российской военной разведкой, Ираном, Китаем и Северной Кореей в использовании её больших языковых моделей (LLM) для совершенствования атак. Компания объявила об этом, когда ввела полный запрет на использование поддерживаемыми государством хакерскими группами её ИИ-технологий.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Независимо от того, имеет ли место какое-либо нарушение закона или какие-либо условия обслуживания, мы просто не хотим, чтобы те субъекты, которых мы определили, которых мы отслеживаем и знаем как субъектов угроз различного рода, чтобы они имели доступ к этой технологии», — сообщил агентству Reuters вице-президент Microsoft по безопасности клиентов Том Берт (Tom Burt) перед публикацией отчёта.

«Это один из первых, если не первый случай, когда компания, занимающаяся ИИ, публично обсуждает, как субъекты угроз кибербезопасности используют технологии ИИ», — отметил Боб Ротстед (Bob Rotsted), руководитель отдела анализа угроз кибербезопасности в OpenAI.

OpenAI и Microsoft сообщили, что использование хакерами их ИИ-инструментов находится на ранней стадии и никаких прорывов не наблюдается. «Они просто используют эту технологию, как и любой другой пользователь», — сказал Берт.

В отчёте Microsoft отмечено, что цели использования LLM разными хакерскими группами всё же отличаются. Например, хакерские группы, которым приписывают связь с ГРУ, использовали LLM для исследования «различных спутниковых и радиолокационных технологий, которые могут иметь отношение к обычным военным операциям на Украине». Северокорейские хакеры использовали LLM для создания контента, «который, вероятно, будет применяться в целевых фишинговых кампаниях» против региональных экспертов. Иранским хакерам эти модели потребовались для написания более убедительных электронных писем потенциальным жертвам, а китайские хакеры экспериментировали с LLM, например, чтобы задавать вопросы о конкурирующих спецслужбах, проблемах кибербезопасности и «известных личностях».

ASML показала первый рекламный фильм, который никто не снимал — почти всё в нём сделал ИИ

Нидерландская компания ASML — безусловный лидер рынка литографических сканеров для производства полупроводников — представила «первый рекламный фильм», созданный искусственным интеллектом. Видео создано с использованием моделей Midjourney и алгоритмов RunwayAI с минимальным вмешательством людей в процесс монтажа и редактирования, и оно поражает воображение. Это будущее, которое наступило, и которое скоро многое изменит в жизни каждого человека.

 Кадр из созданного ИИ фильма ASML «Стоя на плечах гигантов». Источник изображения: ASML

Кадр из созданного ИИ фильма ASML «Стоя на плечах гигантов». Источник изображения: ASML

Ролик ASML под названием «Стоя на плечах гигантов» отсылает к известному высказыванию Исаака Ньютона: «Если я видел дальше других, то потому, что стоял на плечах гигантов». В представлении ASML, сотрудники которой составляли текстовые подсказки, микропроцессорная индустрия и все современные достижения в области вычислений также стоят на плечах гигантов, включая самого сэра Ньютона.

Кстати, с Ньютоном и яблоком в его руке пришлось особенно помучиться, признаются в ASML. Это оказалась самая сложная сцена. Команде операторов потребовалось более 20 попыток, чтобы правильно её воспроизвести. Для этого было сгенерировано более 9800 кадров, после чего можно было удовлетвориться результатом.

В целом фильм был создан с использованием 1963 подсказок, которые дали 7852 изображения. Цифровые картинки были отредактированы, а затем отрисованы на более чем 900 компьютерах. Наконец, полученные рендеры были обработаны алгоритмами RunwayAI, и общий объём кадров составил 25 957 штук по 1000 Мбайт на каждый из них.

ByteDance заподозрили в использовании технологий OpenAI для создания конкурирующей ИИ-модели

ByteDance (родительская компания TikTok) тайно использует технологию OpenAI для разработки собственной конкурирующей большой языковой модели (LLM), сообщил ресурс The Verge, подчеркнувший, что это является прямым нарушением условий использования технологий ИИ OpenAI, согласно которым они не могут применяться для разработки каких-либо моделей ИИ, которые конкурируют с продуктами и сервисами» компании.

 Источник изображений: ByteDance

Источник изображений: ByteDance

Согласно внутренним документам ByteDance, с которыми ознакомились в The Verge, OpenAI API использовался в проекте под кодовым названием Project Seed почти на каждом этапе разработки LLM, в том числе для обучения и оценки модели.

После публикации The Verge китайская компания сочла необходимым выступить с разъяснением по этому поводу. ByteDance признала в заявлении, направленном ресурсу South China Morning Post, что, когда в начале этого года занялась изучением LLM, её небольшая группа разработчиков действительно использовала API-сервис OpenAI в экспериментальной модели, которая не предназначалась для публичного запуска. Работа над проектом была прекращена в апреле после введения регламентации использования OpenAI, условиями которой запрещается применение продуктов GPT для разработки моделей, конкурирующих с продуктами OpenAI.

ByteDance сообщила, что по-прежнему использует API OpenAI вместе с некоторыми другими сторонними моделями «в очень ограниченной степени в процессе оценки/тестирования, например, при сравнительном анализе результатов». «ByteDance имеет лицензию на использование API OpenAI и уделяет большое внимание соблюдению условий использования OpenAI», — указано в заявлении компании.

Тем не менее OpenAI приостановила доступ ByteDance к своему сервису. «Хотя использование ByteDance нашего API было минимальным, мы заблокировали её учётную запись на время расследования»,— указано в заявлении OpenAI, направленном ресурсу Verge. OpenAI предупредила, что, если выяснится, что использование API OpenAI китайской компанией не соответствует её условиям, ей будет предложено внести необходимые изменения или закрыть свою учётную запись.

В настоящее время в Китае наблюдается бум в разработке LLM. К июлю этого года местными фирмами и исследовательскими институтами было выпущено не менее 130 LLM. В связи с этим основатель и гендиректор Baidu Робин Ли (Robin Li) заявил, что в стране слишком много базовых моделей искусственного интеллекта, что является «громадным растранжириванием ресурсов».

Amazon представила мощные ускорители Trainium2 для обучения больших ИИ-моделей, а также Arm-процессоры Graviton4

Рост спроса на генеративный искусственный интеллект, который зачастую обучается и запускается на специализированных ускорителях на графических процессорах (GPU), во всём мире наблюдается дефицит таких ускорителей. На этом фоне облачные гиганты создают свои чипы. И Amazon сегодня на ежегодной конференции re:Invent продемонстрировала новейшие собственные ускорители для обучения нейросетей — Trainium2. А ещё были представлены серверные процессоры Graviton4.

 Источник изображения: Unsplash

Источник изображения: Unsplash

Первый из двух представленных чипов, AWS Trainium2, способен обеспечить в четыре раза более высокую производительность и в два раза более высокую энергоэффективность по сравнению с первым поколением Trainium, представленным в декабре 2020 года. Trainium2 будет доступен клиентам Amazon Web Services в инстансах EC Trn2 в кластерах из 16-ти чипов. В решении AWS EC2 UltraCluster клиенты смогут получить в своё распоряжении до 100 000 чипов Trainium2 для обучения больших языковых моделей. К сожалению, Amazon не уточнила, когда Trainium2 станут доступны клиентам AWS, предположив лишь, что это произойдёт «где-то в следующем году».

По заявлению Amazon, 100 000 чипов Trainium2 обеспечат теоретическую вычислительную мощность в 65 Эфлопс (квинтиллионов операций в секунду), что в пересчёте на одно ядро составляет 650 Тфлопс (триллионов операций). Конечно, это лишь теоретические показатели, и стоит брать во внимание факторы, усложняющие расчёты. Однако, если предположить, что одно ядро Trainium2 сможет обеспечивать реальную производительность около 200 Тфлопс, то это значительно превысит возможности чипов того же Google для обучения моделей ИИ.

В Amazon также подчеркнули, что кластер из 100 000 чипов Trainium2 способен обучить большую языковую модель ИИ (LLM – large language model) с 300 миллиардами параметров всего за несколько недель. Раньше на такие задачи уходили месяцы обучения. Отметим, что параметры в парадигме LLM — это элементы модели, полученные на обучающих датасетах и, по сути, определяющие мастерство модели в решении той или иной задачи, к примеру, генерации текста или кода. 300 миллиардов параметров — это примерно в 1,75 раза больше, чем у GPT-3 от OpenAI.

«Чипы лежат в основе всех рабочих нагрузок клиентов, что делает их критически важной областью инноваций для AWS, — отметил в пресс-релизе вице-президент AWS по вычислениям и сетям Дэвид Браун (David Brown). — Учитывая всплеск интереса к генеративному ИИ, Trainium2 поможет клиентам обучать их ML-модели быстрее, по более приемлемой цене и с большей энергоэффективностью».

 Источник изображения: Amazon

Слева — процессор Graviton4, справа — ускоритель Trainium2. Источник изображения: Amazon

Второй чип, анонсированный Amazon сегодня — Arm-процессор Graviton4. Amazon утверждает, что он обеспечивает на 30 % более высокую производительность, на 50 % больше ядер и на 75 % более высокую пропускную способность памяти, чем процессор предыдущего поколения Graviton3 (но не более современный Graviton3E), применяемый в облаке Amazon EC2. Таким образом Graviton4 предложат до 96 ядер (но будут и другие конфигурации) и поддержку до 12 каналов оперативной памяти DDR5-5600.

Ещё один апгрейд по сравнению с Graviton3 состоит в том, что все физические аппаратные интерфейсы Graviton4 зашифрованы. По заявлению Amazon, это должно надёжнее защищать рабочие нагрузки клиентов по обучению ИИ и клиентские данные с повышенными требованиями к конфиденциальности.

«Graviton4 — это четвёртое поколение процессоров, которое мы выпустили всего за пять лет, и это самый мощный и энергоэффективный чип, когда-либо созданный нами для широкого спектра рабочих нагрузок, — говорится в заявлении Дэвида Брауна. — Затачивая наши чипы на реальные рабочие нагрузки, которые очень важны для клиентов, мы можем предоставить им самую передовую облачную инфраструктуру».

Graviton4 будет доступен в массивах Amazon EC2 R8g, которые уже сегодня открыты для пользователей в предварительной версии.

«Тинькофф» объявил о разработке антипода ChatGPT

Компания «Тинькофф» в настоящее время занимается разработкой собственных специализированных больших языковых моделей (LLM). Об этом сообщил директор «Тинькофф» по ИИ Виктор Тарнавский на международной конференции по искусственному интеллекту AI Journey, которая сейчас проходит в Москве.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Тарнавский уточнил, что разрабатываемый продукт является в каком-то смысле «антиподом» чат-бота ChatGPT компании OpenAI. По его словам, основное отличие LLM «Тинькофф» от ChatGPT заключается в том, что решение будет не единой универсальной моделью, а несколькими инструментами, заточенными под разные продукты.

Кроме того, «Тинькофф» пока не планирует коммерциализацию создаваемых языковых моделей. Предполагается, что они будут использоваться исключительно внутри экосистемы «Тинькофф» для создания и улучшения продуктов и процессов. «Наш основной фокус — делать лучшие продукты для наших пользователей, и мы создаём для этих продуктов заточенные под наши сценарии модели», — заявил Тарнавский.

«Мы сами строим большие языковые модели. Строим их с нуля. Мы создаём базовые модели, а потом сверху надстраиваем те, что решают конкретные задачи»,рассказал топ-менеджер «Тинькофф». Он отметил, что у компании «сильная команда, достаточно данных и вычислительных мощностей».

«Мы понимаем, как сделать наши модели по качеству лучше, чем у любого конкурента на рынке», — подчеркнул Тарнавский. Благодаря фокусировке можно будет создать инструмент более высокого качества, чем «общее» решение.

«Стоит ожидать больших значимых запусков продуктов в экосистеме "Тинькофф", базирующихся на больших языковых моделях. Через продукты и через продуктовую ценность для конечного потребителя мы будем реализовывать потенциал, который заложен в больших языковых моделях», — заявил Тарнавский.

OpenAI представила флагманскую нейросеть GPT-4 Turbo — мощнее и в разы дешевле GPT-4

Сегодня на своей первой конференции для разработчиков компания OpenAI представила GPT-4 Turbo — улучшенную версию своей флагманской большой языковой модели. Разработчики из OpenAI отмечают, что новая GPT-4 Turbo стала мощнее и в то же время дешевле, чем GPT-4.

 Источник изображения: CNET

Источник изображения: CNET

Языковая модель GPT-4 Turbo будет предлагаться в двух версиях: одна предназначена исключительно для анализа текста, вторая понимает контекст не только текста, но и изображений. Модель анализа текста доступна в виде предварительной версии через API, начиная с сегодняшнего дня. Обе версии нейросети компания пообещала сделать общедоступными «в ближайшие недели».

Стоимость использования GPT-4 Turbo составляет 0,01 доллара за 1000 входных токенов (около 750 слов) и 0,03 доллара за 1000 выходных токенов. Под входными токенами понимаются фрагменты необработанного текста. Например, слово «fantastic» разделяется на токены «fan», «tas» и «tic». Выходные токены, в свою очередь, это токены, которые модель генерирует на основе входных токенов. Цена на GPT-4 Turbo для обработки изображений будет зависеть от размера изображения. Например, обработка изображения размером 1080 × 1080 пикселей в GPT-4 Turbo будет стоить 0,00765 доллара.

«Мы оптимизировали производительность, поэтому можем предлагать GPT-4 Turbo по цене в три раза дешевле для входных токенов и в два раза дешевле для выходных токенов по сравнению с GPT-4», — сообщила OpenAI в своём блоге.

Для GPT-4 Turbo обновили базу знаний, которая используется при ответе на запросы. Языковая модель GPT-4 обучалась на веб-данных до сентября 2021 года. Предел знаний GPT-4 Turbo — апрель 2023 года. Иными словами, на запросы, имеющие отношение к последним событиям (до апреля 2023 года), нейросеть будет давать более точные ответы. На основе множества примеров из интернета GPT-4 Turbo обучилась прогнозировать вероятность появления тех или иных слов на основе шаблонов, включая семантический контекст окружающего текста. Например, если типичное электронное письмо заканчивается фрагментом «С нетерпением жду…», GPT-4 Turbo может завершить его словами «… вашего ответа».

Вместе с этим модель GPT-4 Turbo получила расширенное контекстное окно (количество текста, учитываемое в процессе генерации). Увеличение контекстного окна позволяет модели лучше понимать смысл запросов и выдавать более подходящие им ответы, не отклоняясь от темы. Модель GPT-4 Turbo имеет контекстное окно в 128 тыс. токенов, что в четыре раза больше, чем у GPT-4. Это самое большое контекстное окно среди всех коммерчески доступных моделей ИИ. Оно превосходит контекстное окно модели Claude 2 от Anthropic, которая поддерживает до 100 тыс. токенов. Anthropic утверждает, что экспериментирует с контекстным окном на 200 тыс. токенов, но ещё не внесла эти изменения в открытый доступ. Контекстное окно в 128 тыс. токенов соответствует примерно 100 тыс. словам или 300 страницам текста, что равносильно размеру романов «Грозовой перевал» Эмили Бронте, «Путешествия Гулливера» Джонатана Свифта или «Гарри Поттер и узник Азкабана» Джоан Роулинг.

Модель GPT-4 Turbo способна генерировать действительный JSON-формат. По словам OpenAI, это удобно для веб-приложений, передающих данные, например для тех, которые отправляют данные с сервера клиенту, чтобы их можно было отобразить на веб-странице. GPT-4 Turbo в целом получила более гибкие настройки, которые окажутся полезными разработчикам. Более подробно об этом можно узнать в блоге OpenAI.

«GPT-4 Turbo работает лучше, чем наши предыдущие модели, при выполнении задач, требующих тщательного следования инструкциям, таких как генерация определённых форматов (например, “всегда отвечать в XML”). Кроме того, GPT-4 Turbo с большей вероятностью вернёт правильные параметры функции», — сообщает компания.

Также GPT-4 Turbo может быть интегрирован с DALL-E 3, функциями перевода текста в речь и зрительным восприятием, расширяя возможности использования ИИ.

OpenAI также объявила, что будет предоставлять гарантии защиты авторских прав для корпоративных пользователей через программу Copyright Shield. «Мы теперь будем защищать наших клиентов и оплачивать понесённые расходы, если они столкнутся с юридическими претензиями о нарушении авторских прав», — заявила компания в своём блоге. Ранее то же самое сделали Microsoft и Google для пользователей их ИИ-моделей. Copyright Shield будет покрывать общедоступные функции ChatGPT Enterprise и платформы для разработчиков OpenAI.

Для GPT-4 компания запустила программу тонкой настройки, предоставляя разработчикам еще больше инструментов для кастомизации ИИ под определённые задачи. По словам компании, в отличие от программы тонкой настройки GPT-3.5, предшественника GPT-4, программа тонкой настройки GPT-4 потребует большего контроля и руководства со стороны OpenAI, в основном из-за технических препятствий.

Компания также удвоила лимит скорости ввода и вывода токенов в минуту для всех платных пользователей GPT-4. При этом цена осталась прежней: 0,03 доллара за входной токен и 0,06 доллара за выходной токен (для модели GPT-4 с контекстным окном на 8000 токенов) или 0,06 доллара за входной токен и 0,012 доллара за выходной токен (для модели GPT-4 с контекстным окном на 32 000 токенов).

Baidu запустила платную версию своего аналога ChatGPT за $8 в месяц

Китайский поисковый гигант Baidu запустил платную версию своего ИИ-чат-бота Ernie Bot, похожего на ChatGPT, передаёт издание South China Morning Post. Стоимость месячной подписки на Ernie Bot 4.0 составляет 59,9 юаней ($8,18). За оформление подписки с автоматическим продлением стоимость снижается до 49,9 юаней ($6,8) в месяц.

 Источник изображения: Xinhua

Источник изображения: Xinhua

Подписка на чат-бота Ernie Bot 4.0 позволяет делать до 100 запросов каждые три часа. Сообщается, что версия чат-бота Ernie Bot 3.5 остаётся бесплатной для пользователей. Ernie Bot 4.0 был представлен компанией Baidu в прошлом месяце. Он обладает более эффективными возможностями обработки запросов, понимает более сложные вопросы, способен генерировать картинки и решать базовые математические задачи.

По словам разработчиков Ernie Bot 4.0, его общие возможности не уступают языковой модели GPT-4, на базе которой построена новейшая версия чат-бота ChatGPT от компании OpenAI. К тому же, стоимость месячной подписки на Ernie Bot 4.0 значительно ниже, чем у американского конкурента. За платную версию ChatGPT с более быстрым временем реакции по сравнению с предыдущей версией чат-бота и доступом к новым функциям просят $20.

Baidu как и многие другие китайские технологические компании стремится как можно быстрее монетизировать сервисы на основе своих больших языковых моделей (LLM). С момента запуска первой версии чат-бота ChatGPT компанией OpenAI в Китае было разработано более 100 различных LLM.

На китайском рынке уже представлен ряд компаний, предлагающих услуги своих языковых моделей для корпоративных пользователей на платной основе. Например, платформа Qianfan, принадлежащая всё той же Baidu, содержит множество различных ИИ-моделей, предназначенных под разные задачи. Например, цены на услуги генерации тестов начинаются с 0,002 юаня за 1000 токенов. Токены здесь относятся к единицам текста, которые считывает и генерирует ИИ-модель. Размер текста варьируется в зависимости от модели и языка. Например, по схеме OpenAI, 1000 токенов — это около 750 слов на английском языке.

Компания Tencent Holdings взимает с корпоративных пользователей за использование своей языковой модели Hunyuan 0,01 юаня за 1000 токенов. При регистрации новым пользователям выделяются 100 000 бесплатных токенов. Для сравнения, использование ChatGPT API стоит $0,002 за 1000 токенов. В расчёте Tencent один токен приравнивается к 1,8 иероглифа китайского языка или трём буквам английского алфавита.

Чат-боты ChatGPT от OpenAI и конкурирующий Bard от Google официально недоступны в Китае и Гонконге, однако та же Microsoft пытается продвигать свой чат-бот Bing Chat на базе языковой модели GPT-4. В отсутствие иностранных конкурентов рынок ИИ-генерации в Китае заняли местные компании, включая Baidu и Alibaba Group Holding, а также различные производители мобильных устройств, включая Vivo и Oppo, которые тоже активно продвигают свои ИИ-продукты.

Baidu представила первую версию Ernie Bot в марте этого года, запустив его закрытое тестирование, а уже в августе, после одобрения регуляторов, сделала его доступным для всех. Согласно последним оценкам компании, к настоящему моменту пользовательская база чат-бота насчитывает 45 млн человек, включая 54 тыс. различных разработчиков программных продуктов.

Усилия китайских компаний по развитию собственных услуг генеративного искусственного интеллекта сталкиваются с растущими ограничениями со стороны местных регулирующих органов, пишет издание South China Morning Post. В августе правительство страны ввело общие правила по оказанию услуг и использованию технологий генеративного искусственного интеллекта, что сделало Китай одной из первых стран, где была введена подобная практика для регулирования таких технологий.

Правила требуют от компаний, владеющих подобными сервисами, продвигать здоровый контент, а также запрещать использование этих технологий для создания текстов, изображений и аудио, содержащих ложную информацию или любой контент, который может поставить под угрозу национальную безопасность.


window-new
Soft
Hard
Тренды 🔥
Acer представила игровой ноутбук Chromebook Plus 516 GE с новой игровой панелью ChromeOS 10 мин.
Acer, ASUS и HP представили свежие Chromebook Plus, у которых ещё больше ИИ-функций от Google 3 ч.
SpaceX доставит в космос японско-европейский спутник EarthCARE для изучения земных облаков 3 ч.
Apple разрешила LG и Samsung запустить массовое производство OLED-экранов для iPhone 16 3 ч.
BYD создала гибридную силовую установку с запасом хода в 2100 км — из Москвы в Тюмень без дозаправки и подзарядки 3 ч.
AWS потратит миллиарды евро на облачную инфраструктуру в Италии 4 ч.
MSI готовит гигантскую видеокарту GeForce RTX 4090 Suprim Fuzion со встроенной СЖО без внешнего радиатора 6 ч.
Анонс настольных и мобильных чипов Core Ultra 200 ожидается в сентябре — Intel анонсировала конференцию Innovation 2024 7 ч.
5G в России построят на китайском оборудовании: малоизвестные производители начали осваивать отечественный рынок 7 ч.
Малые реакторы Oklo запитают «самый экоустойчивый дата-центр США» Wyoming Hyperscale 7 ч.