Сегодня 23 октября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → большая языковая модель
Быстрый переход

У людей ещё есть время: ИИ сравняется по умственным способностям с человеком через 10 лет, а то и позже

Современные ИИ-модели демонстрируют впечатляющие способности в обработке естественного языка и генерации текста. Однако, по словам главного специалиста по ИИ компании Meta Янна Лекуна (Yann LeCun), они пока не обладают способностями к памяти, мышлению, планированию и рассуждению, как это свойственно человеку. Они всего лишь имитируют эти навыки. По мнению учёного, для преодоления этого барьера потребуется не менее 10 лет и разработка нового подхода — «моделей мира».

 Источник изображения: DeltaWorks / Pixabay

Источник изображения: DeltaWorks / Pixabay

Ранее в этом году OpenAI представила новую функцию для ИИ-чат-бота ChatGPT под названием «память», которая позволяет ИИ «запоминать» предыдущее общение с пользователем. В дополнение к этому, компания выпустила новое поколение ИИ-моделей GPT-4o, которое выводит на экран слово «думаю» при генерации ответов. При этом OpenAI утверждает, что её новинки способны на сложное рассуждение. Однако, по мнению Лекуна, они лишь создают иллюзию сложных когнитивных процессов — реальное понимание мира у этих ИИ-систем пока отсутствует.

Хотя такие нововведения могут выглядеть как значительный шаг на пути к созданию ИИ общего назначения (Artificial General Intelligence, AGI), Лекун оппонирует оптимистам в этой области. В своём недавнем выступлении на Hudson Forum он отметил, что чрезмерный оптимизм Илона Маска (Elon Musk) и Шейна Легга (Shane Legg), сооснователя Google DeepMind, может быть преждевременным. По мнению Лекуна, до создания ИИ уровня человека могут пройти не годы, а десятилетия, несмотря на оптимистичные прогнозы о его скором появлении.

Лекун подчёркивает, что для создания ИИ, способного понимать окружающий мир, машины должны не только запоминать информацию, но и обладать интуицией, здравым смыслом, способностью планировать и рассуждать. «Сегодняшние ИИ-системы, несмотря на заявления самых страстных энтузиастов, не способны ни на одно из этих действий», — отметил Лекун.

Причина этому проста: большие языковые модели (LLM) работают, предсказывая следующий токен (обычно это несколько букв или короткое слово), а современные ИИ-модели для изображений и видео предсказывают следующий пиксель. Иными словами, LLM являются одномерными предсказателями, а модели для изображений и видео — двумерными предсказателями. Эти модели добились больших успехов в предсказаниях в своих измерениях, но они по-настоящему не понимают трёхмерный мир, доступный человеку.

Из-за этого современные ИИ не могут выполнять простые задачи, которые под силу большинству людей. Лекун сравнивает возможности ИИ с тем, как обучаются люди: к 10 годам ребёнок способен убирать за собой, а к 17 — научиться водить автомобиль. Оба этих навыка усваиваются за считаные часы или дни. В то же время, даже самые продвинутые ИИ-системы, обученные на тысячах или миллионах часов данных, пока не способны надёжно выполнять такие простые действия в физическом мире. Чтобы решить эту проблему, Лекун предлагает разрабатывать модели мира — ментальные модели того, как ведёт себя мир, которые смогут воспринимать окружающий мир и предсказывать изменения в трёхмерном пространстве.

 Источник изображения: AMRULQAYS / Pixabay

Источник изображения: AMRULQAYS / Pixabay

Такие модели, по его словам, представляют собой новый тип архитектуры ИИ. Вы можете представить последовательность действий, и ваша модель мира позволит предсказать, какое влияние эта последовательность окажет на мир. Отчасти преимущество такого подхода заключается в том, что модели мира могут обрабатывать значительно больше данных, чем LLM. Это, конечно же, делает их вычислительно ёмкими, поэтому облачные провайдеры спешат сотрудничать с компаниями, работающими в сфере ИИ.

Модели мира — это масштабная концепция, за которой в настоящее время охотятся несколько исследовательских лабораторий, и этот термин быстро становится новым модным словом для привлечения венчурного капитала. Группа признанных исследователей ИИ, включая Фэй-Фэй Ли (Fei-Fei Li) и Джастина Джонсона (Justin Johnson), недавно привлекла $230 млн для своего стартапа World Labs. «Крёстная мать ИИ» и её команда также уверены, что модели мира позволят создать значительно более умные ИИ-системы. OpenAI также называет свой ещё не вышедший видеогенератор Sora моделью мира, но не раскрывает подробностей.

Лекун представил идею использования моделей мира для создания ИИ уровня человека в своей работе 2022 года, посвящённой объектно-ориентированному или целеориентированному ИИ, хотя отмечает, что сама концепция насчитывает более 60 лет. Вкратце, в модель мира загружаются базовые представления об окружающей среде (например, видео с изображением неубранной комнаты) и память. На основе этих данных модель предсказывает, каким будет состояние окружающего мира. Затем ей задаются конкретные цели, включая желаемое состояние (например, чистая комната), а также устанавливаются ограничения, чтобы исключить потенциальный вред для человека при достижении цели (например, «убираясь в комнате, не навреди человеку»). После этого модель мира находит оптимальную последовательность действий для выполнения поставленных задач.

Модели мира представляют собой многообещающую концепцию, но, по словам Лекуна, значительного прогресса в их реализации пока не достигнуто. Существует множество крайне сложных задач, которые нужно решить, чтобы продвинуться от текущего состояния ИИ, и по его мнению, всё гораздо сложнее, чем кажется на первый взгляд.

Nvidia выпустила мультимодальную модель ИИ с открытым исходным кодом, и она не уступает GPT-4

Nvidia представила новое семейство больших мультимодальных языковых моделей NVLM 1.0, включая обученную на 72 миллиардах параметров NVLM-D-72B. Модели демонстрируют высокую производительность в широком спектре задач, таких как машинное зрение, создание программного кода, анализ изображений, решение математических задач и генерация текстов. Похоже, что лидерам отрасли во главе с OpenAI и Google придётся потесниться.

 Источник изображения: freepik.com

Источник изображения: freepik.com

«Мы представляем NVLM 1.0, семейство передовых мультимодальных больших языковых моделей, которые достигают самых современных результатов в задачах зрения и языка, конкурируя с ведущими фирменными моделями (например, GPT-4o) и моделями с открытым доступом», — утверждают разработчики Nvidia. По их мнению, открытый исходный код предоставляет исследователям и разработчикам беспрецедентный доступ к передовым технологиям.

Флагманская модель NVLM-D-72B демонстрирует адаптивность при обработке сложных визуальных и текстовых входных данных. Исследователи подчёркивают способность модели интерпретировать мемы, анализировать изображения и пошагово решать математические задачи. Разработчики также отметили, что NVLM-D-72B улучшает свою производительность в текстовых задачах после мультимодального обучения, в отличие от большинства аналогичных моделей.

Проект NVLM также представляет инновационные архитектурные решения, включая гибридный подход, который объединяет различные методы мультимодальной обработки. По оценкам сторонних исследователей, модель NVLM-D-72B «находится на одном уровне с Llama 3.1 405B по математике и кодированию, а также имеет видение».

Выпуск Nvidia NVLM 1.0 знаменует собой поворотный момент в разработке ИИ. Открывая исходный код модели, которая конкурирует с проприетарными гигантами, Nvidia не просто делится кодом — она бросает вызов самой структуре индустрии ИИ. Благодаря Nvidia множество небольших организаций и независимых исследователей смогут вносить более значительный вклад в развитие ИИ, что может открыть эру беспрецедентного сотрудничества и инноваций в области ИИ.

Этот шаг может вызвать цепную реакцию — другим лидерам в области ИИ также придётся открыть свои исследования, что потенциально ускорит прогресс ИИ по всем направлениям.

Нужно отметить, что выпуск NVLM 1.0 не лишён рисков. По мере того, как мощный ИИ становится все более доступным, возрастают и опасения по поводу его неправильного использования и возможных этических последствий. Сообщество ИИ уже столкнулось с необходимостью ответственного использования новых технологий.

Одно можно сказать наверняка: политика Nvidia в отношении ИИ затронет всю индустрию. Вопрос только в том, насколько радикальным окажется её влияние, и смогут ли конкуренты адаптироваться достаточно быстро, чтобы преуспеть в этом новом мире открытого ИИ.

Чтобы духу Nvidia не было: ByteDance обучит новую ИИ-модель исключительно на ускорителях Huawei

Китайская компания ByteDance планирует разработать новую модель ИИ, обученную на ускорителях искусственного интеллекта Ascend 910B от Huawei Technologies. ByteDance последовательно диверсифицирует свою вычислительную инфраструктуру, ориентируясь на китайских производителей полупроводников. Компания также ускорила разработку собственных ускорителей ИИ.

 Источник изображения: Pixabay

Источник изображения: Pixabay

На условиях конфиденциальности несколько источников сообщили, что следующим шагом ByteDance в ИИ-гонке станет использование чипа Huawei Ascend 910B для обучения собственной большой языковой модели ИИ. Ранее компания использовала этот ускоритель в основном для менее вычислительно интенсивных задач, основанных на предварительно обученных моделях ИИ.

Обучение моделей ИИ требует огромного количества вычислительных ресурсов. На сегодняшний день самыми производительными ускорителями ИИ являются новейшие графические процессоры Nvidia, которые стали недоступны китайским компаниям из-за санкционной политики США. Поэтому возможности и сложность новой модели, использующей чипы Huawei Ascend 910B, будут ниже, чем у существующей модели ИИ ByteDance Doubao, обученной при помощи процессоров Nvidia.

Текущая технология искусственного интеллекта ByteDance используется в её флагманской большой языковой модели, выпущенной в августе 2023 года. На ней базируется чат-бот Doubao и множество других приложений, включая инструмент преобразования текста в видео Jimeng. Эти приложения становятся всё более востребованными, а чат-бот ByteDance стал одним из самых популярных приложений в Китае с более чем 10 миллионами активных пользователей в месяц.

ByteDance заказала более 100 000 чипов Ascend 910B в этом году, но по состоянию на июль получила менее 30 000, что слишком мало для удовлетворения потребностей компании. По словам источников, задержки поставок и ограниченная вычислительная мощность этих чипов пока не позволяют сделать прогноз о сроках появления новой модели ИИ.

Комментируя создавшуюся ситуацию, представитель ByteDance Майкл Хьюз (Michael Hughes) заявил: «Вся предпосылка здесь неверна. Никакой новой модели не разрабатывается». Однако источники утверждают, что ByteDance является одним из крупнейших покупателей ИИ-чипов Huawei и планирует обучать свою новую модель именно на них.

Компания стала крупнейшим покупателем ИИ-чипа H20 от Nvidia, который американский производитель адаптировал для китайского рынка в ответ на торговые ограничения США. Сообщалось, что в прошлом году ByteDance потратила $2 млрд на чипы Nvidia. Компания также является первым по величине азиатским клиентом Microsoft в сфере облачных вычислений.

Meta✴ похвасталась ростом спроса на языковые модели Llama в 10 раз — всё благодаря их открытости

Компания Meta сообщила, что количество загрузок её больших языковых моделей ИИ (LLM) Llama приближается к 350 млн. Это в 10 раз больше показателя загрузок за аналогичный период прошлого года. Примерно 20 млн из этих загрузок были сделаны только за последний месяц, после того как компания выпустила языковую модель Llama 3.1, которая, по заявлению Meta, позволит ей напрямую конкурировать с решениями компаний OpenAI и Anthropic.

 Источник изображений: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

У некоторых крупнейших поставщиков облачных услуг, сотрудничающих с Meta, ежемесячное использование языковых моделей Llama выросло в десять раз с января по июль этого года. Также отмечается, что с мая по июль использование Llama на серверах её партнёров среди провайдеров облачных услуг выросло более чем вдвое по количеству токенов. Помимо Amazon Web Services (AWS) и Microsoft Azure, компания сотрудничает с Databricks, Dell, Google Cloud, Groq, Nvidia, IBM watsonx, Scale AI и Snowflake и другими, чтобы сделать свои LLM более доступными для разработчиков.

Meta считает, что успех её языковых моделей связан с тем, что они распространяются по открытой лицензии. По словам компании, открытое распространение её LLM позволило «расширить и разнообразить экосистему ИИ и предоставить разработчикам больше выбора». Когда Meta выпустила Llama 3.1, глава компании Марк Цукерберг (Mark Zuckerberg) превозносил достоинства ИИ с открытым исходным кодом, назвав его «движением вперёд». Он также рассказал, что компания предпринимает шаги, чтобы сделать ИИ с открытым исходным кодом отраслевым стандартом.

В своём последнем отчёте Meta также рассказала, как её партнёры используют большие языковые модели. Например, оператор связи AT&T использует Llama для более точного пользовательского поиска. Один из крупнейших американских доставщиков еды DoorDash использует LLM, чтобы упростить работу своих инженеров по программному обеспечению. Языковая модель также используется для генерации живых реакций и цифровых существ в игре Peridot от компании Niantic. В свою очередь Zoom использует Llama, а также другие языковые модели, для работы ИИ-ассистента, который может подводить итоги встреч и делать умные заметки.

Alibaba выпустила математические языковые модели Qwen2-Math, которые лучше аналогов от OpenAI и Google

Alibaba Group Holding продолжает активно работать в сфере искусственного интеллекта. На этой неделе гигант электронной коммерции выпустил несколько больших языковых моделей (LLM) под общим названием Qwen2-Math, которые ориентированы на решение сложных математических задач и, по заявлению разработчиков, справляются с этим лучше ИИ-алгоритмов других компаний.

 Источник изображения: Shutterstock

Источник изображения: Shutterstock

Всего было представлено три большие языковые модели, которые отличаются друг от друга количеством параметров, влияющих на точность ответов алгоритма. Модель с наибольшим количеством параметров Qwen2-Math-72B-Instruct, по данным разработчиков, превосходит в плане решения математических задач многие ИИ-алгоритмы, включая GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic, Gemini 1.5 Pro от Google и Llama-3.1-405B от Meta Platforms.

«За последний год мы проделали большую работу по изучению и расширению логических возможностей больших языковых моделей, уделяя особое внимание их способности решать арифметические и математические задачи <…> Мы надеемся, что Qwen2-Math внесёт свой вклад в усилия сообщества по решению сложных математических задач», — говорится в сообщении разработчиков.

Языковые модели Qwen2-Math протестировали с помощью разных бенчмарков, включая GSM8K (8500 сложных и разнообразных математических задач школьного уровня), OlympiadBench (двуязычный мультимодальный научный бенчмарк высокого уровня) и Gaokao (один из сложнейших вступительных математических экзаменов для университетов). Отмечается, что новые модели имеют некоторые ограничения из-за «поддержки только английского языка». В дальнейшем разработчики планируют создать двуязычные и многоязычные LLM.

«Т-Банк» открыл доступ к русскоязычной ИИ-модели T-lite с 8 млрд параметров

«Т-Банк» открыл доступ к русскоязычной большой языковой модели T-lite с 8 млрд параметров, созданной Центром искусственного интеллекта финансовой организации (AI-центр). Как было объявлено на первой конференции «Т-Банка» по машинному обучению Turbo ML Conf, T-lite показала в индустриальных и внутренних бенчмарках лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей с 7–8 млрд параметров.

 Источник изображений: Т-Банк

Источник изображений: Т-Банк

В частности, результаты T-lite были лучше, чем у зарубежных llama3-8b-instruct и chat-gpt 3.5. При этом на создание T-lite потребовалось всего 3 % вычислительных ресурсов, которые обычно необходимы для такого типа моделей, отметил «Т-Банк».

С увеличением количества параметров ИИ-модели растут её возможности для выполнения сложных заданий, но вместе с тем ухудшается экономическая эффективность модели. В свою очередь, T-lite после дообучения для выполнения конкретных бизнес-задач в области обработки естественного языка (NLP) предоставляет ответы, сопоставимые по качеству с проприетарными моделями размером от 20 млрд параметров, но при этом значительно дешевле в эксплуатации.

T-lite входит в семейство собственных специализированных языковых моделей «Т-Банка» Gen-T, способных обучаться для решения конкретных узкоспециализированных задач. В отличие от универсальных моделей, таких как ChatGPT, модели семейства Gen-T ориентированы на использование в конкретных областях с максимальной адаптацией под нужды пользователя.

OpenAI представила облегченную мощную ИИ-модель GPT-4o Mini — она заменит GPT-3.5 для всех пользователей

Компания OpenAI официально представила упрощённую и более доступную версию своей самой мощной большой языковой модели GPT-4o. Речь идёт о нейросети GPT-4o Mini, использование которой для разработчиков будет более выгодно с экономической точки зрения, но при этом её производительность выше, чем у GPT-3.5.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Создание приложений с использованием языковых моделей OpenAI может обернуться огромными расходами. При отсутствии достаточного количества средств разработчики могут отказаться от их использования в пользу более доступных аналогов, таких как Gemini 1.5 Flash от Google или Claude 3 Haiku от Anthropic. Теперь же с запуском GPT-4o Mini в этом сегменте конкуренция будет более острой.

«Я думаю, что GPT-4o Mini действительно соответствует миссии OpenAI — сделать более доступный для людей ИИ-алгоритм. Если мы хотим, чтобы ИИ приносил пользу в каждом уголке мира, в каждой отрасли, в каждом приложении, мы должны сделать ИИ гораздо более доступным», — рассказал представитель OpenAI.

Начиная с сегодняшнего дня, пользователи ChatGPT на тарифах Free, Plus и Team могут использовать GPT-4o Mini вместо GPT-3.5 Turbo, а пользователи на тарифе Enterprise получат такую возможность на следующей неделе. Это означает, что языковая модель GPT-3.5 больше не будет доступна для пользователей ChatGPT, но её по-прежнему смогут задействовать разработчики через соответствующий API, если они не планируют перейти на GPT-4o Mini. Когда именно доступ к GPT-3.5 будет закрыт полностью, пока неизвестно.

Языковая модель GPT-4o Mini поддерживает работу с текстом, изображениями, аудио- и видеоконтентом. При этом алгоритм всё же предназначен для решения простых задач, поэтому он может оказаться полезным для добавления разных узконаправленных функций в приложения сторонних разработчиков. В эталонном тесте MMLU новая языковая модель OpenAI набрала 82 %. Для сравнения, результат GPT-3.5 в этом же тесте 70 %, GPT-4o — 88,7 %, Gemini Ultra — 90 %. Конкурирующие с GPT-4o Mini языковые модели Claude 3 Haiku и Gemini 1.5 Flash набрали в этом тесте 75,2 % и 78,9 % соответственно.

Учёные нашли способ запускать большие ИИ-модели на системах мощностью 13 Вт, вместо 700 Вт

Исследователи из Калифорнийского университета в Санта-Круз разработали метод, позволяющий запускать большие языковые модели искусственного интеллекта (LLM) с миллиардами параметров при значительно меньшем потреблении энергии, чем у современных систем.

 Источник изображения: Stefan Steinbauer/Unsplash

Источник изображения: Stefan Steinbauer/Unsplash

Новый метод позволил запустить LLV с миллиардами параметров при энергопотреблении системы всего в 13 Вт, что эквивалентно потреблению бытовой светодиодной лампы. Это достижение особенно впечатляет на фоне текущих показателей энергопотребления ИИ-ускорителей. Современные графические процессоры для центров обработки данных, такие как Nvidia H100 и H200, потребляют около 700 Вт, а грядущий Blackwell B200 вообще может использовать до 1200 Вт на один GPU. Таким образом, новый метод оказывается в 50 раз эффективнее популярных сегодня решений, пишет Tom's Hardware.

Ключом к успеху стало устранение матричного умножения (MatMul) из процессов обучения. Исследователи применили два метода. Первый — это перевод системы счисления в троичную, использующую значения -1, 0 и 1, что позволило заменить умножение на простое суммирование чисел. Второй метод основан на внедрении временных вычислений, при котором сеть получила эффективную «память», позволившую работать быстрее, но с меньшим количеством выполняемых операций. Работа проводилась на специализированной системе с FPGA, но исследователи подчёркивают, что большинство их методов повышения эффективности можно применить с помощью открытого программного обеспечения и настройки уже существующих на сегодня систем.

Исследование было вдохновлено работой Microsoft по использованию троичных чисел в нейронных сетях, а в качестве эталонной большой модели учёные использовали LLaMa от Meta. Рюдзи Чжу (Rui-Jie Zhu), один из аспирантов, работавших над проектом, объяснил суть достижения в замене дорогостоящих операций на более дешёвые. Хотя пока неясно, можно ли применить этот подход ко всем системам в области ИИ и языковых моделей в качестве универсального, потенциально он может радикально изменить ландшафт ИИ.

Немаловажно, что учёные открыли исходный код своей разработки, что позволит крупным игрокам рынка ИИ, таким как Meta, OpenAI, Google, Nvidia и другим беспрепятственно воспользоваться новым достижением для обработки рабочих нагрузок и создания более быстрых и энергоэффективных систем искусственного интеллекта. В конечном итоге это приведёт к тому, что ИИ сможет полнофункционально работать на персональных компьютерах и мобильных устройствах, и приблизится к уровню функциональности человеческого мозга.

«Яндекс» разрабатывает нейросеть SpeechGPT для задач на стыке текста и звука, но она вряд ли дотянет до уровня ChatGPT

«Яндекс» занимается разработкой новой нейросетевой модели SpeechGPT и для этого нанимает в свою команду специалиста в области машинного обучения, пишет «Коммерсантъ» со ссылкой на раздел вакансий компании. Согласно описанию вакансии, новая модель «умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука», то есть, относится к категории мультимодальных ИИ-систем.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

В «Яндексе» не стали отвечать на вопрос о модели SpeechGPT, пояснив, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах.

Как полагает эксперт в области ИИ и продвинутой аналитики компании Axenix Владимир Кравцев, MVP (минимально жизнеспособный продукт) SpeechGPT, вероятно, появится в ближайшие месяцы, «дальше пойдёт процесс непрерывных улучшений». По его мнению, SpeechGPT прежде всего будут встраивать в «уже существующие сервисы, связанные с каналами коммуникации с клиентами, партнёрами “Яндекса”, то есть, будет происходить постепенная замена текущих более простых моделей на современные».

Директор по продукту Hybrid Светлана Другова считает, что новая модель «Яндекса» вряд ли будет сопоставима по возможностям с мультимодальными моделями Google семейства Gemini или OpenAI, поскольку на создание подобных им требуются миллиарды долларов. Тем не менее, с учётом того, что у «“Яндекса” уже есть наработки, затраты будут несколько меньше», говорит она.

Российские компании продолжают закупать ИИ-ускорители Nvidia, несмотря на санкции, но затраты растут

Несмотря на санкции, российским компаниям в сфере ИИ-технологий пока удаётся закупать необходимое оборудование, в первую очередь — ускорители вычислений Nvidia, которые можно объединять в высокопроизводительные кластеры, пишет «Коммерсантъ». Данные ускорители сейчас особенно нужны — они служат основой для систем искусственного интеллекта.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

Российские технологические компании стали активнее коммерциализировать ИИ-решения. Например, «Яндекс» и «Сбер» интегрировали большие языковые модели (LLM), соответственно YandexGPT и GigaChat, в свои ассистенты и предлагают другим компаниям использовать их для обработки или генерации контента. VK и МТС тоже представили собственные продукты на базе генеративного ИИ, использующие собственные LLM.

Создание LLM требует значительных вычислительных мощностей, в основном построенных на графических ускорителях. Лидирует в этой сфере Nvidia. Согласно исследованию Dell’Oro Group, в 2023 году на её серверные графические ускорители приходилось 97 % всей выручки, которую приносит сегмент во всём мире.

Чем больше у LLM параметров, тем больше число вычислительных операций необходимо для её тренировки. Да и обращение с запросом к нейросетям, прошедшим обучение, тоже требует вычислительных ресурсов. Как сообщил директор бизнес-группы поиска и рекламных технологий «Яндекса» Дмитрий Масюк, стоимость ответов на основе YandexGPT в пересчёте на пользователя в семь раз выше, чем при использовании классических технологий вроде интернет-поиска.

В VK рост числа связанных друг с другом высокопроизводительных серверов (HPC-кластеры) на базе графических ускорителей примерно в полтора раза превосходит рост обычных систем, сообщил «Коммерсанту» вице-президент компании по ИИ, контентным и рекомендательным сервисам Антон Фролов. Рост спроса на ресурсы подтвердили и в Beeline Cloud, отметив, что санкции усложняют закупки и поставки серверов «с адекватными конфигурациями и ценами».

С ростом объёма данных, передаваемых в ходе высокопроизводительных вычислений, возникает потребность в расширении сетей, отметил вице-президент по развитию инфраструктуры МТС, глава облачной платформы MWS Игорь Зарубинский. А также растёт потребность в быстрых и ёмких хранилищах данных. «Развитие ИИ приводит к росту спроса на накопители и диски. В будущем потребуется строительство высокоплотных энергонагруженных ЦОДов», — прогнозирует он.

IT-директор облачного провайдера Oxygen Александр Будкин утверждает, что рост потребности клиентов в высоких мощностях требует «переосмысления ЦОДа как конечного коммерческого продукта для ИТ рынка». По его мнению, если тенденция сохранится на четыре-пять лет, можно будет говорить о проектах строительства ЦОД именно под ИИ: «Они могут быть размещены в регионах с холодным климатом, работать от электричества с электростанций на попутном газе». Такие проекты обсуждались и раньше, но были признаны нецелесообразными из-за относительной неразвитости каналов связи, но ИИ «более толерантен к задержкам».

OpenAI представила ИИ-модель GPT-4o — она гораздо умнее старых версий и будет доступна бесплатно

OpenAI представила мощную мультимодальную модель генеративного искусственного интеллекта (ИИ) GPT-4o, которая будет внедрена в её решения для разработчиков и потребителей в течение следующих нескольких недель. Буква «о» в названии GPT-4o означает omni (всесторонний), что указывает на мультимодальность GPT-4o.

 Источник изображений: OpenAI

Источник изображений: OpenAI

Технический директор OpenAI Мира Мурати (Mira Murati) сообщила в ходе презентации продукта в офисе OpenAI в Сан-Франциско (США), что GPT-4o имеет интеллект «уровня GPT-4», но более высокие возможности в работе с текстом и изображениями, а также с аудио. «GPT-4o воспринимает голос, текст и визуальные образы, — сообщила Мурати. — И это невероятно важно, поскольку мы думаем о будущем взаимодействии между нами и машинами».

Её предшественница — GPT-4 Turbo — обучалась на сочетании изображений и текста. Она способна анализировать изображения и текст для выполнения таких задач, как извлечение текста из изображений и даже описание содержимого этих изображений. В свою очередь, в GPT-4o к этим возможностям добавили речь. GPT-4o получил контекстное окно в 128 тысяч токенов.

Сообщается, что GPT-4o позволит значительно улучшить работу ИИ-чат-бота ChatGPT. Последний уже давно поддерживает голосовой режим, в котором ответы чат-бота расшифровываются с использованием модели преобразования текста в речь, но GPT-4o усилит эту функцию, позволяя пользователям взаимодействовать с чат-ботом больше как с помощником. Например, ему можно будет задать вопрос и прервать его, когда он отвечает. По словам OpenAI, модель GPT-4o обеспечивает реагирование «в реальном времени» и может даже улавливать эмоции в голосе пользователя, генерируя в ответ голос «в различных эмоциональных стилях» в соответствии с текущей ситуацией.

GPT-4o также улучшит визуальные возможности ChatGPT. Исходя из предложенной фотографии или экрана рабочего стола, ChatGPT теперь сможет быстро отвечать на сопутствующие вопросы: от «Что происходит в этом программном коде» до «Какую рубашку какого бренда носит этот человек?».

В дальнейшем возможности модели будут расширяться. Если сейчас GPT-4o позволяет, например, переводить сфотографированное меню на другой язык, то в будущем с её помощью ChatGPT сможет «смотреть» спортивную игру в прямом эфире и объяснять вам правила, говорит Мурати.

Начиная с сегодняшнего дня GPT-4o доступна как платным, так и бесплатным пользователям ChatGPT, но для подписчиков платных тарифных планов ChatGPT Plus и Team ограничение на количество сообщений будет «в 5 раз выше». При превышении лимита ChatGPT автоматически переключится на GPT-3.5 у бесплатных пользователей и на GPT-4 у платных.

Бесплатным пользователям ChatGPT при взаимодействии с GPT-4o станут доступны некоторые функции, которые прежде были только у платных подписчиков. В частности, обновлённый чат-бот сможет искать информацию не только в своей ИИ-модели, но также в интернете; анализировать данные и создавать графики; работать с пользовательскими изображениями и файлами; а также лучше помнить прежние взаимодействия с пользователем. Также бесплатные пользователи получат доступ к GPT Store.

OpenAI сообщила, что GPT-4o поддерживает больше языков, с улучшенной производительностью на 50 различных языках. В API OpenAI GPT-4o в два раза быстрее, чем GPT-4 (в частности, GPT-4 Turbo), вдвое дешевле и имеет более высокие лимиты по скорости.

В настоящее время поддержка голосового общения не включена в API GPT-4o для всех клиентов. OpenAI пояснила, что из-за риска неправильного использования планирует впервые запустить в ближайшие недели поддержку новых аудиовозможностей GPT-4o для «небольшой группы доверенных партнёров».

Softbank закупит ускорители Nvidia на $1 млрд и займётся японским ИИ

Японский конгломерат SoftBank инвестирует к 2025 году 150 млрд иен ($960 млн) в расширение вычислительных мощностей, что позволит разрабатывать высокопроизводительные ИИ-модели, пишет CNBC. По данным ресурса Nikkei Asia, в прошлом году SoftBank израсходовал 20 млрд иен ($128 млн) на укрепление вычислительной инфраструктуры.

Источник изображения: SoftBank

Благодаря столь крупным инвестициям SoftBank будет обладать самыми высокопроизводительными вычислительными мощностями в стране, отметил Nikkei Asia. Как утверждают источники ресурса, для их работы будут использоваться ускорители Nvidia.

В 2024 финансовом году SoftBank планирует завершить создание своей первой большой языковой модели LLM с 390 млрд параметров. Затем, по данным Nikkei Asia, компания начнёт в 2025 году разработку LLM с 1 трлн параметров и поддержкой японского языка.

Как отметил ранее Nikkei Asia, в Японии наблюдается нехватка частных компаний с высокопроизводительными суперкомпьютерами, необходимыми для создания LLM, несмотря на возросший интерес к ИИ. Благодаря инвестициям SoftBank превратится в сильного игрока в сфере генеративного ИИ в то время, когда международные компании пытаются выйти на рынок Японии. На прошлой неделе OpenAI открыла свой первый офис в Токио. В свою очередь, Microsoft объявила о планах инвестировать $2,9 млрд в течение двух лет в расширение инфраструктуры облачных вычислений и ИИ в Японии.

Сotype от МТС заняла второе место в рейтинге больших языковых моделей бенчмарка MERA

Генеративная модель Сotype (ex.MTS AI Chat) заняла второе место в рейтинге больших языковых моделей в лидерборде бенчмарка MERA (Multimodal Evaluation for Russian-language Architectures).

Вошедшие в рейтинг 30 языковых моделей оценивались по 17 параметрам. Показатель BPS у модели Сotype (ex.MTS AI Chat) составил с 0.23, PARus — достиг 0.884, а по задачам из «Что? Где? Когда?» (параметр CheGeKa) она продемонстрировала результат 0.05 / 0.022. Это означает, что Сotype (ex.MTS AI Chat) обладает наиболее полными знаниями о мире, развитыми логическими способностями и навыками причинно-следственного рассуждения и здравого смысла.

Сotype (ex.MTS AI Chat) предназначена для работы с корпоративной информацией для решения бизнес-задач. Следует отметить, что на её создание ушло менее года. Тем не менее она смогла опередить более «взрослых» участников, например GigaChat Pro.

Все ведущие большие языковые модели ИИ нарушают авторские права, а GPT-4 — больше всех

Компания по изучению ИИ Patronus AI, основанная бывшими сотрудниками Meta, исследовала, как часто ведущие большие языковые модели (LLM) создают контент, нарушающий авторские права. Компания протестировала GPT-4 от OpenAI, Claude 2 от Anthropic, Llama 2 от Meta и Mixtral от Mistral AI, сравнивая ответы моделей с текстами из популярных книг. «Лидером» стала модель GPT-4, которая в среднем на 44 % запросов выдавала текст, защищённый авторским правом.

 Источник изображений: Pixabay

Источник изображений: Pixabay

Одновременно с выпуском своего нового инструмента CopyrightCatcher компания Patronus AI опубликовала результаты теста, призванного продемонстрировать, как часто четыре ведущие модели ИИ отвечают на запросы пользователей, используя текст, защищённый авторским правом.

Согласно исследованию, опубликованному Patronus AI, ни одна из популярных книг не застрахована от нарушения авторских прав со стороны ведущих моделей ИИ. «Мы обнаружили контент, защищённый авторским правом, во всех моделях, которые оценивали, как с открытым, так и закрытым исходным кодом», — сообщила Ребекка Цянь (Rebecca Qian), соучредитель и технический директор Patronus AI. Она отметила, что GPT-4 от OpenAI, возможно самая мощная и популярная модель, создаёт контент, защищённый авторским правом, в ответ на 44 % запросов.

Patronus тестировала модели ИИ с использованием книг, защищённых авторскими правами в США, выбирая популярные названия из каталога Goodreads. Исследователи разработали 100 различных подсказок, которые можно счесть провокационными. В частности, они спрашивали модели о содержании первого абзаца книги и просили продолжить текст после цитаты из романа. Также модели должны были дополнять текст книг по их названию.

Модель GPT-4 показала худшие результаты с точки зрения воспроизведения контента, защищённого авторским правом, и оказалась «менее осторожной», чем другие. На просьбу продолжить текст она в 60 % случаев выдавала целиком отрывки из книги, а первый абзац книги выводила в ответ на каждый четвёртый запрос.

Claude 2 от Anthropic оказалось труднее обмануть — когда её просили продолжить текст, она выдавала контент, защищённый авторским правом, лишь в 16 % случаев, и ни разу не вернула в качестве ответа отрывок из начала книги. При этом Claude 2 сообщала исследователям, что является ИИ-помощником, не имеющим доступа к книгам, защищённым авторским правом, но в некоторых случаях всё же предоставила начальные строки романа или краткое изложение начала книги.

Модель Mixtral от Mistral продолжала первый абзац книги в 38 % случаев, но только в 6 % случаев она продолжила фразу запроса отрывком из книги. Llama 2 от Meta ответила контентом, защищённым авторским правом, на 10 % запросов первого абзаца и на 10 % запросов на завершение фразы.

 Источник изображения: Patronus AI

Источник изображения: Patronus AI

«В целом, тот факт, что все языковые модели дословно создают контент, защищённый авторским правом, был действительно удивительным, — заявил Ананд Каннаппан (Anand Kannappan), соучредитель и генеральный директор Patronus AI, раньше работавший в Meta Reality Labs. — Я думаю, когда мы впервые начали собирать это вместе, мы не осознавали, что будет относительно просто создать такой дословный контент».

Результаты исследования наиболее актуальны на фоне обострения отношений между создателями моделей ИИ и издателями, авторами и художниками из-за использования материалов, защищённых авторским правом, для обучения LLM. Достаточно вспомнить громкий судебный процесс между The New York Times и OpenAI, который некоторые аналитики считают переломным моментом для отрасли. Многомиллиардный иск новостного агентства, поданный в декабре, требует привлечь Microsoft и OpenAI к ответственности за систематическое нарушение авторских прав издания при обучении моделей ИИ.

Позиция OpenAI заключается в том, что «поскольку авторское право сегодня распространяется практически на все виды человеческого выражения, включая сообщения в блогах, фотографии, сообщения на форумах, фрагменты программного кода и правительственные документы, было бы невозможно обучать сегодняшние ведущие модели ИИ без использования материалов, защищённых авторским правом».

По мнению OpenAI, ограничение обучающих данных созданными более века назад книгами и рисунками, являющимися общественным достоянием, может стать интересным экспериментом, но не обеспечит системы ИИ, отвечающие потребностям настоящего и будущего.

Microsoft обвинила хакеров из Китая, России и Ирана в использовании её ИИ

Microsoft опубликовала отчёт, в котором обвинила хакерские группы, якобы связанные с российской военной разведкой, Ираном, Китаем и Северной Кореей в использовании её больших языковых моделей (LLM) для совершенствования атак. Компания объявила об этом, когда ввела полный запрет на использование поддерживаемыми государством хакерскими группами её ИИ-технологий.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Независимо от того, имеет ли место какое-либо нарушение закона или какие-либо условия обслуживания, мы просто не хотим, чтобы те субъекты, которых мы определили, которых мы отслеживаем и знаем как субъектов угроз различного рода, чтобы они имели доступ к этой технологии», — сообщил агентству Reuters вице-президент Microsoft по безопасности клиентов Том Берт (Tom Burt) перед публикацией отчёта.

«Это один из первых, если не первый случай, когда компания, занимающаяся ИИ, публично обсуждает, как субъекты угроз кибербезопасности используют технологии ИИ», — отметил Боб Ротстед (Bob Rotsted), руководитель отдела анализа угроз кибербезопасности в OpenAI.

OpenAI и Microsoft сообщили, что использование хакерами их ИИ-инструментов находится на ранней стадии и никаких прорывов не наблюдается. «Они просто используют эту технологию, как и любой другой пользователь», — сказал Берт.

В отчёте Microsoft отмечено, что цели использования LLM разными хакерскими группами всё же отличаются. Например, хакерские группы, которым приписывают связь с ГРУ, использовали LLM для исследования «различных спутниковых и радиолокационных технологий, которые могут иметь отношение к обычным военным операциям на Украине». Северокорейские хакеры использовали LLM для создания контента, «который, вероятно, будет применяться в целевых фишинговых кампаниях» против региональных экспертов. Иранским хакерам эти модели потребовались для написания более убедительных электронных писем потенциальным жертвам, а китайские хакеры экспериментировали с LLM, например, чтобы задавать вопросы о конкурирующих спецслужбах, проблемах кибербезопасности и «известных личностях».


window-new
Soft
Hard
Тренды 🔥
Еженедельный чарт Steam: азартный онлайн-экшен Liar's Bar в тройке лучших, перезапуск New World, возвращение Factorio и DayZ 2 ч.
Шансы на взыскание долгов с российской «дочки» Oracle близки к нулю — из 1,4 млрд руб. пока нашлось лишь 82,8 млн руб. 4 ч.
Спустя более 15 лет разработки на ПК выйдет Caves of Qud — комплексный научно-фантастический роглайк, где можно «делать всё и что угодно» 5 ч.
Telltale прояснила статус The Wolf Among Us 2 на фоне слухов об отмене игры 6 ч.
Слухи: руководство Ubisoft расформировало команду разработчиков Prince of Persia: The Lost Crown и убило надежду на сиквел 7 ч.
Платформа Canva получила ИИ-генератор изображений по текстовым описаниям 8 ч.
Смартфоны на процессоре Qualcomm Snapdragon 8 Elite получат до восьми лет обновлений 10 ч.
Новый геймплейный трейлер раскрыл дату выхода Metal Slug Tactics и подтвердил возвращение трёх легендарных персонажей 10 ч.
Госдума приняла законы о регулировании майнинга криптовалют 10 ч.
«Так вот чего не хватало игре!»: фанаты оценили первую демонстрацию новой озвучки «Смуты» 10 ч.
Новая статья: Компьютер месяца, спецвыпуск: всё о настройке игрового ПК 4 ч.
Huawei представила смартфоны Nova 13 и 13 Pro с загадочными процессорами и 60-Мп селфи-камерами 4 ч.
Впервые получено объёмное изображение скирмиона — наноразмерного магнитного вихря, способного изменить электронику 7 ч.
В начале декабря в Москве пройдёт мультиформатный Форум инновационных центров (ФИЦ-2024) 8 ч.
Microsoft обновила беспроводную гарнитуру Xbox улучшенным микрофоном и увеличила её автономность 9 ч.
Создан первый в мире прототип простого солнечного элемента с потенциальным КПД до 60 % 9 ч.
Индия и NVIDIA обсуждают совместную работу над ИИ-ускорителями 10 ч.
Samsung не будет выпускать дешёвый складной смартфон Galaxy Fold 11 ч.
Открыто самое большое простое число — в нём 41 миллион цифр 11 ч.
Samsung в следующем году выпустит трёхстворчатый складной смартфон 11 ч.