Сегодня 15 февраля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → sky-t1

Теперь каждый может обучить себе рассуждающий ИИ всего за $450 — открыт исходный код Sky-T1

На этой неделе исследователи из лаборатории Sky Computing Lab Калифорнийского университета в Беркли запустили модель искусственного интеллекта Sky-T1-32B-Preview. Речь идёт о нейросети со способностью к рассуждениям, которая способна конкурировать с OpenAI o1 по ряду ключевых показателей.

 Источник изображения: Lee Campbell/Unsplash

Источник изображения: Lee Campbell/Unsplash

По всей видимости, Sky-T1 является первой моделью с поддержкой рассуждений с открытым исходным кодом, что позволит воспроизвести её с нуля. Разработчики опубликовали набор данных, который использовался для обучения алгоритма, а также другие данные, необходимые для запуска ИИ-модели.

Одна из главных особенностей алгоритма в том, что для его обучения не требуются существенные затраты. «Примечательно, что Sky-T1-32B-Preview был обучен менее чем за $450», — написали разработчики в своём блоге. Таким образом, они наглядно продемонстрировали, что возможно создать ИИ-модель со способностью к рассуждениям высокого уровня без существенных денежных вложений.

Ещё недавно стоимость обучения большой языковой модели с сопоставимыми характеристиками измерялась миллионами долларов. Существенно снизить затраты удалось за счёт использования синтетических данных, т.е. данных, сгенерированных другими нейросетями. К примеру, недавно выпущенный компанией Winter алгоритм Palmyra X 004 обучался на синтетических данных и обошёлся разработчикам в $700 тыс.

В отличие от многих ИИ-алгоритмов, модели с возможностью рассуждения эффективно проверяют факты, что позволяет им давать более точные ответы и реже ошибаться, вводя пользователей в заблуждение. Кроме того, моделям рассуждения обычно требуется больше времени на формирование ответа на запрос по сравнению с обычными ИИ-алгоритмами. Однако обычно рассуждающие модели являются более надёжными, особенно в таких областях, как физика, математика и естественные науки.

Согласно имеющимся данным, разработчики задействовали модель рассуждения Alibaba QwQ-32B-Preview для создания первоначального набора данных для обучения Sky-T1. Далее данные преобразовывались с помощью GPT-4o-mini от OpenAI в более точный формат. Процесс обучения Sky-T1 с 32 млрд параметров занял около 19 часов, для чего были задействованы 8 графических ускорителей Nvidia H100.

«В дальнейшем мы сосредоточимся на разработке более эффективных моделей, которые сохраняют высокую производительность рассуждений, а также на изучении передовых методов повышения эффективности и точности моделей во время тестирования. Следите за обновлениями, пока мы добиваемся прогресса в реализации этих интересных инициатив», — написали разработчики в своём блоге.


window-new
Soft
Hard
Тренды 🔥
Perplexity запустила почти бесплатную альтернативу Deep Research от OpenAI и Google 10 ч.
Google отключила на Android оповещения о землетрясениях в Бразилии после ложной тревоги 14 ч.
Совет директоров OpenAI единогласно отверг предложение Маска о покупке стартапа за $97,4 млрд 15 ч.
Instagram начал тестировать скрытую реакцию «не нравится» для комментариев 16 ч.
Новая статья: Эмулируй меня полностью: состояние эмуляции игровых консолей в 2025 году 21 ч.
295 млн пользователей, проверенные хиты продаж и 7,7 млрд часов в играх: Epic Games Store подвёл итоги 2024 года и раскрыл планы по улучшению магазина 22 ч.
«Доверьтесь нам»: разработчики Okami 2 поделились первыми подробностями сиквела легендарной приключенческой игры 24 ч.
Telegram снова стал перегревать и быстро разряжать iPhone 14-02 19:57
Первое тестирование Elden Ring Nightreign сломалось под напором игроков — FromSoftware принесла извинения 14-02 19:09
System Shock 2: Enhanced Edition вернулась из небытия — новое название и скорый релиз 14-02 18:28
Американский лунный модуль компании Firefly Aerospace вышел на орбиту Луны — посадка будет в марте 41 мин.
Meta сформировала команду для разработки роботов-гуманоидов и направит на это значительные инвестиции 51 мин.
Учёные создали прототип реактора для бесплатного производства топлива из атмосферного CO2 с помощью солнца 2 ч.
Arm переманивает сотрудников у клиентов для организации собственного производства чипов 7 ч.
Прорывная технология травления кристаллов 3D NAND сделает SSD ощутимо дешевле, но это не точно 10 ч.
Western Digital и SanDisk скоро снова станут независимыми компаниями 14 ч.
Meta проложит самый длинный в мире подводный кабель протяжённостью 50 000 км 15 ч.
WD готовит технологию HDMR для создания жёстких дисков ёмкостью более 100 Тбайт 15 ч.
Администрация Трампа предлагает TSMC взять под контроль американские предприятия Intel 16 ч.
EK Water Blocks впервые за долгое время представила новинки — водоблоки EK-Quantum Vector³ для RTX 5090 и RTX 5080 24 ч.