Сегодня 19 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Сфера ИИ заинтересовалась малыми языковыми моделями — они дешевле и эффективнее больших в конкретных задачах

На рынке ИИ сейчас наблюдается тренд на использование малых языковых моделей (SLM), которые имеют меньше параметров, чем большие языковые модели (LLM), и лучше подходят для более узкого круга задач, пишет журнал Wired.

 Источник изображения: Luke Jones/unsplash.com

Источник изображения: Luke Jones/unsplash.com

Новейшие версии LLM компаний OpenAI, Meta и DeepSeek имеют сотни миллиардов параметров, благодаря чему могут лучше определять закономерности и связи, что делает их более мощными и точными. Однако их обучение и использование требуют огромных вычислительных и финансовых ресурсов. Например, обучение модели Gemini 1.0 Ultra обошлось Google в 191 миллион долларов. По данным Института исследований электроэнергетики, выполнение одного запроса в ChatGPT требует примерно в 10 раз больше энергии, чем один поиск в Google.

IBM, Google, Microsoft и OpenAI недавно выпустили SLM, имеющие всего несколько миллиардов параметров. Их нельзя использовать в качестве универсальных инструментов, как LLM, но они отлично справляются с более узко определёнными задачами, такими как подведение итогов разговоров, ответы на вопросы пациентов в качестве чат-бота по вопросам здравоохранения и сбор данных на интеллектуальных устройствах. «Они также могут работать на ноутбуке или мобильном телефоне, а не в огромном ЦОД», — отметил Зико Колтер (Zico Kolter), учёный-компьютерщик из Университета Карнеги — Меллона.

Для обучения малых моделей исследователи используют несколько методов, например дистилляцию знаний, при которой LLM генерирует высококачественный набор данных, передавая знания SLM, как учитель даёт уроки ученику. Также малые модели создаются из больших путём «обрезки» — удаления ненужных или неэффективных частей нейронной сети.

Поскольку у SLM меньше параметров, чем у больших моделей, их рассуждения могут быть более прозрачными. Небольшая целевая модель будет работать так же хорошо, как большая, при выполнении конкретных задач, но её будет проще разрабатывать и обучать. «Эти эффективные модели могут сэкономить деньги, время и вычислительные ресурсы», — сообщил Лешем Чошен (Leshem Choshen), научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft прекратила продавать фильмы и шоу через свой фирменный магазин 36 мин.
Из консорциума, собирающегося купить TikTok в США, вышел крупный инвестор 2 ч.
Новая статья: Cast n Chill — вы, сэр, рыба. Рецензия 8 ч.
Кооперативный боевик Contraband от создателей Just Cause всё ещё жив, но оказался игрой-сервисом 10 ч.
Meta отказалась соблюдать «чрезмерные» правила разработки ИИ, предложенные ЕС 11 ч.
Microsoft уличили в допуске китайцев к секретным облачными системами Пентагона 12 ч.
Legacy of the Forge «уже не за горами» — Warhorse раскрыла, когда ждать новостей о втором дополнении к Kingdom Come: Deliverance 2 12 ч.
Перевод на русский, Denuvo и первые детали геймплея: Persona 4 Revival получила страницу в Steam 13 ч.
Netflix призналась, что начала использовать ИИ при создании сериалов 14 ч.
Фэнтезийная 4X-стратегия Endless Legend 2 от создателей Humankind не выйдет 7 августа в раннем доступе Steam, но есть и хорошая новость 15 ч.
Трамп поддержал криптоиндустрию: подписан закон GENIUS Act о стейблкоинах 32 мин.
Bo Turbo — электросамокат с максимальной скоростью 160 км/ч и запасом хода 240 км 2 ч.
Углеродные выбросы Amazon выросли в 2024 году на 6 % из-за ИИ ЦОД и любителей шопинга 8 ч.
Австрийцы упаковали электромобильный аккумулятор в корпус из дерева и стали 11 ч.
В Роттердаме запустят беспилотные рейсовые автобусы между городом и аэропортом 12 ч.
Asus представила материнскую плату ROG Strix X870-H Gaming WiFi7 S с ярким аниме-дизайном 12 ч.
ASRock представила плату X870E Taichi OCF для экстремального разгона Ryzen 9000 и другие новинки с AM5 14 ч.
США намерены ослабить влияние Китая на подводную интернет-инфраструктуру, но у них это вряд ли получится 15 ч.
Российские учёные создали фотонный детектор с «обонянием» — он учует опасные газы в воздухе, диабет и алкогольную вечеринку 16 ч.
Передовые твердотельные батареи в электромобилях появятся в лучшем случае через пять лет 16 ч.