Французский ИИ-стартап Mistral AI представил семейство моделей Mistral 3 следующего поколения с открытыми весами (Open-weight), сделав серьёзную заявку на лидерство в сегменте общедоступных ИИ-моделей, которые обладают рядом преимуществ для корпоративных клиентов по сравнению с решениями крупных технологических компаний.
Источник изображения: Mistral AI
Семейство Mistral 3 состоит из 10 моделей, включая большую модель разреженной архитектуры (Mixture of Experts, MoE) с открытыми весами, мультимодальными и многоязычными возможностями — Mistral Large 3. Это самая мощная на сегодняшний день модель компании, обученная с 41 млрд активных и 675 млрд общих параметров. Также в состав семейства входят девять небольших моделей с возможностью автономной работы и полной настройкой, в том числе три современные модели Ministral высокой плотности с 4, 8 и 3 млрд параметров.
Модели Mistral обладают лучшим соотношением производительности и стоимости в своей категории. В то же время Mistral Large 3 входит в число передовых моделей с открытым исходным кодом, оптимизированных под тонко настроенные инструкции.
Компания указала, что все модели выпускаются по лицензии Apache 2.0, добавив, что открытый исходный код моделей в различных сжатых форматах расширяет возможности сообщества разработчиков и позволяет использовать возможности ИИ благодаря распределённому интеллекту.
Как сообщает TechCrunch, стартап Mistral, основанный бывшими сотрудниками DeepMind и Meta✴, существует всего два года и на сегодняшний день привлек около $2,7 млрд инвестиций при оценке рыночной стоимости в $13,7 млрд. Это значительно меньше, чему у конкурентов, таких как OpenAI (привлечено $57 млрд при оценке в $500 млрд) и Anthropic (привлечено $45 млрд при оценке в $350 млрд).
Mistral утверждает, что больше не всегда значит лучше, особенно для корпоративных сценариев использования ИИ-продуктов.
«Наши клиенты иногда рады начать с очень большой [закрытой] модели, которую им не нужно настраивать… но, развернув её, они понимают, что это дорого и медленно, — рассказал ресурсу TechCrunch Гийом Лампле (Guillaume Lample), соучредитель и главный научный сотрудник Mistral. — Затем они обращаются к нам, чтобы мы настроили небольшие модели для более эффективного решения конкретной задачи». По его словам, подавляющее большинство корпоративных сценариев использования ИИ-решений можно реализовать с помощью небольших моделей с тонкой настройкой.
Лампле утверждает, что при сравнении с эталонными моделями, когда открытые модели значительно отстают от конкурентов с закрытым исходным кодом, результаты могут быть обманчивы. Он отметил, что большие закрытые модели могут со старта работать лучше, но реальный выигрыш при использовании небольших моделей достигается при настройке.
Источник:


MWC 2018
2018
Computex
IFA 2018






