Сегодня 11 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → распознавание речи

«Т-Банк» выпустил ИИ-модель распознавания речи с открытым исходным кодом — T-one

Российская группа компаний «Т-Технологии», владеющая «Т-Банком», опубликовала собственную ИИ-модель распознавания речи с открытым исходным кодом. Речевая модель под названием T-one обещает новый уровень качества распознавания, по словам её разработчиков. Также обещаются прорывные решения, такие как распознавание речи в реальном времени, передаёт Forbes.

 Источник изображения: «Т-Технологии»

Источник изображения: «Т-Технологии»

Более подробно о T-one представители «Т-Технологий» рассказали 19 июля в Москве на Второй конференции по машинному обучению Turbo ML. А на официальном ресурсе компании на платформе GitHub объясняется, что T-one — это высокопроизводительная система автоматического распознавания речи (ASR) с акцентом на распознавание русского языка в телефонии. Кстати, на GitHub она уже доступна для скачивания. Также её можно загрузить с Hugging Face. Для разработчиков приведены инструкции по развёртыванию системы.

T-one — модель относительно небольшая, около 70 млн параметров. Для сравнения, речевая модель компании GigaAM от «Сбера» состоит из 240 млн параметров, а модель Whisper large-v3 от OpenAI — из 1,55 млрд. Однако, по утверждениям разработчиков T-One, это не мешает последней обгонять именитых конкурентов именно в распознавании русской речи в телефонных разговорах, под что она «заточена».

«Т-Технологии» позиционируют свою разработку как для бизнеса, так и для научного сообщества. Второму она будет интересна низкой стоимостью: эксплуатация на собственном сервере должна быть в десятки раз дешевле конкурирующих решений от облачных провайдеров. T-one хорошо адаптируется под нужды конкретной компании и разработку собственных решений.

«Это могут быть компании, разрабатывающие голосовых роботов и ассистентов, занимающиеся автоматизацией кол-центров, — пояснили представители «Т-Технологий» на конференции Turbo ML. — Они могут взять за основу эту модель и адаптировать её под свои решения. Это позволит сократить ресурсы на разработку с нуля».

Meta✴ в партнёрстве с ЮНЕСКО запускает новую программу сбора данных для улучшения речи и перевода ИИ

LTPP (Language Technology Partner Program — партнёрская программа по языковым технологиям) — совместная инициатива ЮНЕСКО и Meta✴ по поиску авторов, которые могут предоставить более 10 часов записей речи с транскрипциями, большие объёмы письменного текста и наборы переведённых текстов на разных языках. В дальнейшем эти данные будут интегрированы в ИИ-модели с открытым исходным кодом для распознавания речи и перевода.

 Источник изображения: dailysabah.com

Источник изображения: UNESCO

Усилия LTPP будут сосредоточены на недостаточно обслуживаемых языках для поддержки работы, уже проводимой в этом направлении ЮНЕСКО. «В конечном итоге наша цель — создать интеллектуальные системы, которые могут понимать и реагировать на сложные потребности человека, независимо от языка или культурного происхождения», — заявил представитель Meta✴.

В дополнение к новой инициативе Meta✴ опубликовала открытый исходный код программы для оценки производительности моделей языкового перевода. Тест, состоящий из предложений, созданных лингвистами, поддерживает семь языков, и доступен на платформе разработки ИИ Hugging Face.

Meta✴ продолжает расширять количество языков, поддерживаемых её ИИ-моделями и развивать функции автоматического перевода для создателей контента. В сентябре прошлого года компания начала тестирование инструмента для перевода голосов в Instagram✴ Reels, который дублирует речь создателя на другом языке с автоматическим липсинком.

На сегодняшний день обработка на платформах Meta✴ контента на языках, отличных от английского, далека от совершенства. По некоторым данным, в соцсети Facebook✴ 79 % дезинформации о COVID на итальянском и испанском языках не были распознаны и отмечены системой, по сравнению с 29 % на английском языке. А сообщения на арабском языке, наоборот, часто ошибочно помечаются как разжигающие ненависть.

Meta✴ заявила, что принимает меры по улучшению своих технологий перевода и модерации. И, хотя компания позиционирует обе свои языковые инициативы как филантропические, нет никаких сомнений, что главным бенефициаром этих программ станет именно Meta✴, которая сможет существенно улучшить качество распознавания речи и перевода.


window-new
Soft
Hard
Тренды 🔥
ИИ-приложения лучше монетизируются на ранних этапах эксплуатации, но быстрее теряют клиентов 40 мин.
Ресурс Anna's Archive обвинили в «ошеломляющем» пиратстве 63 миллионов книг 3 ч.
ChatGPT получил визуальную функцию, которая «заставит» полюбить математику 3 ч.
Российский суд оштрафовал Google на 11,4 млн руб. за неудаление запрещённого контента 10 ч.
Nvidia показала геймплей Control Resonant с трассировкой пути и подтвердила поддержку DLSS 4.5 в 20 новых играх 12 ч.
Nvidia выпустила драйвер с поддержкой Crimson Desert и Death Stranding 2: On the Beach 12 ч.
The Witcher 4 получит поддержку технологии RTX Mega Geometry для ускорения трассировки сложной геометрии 13 ч.
От GTX 1060 до RTX 5070 Ti: разработчики Crimson Desert раскрыли полные системные требования и технические особенности игры на консолях 13 ч.
Поддельное приложение Starlink внедряло майнер криптовалют на Android-смартфоны 13 ч.
Epic Games скоро повысит цены на В-баксы в Fortnite, потому что расходы на поддержку игры «значительно возросли», и студии надо покрывать их 14 ч.
Figure показала, как робот на базе Helix 02 убирает гостиную с той же скоростью, что и человек 2 ч.
YouTube заработал на рекламе $40,4 млрд в 2025 году — больше, чем Disney, Paramount и WBD вместе взятые 3 ч.
Из-за дефицита памяти сильнее всего пострадают поставки хромбуков 4 ч.
Суд запретил ИИ-агентам Perplexity совершать покупки на Amazon 9 ч.
«Один из лучших продуктов Apple»: вышли обзоры MacBook Neo 10 ч.
Необретённые технологии: учёные нащупали путь к «идеальному стеклу» со свойствами алмаза и металлу со свойствами стекла 12 ч.
Groq увеличил заказ на производство ИИ-чипов у Samsung более чем в 1,5 раза 15 ч.
Гендиректор Phison: «ни денег, ни запасов не хватит» — цены на NAND продолжат расти астрономическими темпами 15 ч.
В ближайшие часы на Землю упадёт старый 600-кг спутник NASA — вероятность жертв и разрушений признана незначительной 15 ч.
Память для флагманов нового поколения: SK hynix готовит 16-гигабитные чипы LPDDR6 со скоростью 10,7 Гбит/c 16 ч.