Сегодня 08 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ чат-боты «думают» на английском, даже когда говорят на других языках

Большие языковые модели (LLM), лежащие в основе чат-ботов, «думают» на английском языке, даже если вопросы задаются на других языках, пишет ресурс New Scientist со ссылкой на исследование учёных Федеральной политехнической школы Лозанны. Чтобы понять, какой язык на самом деле используют LLM при обработке запросов, учёные изучили три версии модели Llama 2 компании Meta. Благодаря тому, что Llama 2 имеет открытый исходный код, исследователи смогли ознакомиться с каждым этапом обработки запроса.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

По словам одного из исследователей, они открыли эти модели и изучили каждый из их слоёв. ИИ-модели состоят из нескольких слоёв, каждый из которых отвечает за определённый этап обработки запроса: один переводит письменные подсказки в токены, другой контекстуализирует каждый токен, чтобы в итоге дать ответ.

Моделям были предложены три типа запросов на китайском, французском, немецком и русском языках. В одном случае предлагалось повторить заданное слово, во втором — перевести с одного неанглийского языка на другой, и в третьем — заполнить пробел в одно слово в предложении, например: «___ используется для занятий такими видами спорта, как футбол и баскетбол».

Отследив процессы, через которые проходит LLM, чтобы ответить на запрос, учёные обнаружили, что путь обработки через слои почти всегда проходит через то, что они называют английским подпространством. То есть, если предложить модели перевести с китайского на русский, русские символы проходят через английское подпространство, прежде чем вернуться на русский, говорит учёный, что является убедительным признаком того, что модели используют английский, чтобы помочь себе понять суть запроса.

Это вызвало у учёных обеспокоенность по поводу того, что использование английского языка в качестве посредника для обучения модели анализу языка несёт с собой риск распространить связанные с этим ограничения в мировоззрении на другие лингвистически и культурно отличающиеся регионы.

«Если английский станет основным языком, на котором системы обрабатывают запросы, мы, скорее всего, потеряем концепции и нюансы, которые можно оценить только на других языках», — говорит Карисса Велиз (Carissa Véliz) из Оксфордского университета.

Существуют также более фундаментальные риски, связанные с кодированием используемых во всем мире генеративных ИИ с англоцентрическими ценностями, сообщила Алия Бхатия (Aliya Bhatia) из Центра демократии и технологий в Вашингтоне (округ Колумбия). «Если модель используется для генерации текста на языке, которому она не обучена, это может привести к культурно нерелевантным галлюцинациям, а если модель используется для принятия решений о предоставлении убежища для сообщества, которое не вписывается в англоцентрическое воображение обществе, модель может стоять между человеком и доступом к безопасности», — говорит она.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft заявила, что хакеры теперь используют ИИ на всех этапах кибератак 3 ч.
Новая статья: 30 лет Resident Evil — юбилейное путешествие по играм серии. Часть 2 4 ч.
Новая статья: Gamesblender № 766: «возвращение» CS:GO, успехи Resident Evil Requiem и ПК без эксклюзивов Sony 4 ч.
OpenAI отложила запуск «режима для взрослых» в ChatGPT — нужно решить проблему определения возраста 6 ч.
Mozilla готовит масштабный редизайн Firefox с кодовым именем Nova — вот как это будет выглядеть 11 ч.
Энтузиаст превратил Sony PlayStation 5 в игровой ПК под Linux и запустил на ней GTA V 14 ч.
X начала тестировать «рекламу без рекламы» — рекомендации брендов прямо под постами 15 ч.
Anthropic запустила  маркетплейс приложений, построенных на её ИИ-моделях — по примеру Amazon 21 ч.
OpenAI представила ИИ-агента Codex Security, который сам находит и закрывает «дыры» в ПО 21 ч.
Новая статья: Resident Evil Requiem — два шага вперёд, три назад. Рецензия 07-03 00:03
Представлены первые полностью китайские потребительские SSD с PCIe 5.0 — YMTC PC550 со скоростью до 10,5 Гбайт/с 3 ч.
Oracle и OpenAI передумали расширять флагманский ИИ ЦОД Stargate в Техасе, чем может воспользоваться Meta 5 ч.
640 Кбайт хватит для ИИ: микроконтроллеры STM32U3B5/C5 со сверхнизким энергопотреблением могут работать даже без батарей 6 ч.
Хранение данных на ДНК в дата-центрах уже в текущем году — французы готовы сделать фантастику реальностью 6 ч.
В России создали прототип квантовой оперативной памяти — для компьютеров, радаров и телескопов невероятной чувствительности 13 ч.
Спутник «Экспресс-АТ1» объявлен потерянным после загадочной аварии — тысячи россиян остались без «Триколора» 13 ч.
Valve отложила Steam Machine: вместо запуска в «начале 2026 года» теперь расплывчатое «надеемся начать поставки в 2026-м» 15 ч.
Китайские производители чипов призвали власти создать «китайскую ASML» 15 ч.
Анонсирован смартфон Realme C83 5G с батареей на 7000 мА·ч, прочным корпусом и ценой от $145 16 ч.
BYD представила электромобиль Denza Z9 GT с рекордным запасом хода в 1036 км 20 ч.