Сегодня 26 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Критики вынесли вердикт шпионскому боевику 007 First Light — лучший «Джеймс Бонд» или Hitman для казуальных игроков? 11 мин.
С выходом нового патча для Escape from Tarkov игроки могут посетить «Ледокол» — атмосферную PvE-карту 2 ч.
Китай пресёк утечку ИИ-талантов за рубеж, запретив им выезд из страны без особого разрешения 3 ч.
Апокалипсис рабочих мест не наступил: Сэм Альтман признал, что переоценил опасность ИИ для рынка труда 5 ч.
Регулятор выдал планы Paradox на Lego-игру в серии Cities: Skylines — Lego Skylines 5 ч.
«Яндекс» запустит ИИ-генератор сайтов и веб-приложений по текстовому описанию 6 ч.
«На рынке так много нескончаемых видеоигр»: разработчики The Talos Principle 3 объяснили, почему третья часть станет последней в серии 6 ч.
Путь к чистоте священной машины: Owlcat раскрыла детали ключевой механики в аддоне «Неисчислимый музеон» для Warhammer 40,000: Rogue Trader 7 ч.
Президент Ирана подписал указ о восстановлении подключения страны к интернету — после почти трёх месяцев блокировки 8 ч.
Попытка не пытка: после отмены Contraband разработчики Just Cause взялись за ещё одну игру-сервис 8 ч.
Выручка xFusion, отделившейся из-за санкций от Huawei, за четыре года выросла шестикратно на фоне поддержки ИИ-отрасли государством 2 ч.
Европейский Arm-процессор SiPearl Rhea1 для суперкомпьютеров стал на шаг ближе к массовому выпуску 3 ч.
Особенности и цена умного кольца Oura Ring 5 раскрыты в преддверии анонса 3 ч.
Asus представила ROG Rapture GT-BN98 Pro — свой первый геймерский маршрутизатор с Wi-Fi 8 3 ч.
SpaceX готовит тарелку Starlink Mini на батарейках — она пригодится не только в походах 3 ч.
AOC представила AGON PRO AGP257FT — свой первый 1000-Гц монитор с Full HD 3 ч.
ИИ-бум расколол Samsung: сотрудники судятся из-за гигантских премий производителям чипов 4 ч.
Sennheiser представила полноразмерные наушники Momentum 5 Wireless с улучшенными шумоподавлением и автономностью 4 ч.
Представлен бюджетный смартфон Infinix Hot 70, который бледнеет в жару 4 ч.
SK hynix представила iHBM — память HBM со встроенным охлаждением ICE для будущих ИИ-чипов 7 ч.