Сегодня 01 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Yakuza Kiwami 3 & Dark Ties — вы чего наделали?! Рецензия 10 ч.
Хоррор-приключение Necrophosis получит расширенное издание и выйдет на консолях 15 ч.
YouTube запустил тест ИИ-ремиксов в Shorts: новые видео создаются из старых 15 ч.
Samsung отрезала опытным пользователям доступ к ряду ключевых инструментов в смартфонах Galaxy 15 ч.
Энтузиаст воссоздал Linux образца 1994 года с графическим интерфейсом в браузере 16 ч.
Google придумала, как защитить HTTPS от квантового взлома, не увеличивая размеры TLS-сертификатов 20 ч.
OpenAI уволила сотрудника за использование инсайдерской информации для ставок на рынках прогнозов 20 ч.
Ремейк Bloodborne от Bluepoint Games едва не стал реальностью — Sony проект одобрила, но был нюанс 22 ч.
OpenAI договорилась об использовании своих ИИ-моделей Пентагоном вместо Anthropic 28-02 08:12
Сотни сотрудников Google и OpenAI поддержали Anthropic в противостоянии с Пентагоном 28-02 07:15
Отчёт TSMC показал, что теперь Nvidia является крупнейшим клиентом компании, а не Apple 48 мин.
Акции Nvidia за неделю подешевели на 7 %, несмотря на неплохой квартальный отчёт 2 ч.
Заказы на выпуск 2-нм чипов у компании TSMC распределены на ближайшие пару лет 2 ч.
Huawei продемонстрирует суперкомпьютерные системы в Барселоне на MWC 2026 3 ч.
Hyundai инвестирует более $6 млрд в ИИ ЦОД, роботов, водородную и солнечную энергетику 10 ч.
Китайцы нашли путь к радиационно-стойкой электронике — они сделали её прозрачной для излучения 11 ч.
Xiaomi представила гиперкар Vision GT для Gran Turismo 7 — его покажут живьём на MWC 2026 11 ч.
НАТО вооружилось тараканами-киборгами — разведка станет незаметной, но уязвимой к тапку 13 ч.
JEDEC опубликовала спецификации флеш-памяти UFS 5.0 — до 10,8 Гбайт/с для самых быстрых смартфонов 15 ч.
Asus и Dell готовят доступные компьютеры с подпиской на облачную Windows 365 15 ч.