Сегодня 03 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Бывший работник Bethesda показал 20 минут геймплея отменённой Prey 2 30 мин.
ИИ-блокнот Google NotebookLM научился спорить сам с собой в формате аудиообзоров 39 мин.
Конкуренты Google негодуют из-за того, что суд разрешил ей сохранить Chrome 42 мин.
Количество зрителей на Twitch упало до самого низкого уровня за 5 лет из-за борьбы с ботами 2 ч.
«Вы объявили об этом только из-за “Таркова”»: анонс скорого релиза эвакуационного шутера Arena Breakout: Infinite в Steam удивил игроков 2 ч.
ChatGPT получит родительский контроль и научится выявлять психологические проблемы у пользователей 2 ч.
Суд разрешил Google дальше платить Apple миллиарды за установку её поиска в Safari по умолчанию 2 ч.
Новый геймплейный трейлер раскрыл дату выхода Steel Century Groove — ритмической RPG про танцевальные дуэли бывших военных роботов 3 ч.
Илон Маск нашёл новую причину затянуть с выплатой выходных пособий уволенным сотрудникам Twitter 3 ч.
Европа передумала штрафовать Google за монополизм, чтобы не вызвать гнев Трампа 4 ч.
Acer представила килограммовый 16-дюймовый ноутбук Swift Air 16 с функциями ИИ 24 мин.
Tesla рассказала, кто покупает её автопилот — наибольшей популярностью FSD пользуется у владельцев дорогих моделей 50 % 40 мин.
Tesla представила четвёртый «Генеральный план», но так и не разобралась с предыдущими 42 мин.
FS представила оптические коммутаторы DCS-W и 800G LPO-трансивер для задач ИИ и НРС 2 ч.
SpaceX выполнила редкий запуск Falcon 9 с новой первой ступенью — созвездие Starlink пополнили 24 спутника 2 ч.
Intel потратила больше других чипмейкеров на исследования, но ей это не особо помогло 2 ч.
Ядерные отходы станут источником дефицитного трития для термоядерных реакторов 3 ч.
В чем уникальность зум-камеры HUAWEI Pura 80 Ultra? 4 ч.
Гибридный суперчип NVIDIA GB10 оказался технически самым совершенным в семействе Blackwell 4 ч.
«Фантомные» ИИ ЦОД ещё не построены, но уже мешают энергокомпаниям США 5 ч.