Сегодня 20 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Nintendo объяснила, почему её разработчики игр демонстрируют высокую лояльность, в отличие от Microsoft Xbox 2 ч.
Экспериментальная ИИ-модель OpenAI достигла уровня золотого медалиста на Международной математической олимпиаде 2 ч.
Microsoft прекратит привлекать китайских инженеров для обслуживания облачных систем Пентагона 4 ч.
Новая статья: Patapon 1+2 Replay — в такт через раз. Рецензия 9 ч.
Intel прекратила поддержку фирменного дистрибутива Clear Linux OS 17 ч.
Intel прекратила разработку собственной версии Linux — дистрибутива Clear Linux OS 18 ч.
Все криптовалюты мира теперь стоят, как одна Nvidia: капитализация рынка достигла рекордных $4 трлн 19 ч.
DuckDuckGo научился скрывать в поиске изображения, сгенерированные ИИ 21 ч.
Российский суд впервые вернул работу уволенной из-за ИИ сотруднице 24 ч.
Microsoft прекратила продавать фильмы и шоу через свой фирменный магазин 19-07 07:13
Тесты показали, что тяговая батарея Volkswagen ID.3 Pro за четыре года сохраняет 91 % первоначальной ёмкости 2 ч.
Nikon предложила оборудование для обработки квадратных кремниевых пластин типоразмера 600 мм 3 ч.
С перезапуском производства ускорителей H20 для Китая у Nvidia возникнут проблемы 3 ч.
Некоторые Samsung Galaxy Z Fold7 оказались неспособны раскрыться полностью 8 ч.
Монополия дала трещину: ЕС заставил Corning изменить политику поставок Gorilla Glass 8 ч.
Рынок ПК показал максимальный рост за три года — лидером осталась Lenovo 12 ч.
Складной Samsung Galaxy Z Fold7 оказался дорогим в ремонте — замена экранов обойдётся в 61 % стоимости нового смартфона 18 ч.
Rockchip анонсировала ИИ-ускоритель RK182X с архитектурой RISC-V 19 ч.
Rockchip представила 10-ядерный Arm-процессор RK3668 с ИИ-модулем 19 ч.
Samsung похвалилась ажиотажным спросом на новые складные смартфоны — 210 000 заказов за двое суток только в Индии 19 ч.