Сегодня 06 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Lattice Semiconductor купила AMI, легендарного разработчика BIOS, за $1,65 млрд 13 мин.
В ChatGPT сменилась базовая модель — теперь это быстрая GPT-5.5 Instant, которая меньше галлюцинирует 2 ч.
Сумбурный платформер Dark Scrolls от создателей Gato Roboto и Gunbrella не заставит себя долго ждать — дата выхода и новый геймплей 4 ч.
Прочувствуй Kingdom Come: Deliverance 2 по-новому: Warhorse выпустила духи с запахом Индржиха 5 ч.
Anthropic представила ИИ-агентов для решения финансовых задач и работы с отчётностью 6 ч.
Классическую Diablo едва не загубила налоговая — как Blizzard спасла легендарную экшен-RPG 7 ч.
«Яндекс» потратит до 50 млрд рублей на выкуп акций — ради мотивации сотрудников 8 ч.
ИИ-бот Claude удалось «разговорить» до вредоносного кода и рецептов взрывчатки — хотя напрямую о них даже не спрашивали 8 ч.
Microsoft, xAI и Google согласились отдавать ИИ-модели властям США на проверку безопасности 9 ч.
Google повысила вознаграждение за обнаружение эксплойтов в Android до $1,5 млн 9 ч.
Новая статья: Обзор планшета DIGMA PRO Odyssey: самая бюджетная замена ноутбука 2 ч.
Intel расскажет о «кремниевых инновациях» и ИИ на выставке Computex 2026 2 ч.
Micron 6600 ION: самый ёмкий в мире QLC SSD вместимостью 245 Тбайт 3 ч.
Micron выпустила первый SSD ёмкостью 245 Тбайт — Micron 6600 ION для центров обработки данных 4 ч.
В Китае установили крупнейший в мире плавучий морской ветряк — с ротором площадью в семь футбольных полей 4 ч.
Актёр засветил грядущие наушники Sony WH-1000XX — премиальная модель обойдётся в $649 6 ч.
Bose представила линейку домашней акустики Lifestyle Ultra Collection — от $299 за колонку до $1099 за саундбар 7 ч.
Глава Nvidia: Китай не должен получать передовые ИИ-чипы Blackwell и Rubin — всё лучшее должно быть у США 8 ч.
По бумагам всё чисто: Малайзия стремительно становится хабом ИИ ЦОД, благодаря доступности чипов NVIDIA и лояльности к клиентам из Китая 9 ч.
Adata выпустила память с «бесконечным зеркалом» — XPG Novakey RGB DDR5 объёмом до 32 Гбайт и скоростью до 6400 МТ/с 9 ч.