Сегодня 07 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Энтузиаст превратил Sony PlayStation 5 в игровой ПК под Linux и запустил на ней GTA V 3 ч.
X начала тестировать «рекламу без рекламы» — рекомендации брендов прямо под постами 3 ч.
Anthropic запустила  маркетплейс приложений, построенных на её ИИ-моделях — по примеру Amazon 9 ч.
OpenAI представила ИИ-агента Codex Security, который сам находит и закрывает «дыры» в ПО 9 ч.
Новая статья: Resident Evil Requiem — два шага вперёд, три назад. Рецензия 16 ч.
Nintendo подала в суд на правительство США и потребовала возместить ущерб от пошлин Трампа — «с процентами» 17 ч.
Брутфорс уходит в прошлое: Cloudflare назвала ИИ и дипфейки главной проблемой года 18 ч.
Спецслужбы США и Европола накрыли LeakBase — один из крупнейших хакерских форумов в мире с 142 000 участников 19 ч.
Аналитики объяснили, почему эксклюзивы PlayStation продаются на ПК всё хуже и хуже 19 ч.
Вышла новая демоверсия Fallout: The New West — фанатского ремейка отменённой Fallout 3 на движке Fallout: New Vegas 21 ч.
У OpenAI и Oracle закончились деньги на расширение гигантского ИИ-дата-центра в Техасе 8 мин.
В России создали прототип квантовой оперативной памяти — для компьютеров, радаров и телескопов невероятной чувствительности 15 мин.
DJI заплатила $30 000 пользователю, случайно взломавшему 7000 роботов-пылесосов Romo 3 ч.
Valve отложила Steam Machine: вместо запуска в «начале 2026 года» теперь расплывчатое «надеемся начать поставки в 2026-м» 4 ч.
Китайские производители чипов призвали власти создать «китайскую ASML» 4 ч.
Анонсирован смартфон Realme C83 5G с батареей на 7000 мА·ч, прочным корпусом и ценой от $145 4 ч.
BYD представила электромобиль Denza Z9 GT с рекордным запасом хода в 1036 км 8 ч.
Власти США запретят закупку отдельных китайских полупроводниковых изделий для государственных нужд 8 ч.
Глава Google может получить до $692 млн, но лишь в случае успеха беспилотных такси Waymo 9 ч.
Термодинамику научили вычислять — энергоэффективность улетела в космос 15 ч.