Сегодня 15 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Steam стартовал фестиваль «Играм быть» с демоверсиями тысяч будущих хитов 32 мин.
«Яндекс» намерен научить ИИ считывать эмоции и чувства людей 2 ч.
У Don't Nod большие проблемы — разработчики Life is Strange, Remember Me и Jusant оказались на грани банкротства 3 ч.
Nintendo проговорилась, чего ждать от ремейка легендарной The Legend of Zelda: Ocarina of Time 4 ч.
Спустя два года после релиза Capcom удалит микротранзакции из Dragon’s Dogma 2 и снизит цену игры 5 ч.
В Великобритании полицейского уличили в фальсификации доказательств преступлений с помощью ИИ 11 ч.
«Кто купит Xbox и Game Pass ради Gears?»: инсайдер рассекретил «безумный» бюджет Gears of War: E-Day 11 ч.
Anthropic проведёт переговоры с властями США для разблокировки ИИ-моделей Mythos 5 и Fable 5 11 ч.
Авторитетный инсайдер подтвердил, когда выйдет God of War Laufey 12 ч.
В Steam завирусились виртуальные прятки Meccha Chameleon, где можно буквально слиться с окружением 13 ч.
Midea запустила акцию «Сорви летний куш» с розыгрышем поездки в Китай и других призов 3 ч.
Nvidia тоже залезет в долги ради финансирования ИИ — Хуанг готовит облигации на $20 млрд 4 ч.
SpaceX с помощью IPO привлекла $85,7 млрд — сумма выросла на 14 % за счёт «зелёного башмака» 4 ч.
Ирано-американская мирная сделка запустила рост акций Samsung, SK hynix и других IT-компаний из Азии 5 ч.
МТС вложит 1 млрд рублей в модернизацию ядра сети ШПД и установку маршрутизаторов собственной разработки 5 ч.
Индийские клиенты Google Cloud уже неделю мирятся со сбоями сети из-за пожара в ЦОД в Дели 5 ч.
MSI оценила портативную приставку Claw 8 EX AI+ на чипе Arc G3 Extreme в $1799 6 ч.
Google Chromebook исполнилось 15 лет — массовыми хромбуки не стали, но завоевали популярность в образовании 6 ч.
Samsung в следующем году запустит производство 4-нм чипов для мозговых имплантов Neuralink 6 ч.
Китайский автопроизводитель Seres представил человекоподобного робота Xiaosai — он умеет поддерживать беседу 6 ч.