Сегодня 07 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Из-за ошибки в коде программа-вымогатель Nitrogen шифрует файлы жертв безвозвратно 11 ч.
Новая статья: Highguard — хаос с потенциалом. Рецензия 13 ч.
Названы 26 ключевых технологий, которые в ближайшие 5 лет получат широкое применение в российском бизнесе 15 ч.
«Death Stranding в XIII столетии»: игроков впечатлил геймплей симулятора монгольского средневекового курьера The Legend of Khiimori 16 ч.
Аутентичность и детализация: разработчики ремейка «Готики» рассказали, как оживляли мир и персонажей в игре 17 ч.
Пользователи устроили массовые протесты против отключения GPT-4o — он стал их другом, партнёром и наставником 17 ч.
Windows 11 научится передавать музыку сразу на несколько Bluetooth-наушников, но большинство ПК не будет поддерживать эту функцию 18 ч.
Team Cherry прокачала Hollow Knight для Switch 2, PS5, Xbox Series X и S, а ПК-версию снабдила поддержкой ультрашироких мониторов 19 ч.
Европа обвинила TikTok в том, что его бесконечная лента вызывает привыкание 20 ч.
Биткоин едва не провалился ниже $60 000, но отскочил 20 ч.
CATL начала установку морозоустойчивых натриевых батарей в предсерийные электромобили Changan 6 ч.
Через пять лет в космосе будет больше ЦОД, чем на Земле, как уверен Илон Маск 6 ч.
Капитализация бигтехов упала на $1 трлн на фоне опасений по поводу растущих расходов 7 ч.
Глава Nvidia заявил, что на ИИ можно прекрасно зарабатывать, поэтому и тратить на него сотни миллиардов долларов нормально 8 ч.
Спортивный электрокроссовер Xiaomi YU7 GT появился в базе MIIT 11 ч.
Threadripper Pro 9995WX разогнали до 5,3 ГГц без азота — крышку превратили в водоблок, добавили чиллер и 140 литров воды 15 ч.
SpaceX возобновила испытание мегаракеты Starship — новый полёт не за горами 17 ч.
Получено прямое доказательство причин неоднородности магнитного поля Земли — виноваты загадочные структуры в мантии 18 ч.
Время — деньги: SiTime отчиталась о росте на рынке ЦОД и объявила о покупке смежных активов Renesas Electronics 19 ч.
ИИ-пирамида: M5Stack представила мини-компьютер AI Pyramid Computing Box в необычном корпусе 19 ч.