Сегодня 02 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Starbreeze в честь второй годовщины Payday 3 объявила об отмене обещанного офлайн-режима, о котором фанаты просили с самого релиза 26 мин.
Epic Games Store устроил раздачу неовикторианского выживания Nightingale от команды бывшего руководителя BioWare 3 ч.
Нелинейная партийная RPG Starfinder: Afterlight отправит в галактику, где соединились магия и технологии — новый геймплейный трейлер 5 ч.
Facebook и Instagram обязали вернуть хронологические ленты в качестве стандартных, но только в Нидерландах 6 ч.
Музыкальные лейблы будут лицензировать контент разработчикам для «этичного» обучения ИИ 6 ч.
Starbreeze отменила кооперативный экшен по Dungeons & Dragons ради Payday — «одной из самых знаковых франшиз в игровой индустрии» 6 ч.
Затраты — выше, безопасность — ниже: Google снова посетовала на заградительное лицензирование Microsoft 6 ч.
Сэма Альтмана поймали за руку при попытке украсть видеокарту — это самое популярное ИИ-видео в Sora 7 ч.
YouTube тестирует новый интерфейс мобильного приложения — реакция пользователей ожидаемо негативная 7 ч.
Суд США разрешил прокуратуре взломать Telegram, но у неё не получилось 9 ч.
Microsoft вложит $33 млрд в бывшую Yandex N.V. и другие «неоклауды», чтобы побороть дефицит мощностей для ИИ 22 мин.
RTX 5090 в 26 раз быстрее Radeon HD 5870: большой тест 180 видеокарт, вышедших с 2009 по 2025 год 27 мин.
У мозга появился конкурент — ДНК-компьютер с невероятно доступным источником питания 32 мин.
Microsoft потратит $33 млрд на доступ к 100+ тыс. NVIDIA GB300 в неооблаках, но со временем хочет перейти на свои ИИ-ускорители 2 ч.
В России начались продажи смартфонов Xiaomi 15T и 15T Pro с камерами Leica — от 54 990 рублей 3 ч.
Почти все новые iPhone разошлись лучше ожиданий — только одна модель не снискала популярности 4 ч.
HP представила 49-дюймовый офисный монитор Series 5 Pro с выдвижной веб-камерой и геймерскими характеристиками 4 ч.
Японцы научили ИИ видеть сквозь стены при помощи Wi-Fi 4 ч.
iPhone 17 Pro обвесили кулерами для SSD — и он выдержал стресс-тест почти без тротлинга 5 ч.
Продажи Tesla рванули до исторического рекорда, но впереди — резкий спад 5 ч.