Сегодня 24 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
The MongolZ стала чемпионом EWC 2025 — первая победа монгольской команды на крупном турнире по Counter-Strike 2 6 ч.
Стартап Илона Маска открыл исходный код ИИ-модели Grok 2.5 и анонсировал открытие более мощной нейросети 9 ч.
Илон Маск договорился с уволенными в 2022 году сотрудниками Twitter о выплате им выходных пособий в досудебном порядке 16 ч.
МВД сообщает: из-за блокировки звонков в Telegram и WhatsApp мошенники переходят на Google Meet 22 ч.
Оценка Databricks выросла до $100 млрд после очередного раунда инвестиций, но на биржу компания не спешит 23 ч.
Новая статья: Sword of the Sea — красота неописуемая. Рецензия 23 ч.
Google открыла бесплатный доступ к генератору видео Veo 3, но только на эти выходные 23-08 16:39
Microsoft тестирует бесшовный перенос приложений между Android и Windows 11 23-08 13:07
Meta будет использовать генеративные алгоритмы Midjourney в своих продуктах 23-08 08:59
ИИ-бот OpenAI ChatGPT использует поисковик Google при генерации ответов на запросы пользователей 23-08 07:22
От резистора до ПК: производство российского IT-оборудования «Инферит» во Фрязино 32 мин.
SpaceX запустила космический грузовик Dragon — он доставит на МКС более 2 тонн продуктов, топлива и прочих грузов 12 ч.
В Китае начала работу зарядная станция для грузовиков совокупной мощностью 100 МВт 15 ч.
Foxconn отозвал около 300 китайских сотрудников с индийского предприятия 16 ч.
Правительственные вливания в капитал Intel не спасут компанию без крупных клиентов на новые техпроцессы 17 ч.
Вселенная подарила учёным ярчайший быстрый радиовсплеск в соседней галактике 23-08 19:13
Первые прототипы ускорителей Nvidia Rubin готовы и проходят квалификационные тесты 23-08 17:34
Aoostar готовит десктопные материнские платы на мобильных процессорах AMD Ryzen 9 9955HX и 9955HX3D 23-08 16:29
Секреты коричневых карликов поможет раскрыть уникальная система из четырёх звёзд 23-08 15:46
Sony возобновит продажи смартфонов Xperia 1 VII в Европе 23-08 14:28