Сегодня 14 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Google разорвёт отношения со Scale AI после её сближения с Meta 2 ч.
ChatGPT научился искать в интернете по картинкам и давать более точные ответы 2 ч.
Scale AI получила от Meta более $14 млрд, но потеряла гендиректора и рискует лишиться крупных контрактов с Gooogle, Microsoft, OpenAI и xAI 4 ч.
ChatGPT попросил сообщить журналистам, что он пытается «ломать» людей 4 ч.
Apple не намерена переводить iPad на macOS, несмотря на движение iPadOS к macOS 5 ч.
Используя методы из психиатрии, учёные обнаружили сходство мышления человека и искусственного интеллекта 7 ч.
Sony сдалась и вернула в продажу почти все свои игры в Steam для стран без поддержки PSN 9 ч.
Google начала тестировать ИИ-функцию, которая превращает результаты поиска в подкаст 10 ч.
YouTube может снизить скорость видео для пользователя при обнаружении блокировщиков рекламы 16 ч.
Meta переманила основателя Scale AI и получила 49 % акций стартапа за $14,3 млрд 16 ч.
AMD представила Pensando Pollara 400 — первую 400-Гбит/с сетевую карту стандарта Ultra Ethernet 11 мин.
Asus ROG Astral GeForce RTX 5090 Dhahab Edition с автографом Дженсена Хуанга продали на аукционе за $24 200 44 мин.
Китайские учёные изготовили уникальный радиотелескоп для исследования тёмной энергии 2 ч.
Тайвань отправил в тюрьму капитана китайского судна, обвинив его в умышленном повреждении подводного кабеля 2 ч.
Intel выпустит недорогой шестиядерник Core 5 120F для платформы LGA 1700 2 ч.
Samsung запускает производство телевизоров с подсветкой RGB MicroLED — дешёвой альтернативой microLED 2 ч.
Apple внесла iPhone XS в список винтажных гаджетов 4 ч.
AWS переведёт ещё 100 дата-центров на использование очищенных сточных вод для охлаждения 5 ч.
В Калифорнийском университете попробовали охлаждать процессоры мокрой тряпкой и добились теплоотвода 800 Вт 6 ч.
Sony не увидела угрозы в Nintendo Switch 2 — для «ярких впечатлений на большом экране» нужна быстрая PS5 6 ч.