Сегодня 09 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ИИ всё чаще пишет научные статьи — отличить от человеческих становится невозможно, и это пугает 2 ч.
ИИ-модель OpenAI GPT-5.5 оказалась в 1,5–2 раза дороже предшественницы 2 ч.
В ЕС назвали VPN лазейкой для обмана систем проверки возраста — и её хотят закрыть 4 ч.
Департамент DOGE Илона Маска использовал ChatGPT глупым и незаконным способом 4 ч.
Новая статья: Saros — исправление ошибок, которых не было. Рецензия 16 ч.
«Мощный инструмент, но не замена художников и творцов»: руководство Sony прояснило использование генеративного ИИ в играх PlayStation 17 ч.
Роскомнадзор заявил, что не ограничивал доступ к GitHub 20 ч.
Шпионский боевик 007 First Light от создателей Hitman получил системные требования для игры в 4K, а трассировку пути придётся подождать 21 ч.
Киберпанковый боевик No Law от создателей The Ascent не копирует Cyberpunk 2077 — разработчики ответили на вопросы игроков 22 ч.
ИИ теперь пишет 60 % нового кода Airbnb — и сам решает 40 % запросов в техподдержку 22 ч.
Китайцы научились из отходов и сточных вод одновременно получать водород и поглощать CO2 2 ч.
Sony призналась, что ещё не решила, когда и по какой цене выпустит PlayStation 6 2 ч.
Lian Li выпустила СЖО с 6,67-дюймовым изогнутым дисплеем — HydroShift II OLED Curved 360 AIO 2 ч.
Завершены первые огневые испытания новой версии ускорителя Super Heavy — SpaceX готова к запуску Starship V3 2 ч.
Слишком большой ЦОД для маленькой страны — создание гигаваттного дата-центра Microsoft в Кении застопорилось из-за нехватки электроэнергии 2 ч.
Mitsubishi Heavy Industries модернизирует производство газовых турбин, чтобы удовлетворить спрос операторов ИИ ЦОД 2 ч.
NASA испытало лопасти будущего марсианского вертолёта сверхзвуковой скоростью вращения 7 ч.
AMD впервые обогнала Intel по серверной выручке — бум ИИ-агентов взвинтил спрос на CPU 9 ч.
Грузовики Tesla Semi получили батареи меньшей ёмкости, чем планировалось, но на запасе хода это не сказалось 10 ч.
Акции Intel подскочили в цене на 14 % после появления информации о сделке с Apple 11 ч.