Сегодня 22 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → обучение
Быстрый переход

Учёные MIT подсмотрели у больших языковых моделей ИИ эффективный метод обучения роботов

Исследователи из Массачусетского технологического института (MIT) разработали собственный метод обучения роботов новым навыкам. Вместо стандартного набора сфокусированных данных, которые обычно используются при обучении роботов, они задействовали большие массивы данных, тем самым имитируя процесс обучения больших языковых моделей (LLM).

 Источник изображения: MIT

Источник изображения: MIT

По мнению исследователей из MIT, имитационное обучение, когда робот учится на действиях человека, выполняющего ту или иную задачу, может оказаться неэффективным при несущественном изменение окружающей обстановки. К примеру, у робота могут возникнуть трудности после обучения, если он попадёт в обстановку с другим освещением или предметами.

В своей работе исследователи задействовали разные LLM, такие как GPT-4, чтобы повысить качество обучения методом перебора данных. «В области языковых моделей все данные — это просто предложения. В робототехнике, учитывая всю неоднородность данных, если вы хотите проводить предварительное обучение аналогичным образом, то потребуется другая архитектура», — рассказал один из авторов исследования Лируй Ванг (Lirui Wang).

Исследователи разработали новую архитектуру под названием Heterogeneous Pretrained Transformers (HPT), которая объединяет информацию, получаемую от разных датчиков и из разных сред. Собираемые таким образом данные объединяются в обучаемые модели с помощью «трансформера». Конечному пользователю нужно лишь указать дизайн робота, его конфигурацию и навык, которому он должен обучиться.

«Мы мечтаем о создании универсального мозга робота, который можно было бы загрузить и использовать в своём роботе без какого-либо обучения. Пока мы находимся на ранних стадиях, но мы собираемся продолжать упорно работать и надеемся, что масштабирование приведёт к прорыву в робототехнике, как это было с большими языковыми моделями», — рассказал один из авторов исследования Дэвид Хелд (David Held).

Google представила Learn About — инструмент интерактивного обучения на базе искусственного интеллекта

Компания Google без лишнего шума представила новый образовательный сервис на основе искусственного интеллекта под названием Learn About, анонс которого состоялся на прошедшей в мае конференции Google I/O. Сервис призван изменить подход к обучению чему-либо, превращая этот процесс в увлекательный диалог вместо стандартного чтения текста и просмотра сопутствующих изображений.

 Источник изображения: maginative.com

Источник изображения: maginative.com

Инструмент Learn About ориентирован на людей, которые регулярно используют поисковые системы для изучения чего-то нового. Однако в данном случае на смену традиционным методам обучения, в которых информация преподносится статично в процессе чтения текста и просмотра изображений, приходит метод, предлагающий персонализированное интерактивное обучение.

В некотором смысле новый сервис можно назвать своеобразным виртуальным репетиром, которому можно задавать вопросы или предоставлять собственные материалы. Возможно изучение специально подобранных тем широкого спектра, начиная от повседневных вопросов и заканчивая сложными академическими предметами. Алгоритмы на базе нейросетей генерируют контент, который поможет разобраться в теме, связать основные понятия, углубить понимание вопроса. Learn About объединяется традиционный обучающий контент, такой как видео, статьи и изображения, с возможностями искусственного интеллекта, и позиционируется Google как новый вид цифрового помощника по обучению.

Learn About обладает большим потенциалом, но Google даёт понять, что на данном этапе это всё ещё эксперимент, поскольку сервис может предоставлять неточную или вводящую в заблуждение информацию. Пользователям рекомендуется проверять факты и оставлять отзывы по итогам взаимодействия с сервисом. Отмечается, что на данный момент Learn About не сохраняет данные о взаимодействии с пользователями, история чата исчезнет, как только будет закрыта веб-страница.

«Больше, чем у кого-либо»: Цукерберг похвастался системой с более чем 100 тыс. Nvidia H100 — на ней обучается Llama 4

Среди американских IT-гигантов зародилась новая забава — соревнование, у кого больше кластеры и твёрже уверенность в превосходстве своих мощностей для обучения больших языковых моделей ИИ. Лишь недавно глава компании Tesla Илон Маск (Elon Musk) хвастался завершением сборки суперкомпьютера xAI Colossus со 100 тыс. ускорителей Nvidia H100 для обучения ИИ, как об использовании более 100 тыс. таких же ИИ-ускорителей сообщил глава Meta✴ Марк Цукерберг (Mark Zuckerberg).

 Источник изображения: CNET/YouTube

Источник изображения: CNET/YouTube

Глава Meta✴ отметил, что упомянутая система используется для обучения большой языковой модели нового поколения Llama 4. Эта LLM обучается «на кластере, в котором используется больше 100 000 графических ИИ-процессоров H100, и это больше, чем что-либо, что я видел в отчётах о том, что делают другие», — заявил Цукерберг. Он не поделился деталями о том, что именно уже умеет делать Llama 4. Однако, как пишет издание Wired со ссылкой на заявление главы Meta✴, их ИИ-модель обрела «новые модальности», «стала сильнее в рассуждениях» и «значительно быстрее».

Этим комментарием Цукерберг явно хотел уколоть Маска, который ранее заявлял, что в составе его суперкластера xAI Colossus для обучения ИИ-модели Grok используются 100 тыс. ускорителей Nvidia H100. Позже Маск заявил, что количество ускорителей в xAI Colossus в перспективе будет увеличено втрое. Meta✴ также ранее заявила, что планирует получить до конца текущего года ИИ-ускорители, эквивалентные более чем полумиллиону H100. Таким образом, у компании Цукерберга уже имеется значительное количество оборудования для обучения своих ИИ-моделей, и будет ещё больше.

Meta✴ использует уникальный подход к распространению своих моделей Llama — она предоставляет их полностью бесплатно, позволяя другим исследователям, компаниям и организациям создавать на их базе новые продукты. Это отличает её от тех же GPT-4o от OpenAI и Gemini от Google, доступных только через API. Однако Meta✴ всё же накладывает некоторые ограничения на лицензию Llama, например, на коммерческое использование. Кроме того, компания не сообщает, как именно обучаются её модели. В остальном модели Llama имеют природу «открытого исходного кода».

С учётом заявленного количества используемых ускорителей для обучения ИИ-моделей возникает вопрос — сколько электричества всё это требует? Один специализированный ускоритель может съедать до 3,7 МВт·ч энергии в год. Это означает, что 100 тыс. таких ускорителей будут потреблять как минимум 370 ГВт·ч электроэнергии — как отмечается, достаточно для того, чтобы обеспечить энергией свыше 34 млн среднестатистических американских домохозяйств. Каким образом компании добывают всю эту энергию? По признанию самого Цукерберга, со временем сфера ИИ столкнётся с ограничением доступных энергетических мощностей.

Компания Илона Маска, например, использует несколько огромных мобильных генераторов для питания суперкластера из 100 тыс. ускорителей, расположенных в здании площадью более 7000 м2 в Мемфисе, штат Теннесси. Та же Google может не достичь своих целевых показателей по выбросам углерода, поскольку с 2019 года увеличила выбросы парниковых газов своими дата-центрами на 48 %. На этом фоне бывший генеральный директор Google даже предложил США отказаться от поставленных климатических целей, позволив компаниям, занимающимся ИИ, работать на полную мощность, а затем использовать разработанные технологии ИИ для решения климатического кризиса.

Meta✴ увильнула от ответа на вопрос о том, как компании удалось запитать такой гигантский вычислительный кластер. Необходимость в обеспечении растущего объёма используемой энергии для ИИ вынудила те же технологические гиганты Amazon, Oracle, Microsoft и Google обратиться к атомной энергетике. Одни инвестируют в разработку малых ядерных реакторов, другие подписали контракты на перезапуск старых атомных электростанций для обеспечения растущих энергетических потребностей.

OSI ввела строгие стандарты открытости для Meta✴ Llama и других ИИ-моделей

Open Source Initiative (OSI), десятилетиями определяющая стандарты открытого программного обеспечения (ПО), ввела определение для понятия «открытый ИИ». Теперь, чтобы модель ИИ считалась действительно открытой, OSI требует предоставления доступа к данным, использованным для её обучения, полному исходному коду, а также ко всем параметрам и весам, определяющим её поведение. Эти новые условия могут существенно повлиять на технологическую индустрию, поскольку такие ИИ-модели, как Llama компании Meta✴ не соответствуют этим стандартам.

 Источник изображения: BrianPenny / Pixabay

Источник изображения: BrianPenny / Pixabay

Неудивительно, что Meta✴ придерживается иной точки зрения, считая, что подход OSI не учитывает особенностей современных ИИ-систем. Представитель компании Фейт Айшен (Faith Eischen) подчеркнула, что Meta✴, хотя и поддерживает многие инициативы OSI, не согласна с предложенным определением, поскольку, по её словам, «единого стандарта для открытого ИИ не существует». Она также добавила, что Meta✴ продолжит работать с OSI и другими организациями, чтобы обеспечить «ответственное расширение доступа к ИИ» вне зависимости от формальных критериев. При этом Meta✴ подчёркивает, что её модель Llama ограничена в коммерческом применении в приложениях с аудиторией более 700 млн пользователей, что противоречит стандартам OSI, подразумевающим полную свободу её использования и модификации.

Принципы OSI, определяющие стандарты открытого ПО, на протяжении 25 лет признаются сообществом разработчиков и активно им используются. Благодаря этим принципам разработчики могут свободно использовать чужие наработки, не опасаясь юридических претензий. Новое определение OSI для ИИ-моделей предполагает аналогичное применение принципов открытости, однако для техногигантов, таких как Meta✴, это может стать серьёзным вызовом. Недавно некоммерческая организация Linux Foundation также вступила в обсуждение, предложив свою трактовку «открытого ИИ», что подчёркивает возрастающую значимость данной темы для всей ИТ-индустрии.

Исполнительный директор OSI Стефано Маффулли (Stefano Maffulli) отметил, что разработка нового определения «открытого ИИ» заняла два года и включала консультации с экспертами в области машинного обучения (ML) и обработки естественного языка (NLP), философами, представителями Creative Commons и другими специалистами. Этот процесс позволил OSI создать определение, которое может стать основой для борьбы с так называемым «open washing», когда компании заявляют о своей открытости, но фактически ограничивают возможности использования и модификации своих продуктов.

Meta✴ объясняет своё нежелание раскрывать данные обучения ИИ вопросами безопасности, однако критики указывают на иные мотивы, среди которых минимизация юридических рисков и сохранение конкурентного преимущества. Многие ИИ-модели, вероятно, обучены на материалах, защищённых авторским правом. Так, весной The New York Times сообщила, что Meta✴ признала наличие такого контента в своих данных для обучения, поскольку его фильтрация практически невозможна. В то время как Meta✴ и другие компании, включая OpenAI и Perplexity, сталкиваются с судебными исками за возможное нарушение авторских прав, ИИ-модель Stable Diffusion остаётся одним из немногих примеров открытого доступа к данным обучения ИИ.

Маффулли видит в действиях Meta✴ параллели с позицией Microsoft 1990-х годов, когда та рассматривала открытое ПО как угрозу своему бизнесу. Meta✴, по словам Маффулли, подчёркивает объём своих инвестиций в модель Llama, предполагая, что такие ресурсоёмкие разработки по силам немногим. Использование Meta✴ данных обучения в закрытом формате, по мнению Маффулли, стало своего рода «секретным ингредиентом», который позволяет корпорации удерживать конкурентное преимущество и защищать свою интеллектуальную собственность.

Крупнейшие сайты интернета запретили Apple собирать их данные для обучения ИИ

Одним из источников данных для обучения систем генеративного искусственного интеллекта являются общедоступные веб-ресурсы. Apple предоставила их владельцам возможность отказаться от сбора данных для обучения системы Apple Intelligence, и многие из крупнейших ресурсов этой возможностью воспользовались. Среди них значатся Facebook✴ и Instagram✴, а также крупные новостные и медийные ресурсы, включая New York Times и The Atlantic.

В течение последних лет Apple применяла веб-сканер под названием AppleBot — собранные им данные использовались для обучения Siri и поисковой машины Spotlight. А совсем недавно компания подключила к AppleBot и Apple Intelligence. Это спорная практика, поскольку современный ИИ вольно обходится с защищёнными авторским правом материалами — в узких областях, где материалов вообще не так много, системы почти без изменений цитируют целые абзацы.

Apple уверяет, что производит сбор информации с учётом этических норм, отсеивая персональные данные, пользуясь только лицензированными материалами и общедоступными данными, которые поступают от сканера AppleBot. Чтобы дать веб-мастерам возможность отказаться от сбора информации только для обучения ИИ, компания использовала псевдоним Applebot-Extended — стандартная поисковая индексация при запрете этого псевдонима остаётся.

Отказ осуществляется внесением соответствующей директивы в общедоступный на веб-ресурсах файл robots.txt, а значит, у любого желающего есть возможность увидеть, кто из издателей заблокировал к себе доступ Apple Intelligence. Это сделали Facebook✴, Instagram✴, Craigslist, Tumblr, New York Times, Financial Times, The Atlantic, Vox Media, сеть USA Today и Condé Nast, установил журнал Wired. Чуть более четверти крупных американских новостных сайтов (294 из 1167) отказались пускать к себе ИИ от Apple, уточнил журналист Бен Уэлш (Ben Welsh).

По неподтверждённой информации, Apple заключила с некоторым медиакомпаниями сделки, заплатив им за право использовать их материалы для обучения ИИ. Вероятно, эти соображения сдерживают и остальные ресурсы — они просто ждут денег.

Tesla ищет тех, кто готов ходить по полдня с 13-кг грузом за $48 в час — для обучения роботов Optimus

В следующем году, как обещает гендиректор Tesla Илон Маск (Elon Musk), компания начнёт использовать человекоподобных роботов Optimus для внутренних операций с последующим запуском массового производства для поставок сторонним компаниям в 2026 году. В связи с этим в течение последнего года Tesla наняла десятки тренеров для обучения роботов, пишет TechSpot.

 Источник изображения: TechSpot

Источник изображения: TechSpot

Согласно разделу вакансий на сайте Tesla, работа оператора по сбору данных в подразделении компании в Пало-Альто подразумевает использование костюма для захвата движений и гарнитуры виртуальной реальности во время выполнения определённых движений.

Также указано, что претенденты на вакансию должны быть в хорошей физической форме, поскольку обязанности тренера предполагают ходьбу более семи часов в день с переноской до 30 фунтов (13,6 кг). Рост претендента должен составлять 170–180 см, чтобы надеть костюм для захвата движения и комфортно работать в среде виртуальной реальности в течение длительного времени, что может вызывать у некоторых людей тошноту. По словам Маска, высота Optimus будет около 173 см, отсюда такие требования к росту.

В числе требований к претендентам также указано умение стоять, сидеть, ходить, наклоняться, сгибаться, тянуться, приседать и поворачиваться в течение дня. Тренеры должны будут анализировать собираемую ими информацию и готовить отчёты. Работать они будут по гибкому графику днём/ночью с одним выходным и со сверхурочной работой при необходимости. Оплата составляет от $25 до $48 в час с выплатой премий и предоставлением льгот.

По словам Маска, несколько роботов Optimus уже работают на заводе Tesla во Фримонте, где они занимаются переноской аккумуляторных ячеек и укладкой их в транспортные контейнеры.

«Яндекс» ищет тренеров для обучения YandexGPT переводу текста с изображений, аудио- и видеофайлов

Нейросеть YandexGPT научат распознавать и переводить текст с изображений, аудио- и видеофайлов, пишут «Ведомости» со ссылкой на описание вакансии AI-тренера, опубликованной на сайте компании «Яндекс». По словам источника ресурса, близкого к «Яндексу», предполагается нанять около десятка специалистов такого профиля.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

Как указано в описании вакансии, в обязанности тренера входит обучение генеративной модели, создавая собственные эталонные примеры, а также оценка качества перевода и обучение нейросети распознаванию и переводу текста с изображений и видео.

В начале 2023 года «Яндекс» объявляла набор AI-тренеров для обучения моделей семейства YandexGPT, напомнил представитель компании. Но если тогда принимали на работу специалистов гуманитарного направления, умеющих работать с русскоязычными текстами, то сейчас речь идёт о специалистах, ориентирующихся в узкоспециализированных тематиках, чтобы точечно углубить знания ИИ-модели. Например, они должны разбираться в терминологии самых разных направлений — от физики до юриспруденции, сообщил представитель «Яндекса».

Гендиректор Dbrain, автор Telegram-канала AI Happens Алексей Хахунов отметил, что в машинном обучении самыми важными критерии являются чистота и качество данных. По словам Хахунова, для обучения современных моделей нужны два типа специалистов: нейролингвисты, которые знают, как работают нейросети и могут создавать современные алгоритмы — в первую очередь машинных переводов, и специалисты, в совершенстве владеющие несколькими языками, что позволяет создавать пары между различными языками.

При этом нужно делать не дословный перевод, а собирать семантически близкие виды переводов. «Одни и те же фразы по смыслу могут звучать по-разному на разных языках, и важно, чтобы переводчик опирался на глубокое понимание языка, а не на дословный перевод», — пояснил эксперт.

С ним согласился эксперт Альянса искусственного интеллекта Андрей Комиссаров, по словам которого, проблема в том, что на большом количестве языков нейросети делают дословный перевод, поскольку не ощущают тонкостей языка и не могут работать с фразеологизмами. «В данном случае речь идёт о дообучении модели. Для этого необходимо чутье языка», — отметил он.

Сейчас с переводом у нейросетей дела идут по-разному. «Если с английским языком машина более-менее справляется, то в случае с китайским, если перевести текст туда и обратно, он фактически превратится в бессвязный набор слов», — сообщил Комиссаров.

У OpenAI почти готов революционный ИИ Strawberry — он умеет планировать и рассуждать

OpenAI разрабатывает систему искусственного интеллекта, в которой применяется новый подход — проект носит кодовое название Strawberry. Отличием новой модели является её способность рассуждать. Об этом сообщает Reuters со ссылкой на внутренний документ OpenAI, с которым ещё в мае ознакомились журналисты агентства.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

Точную дату документа установить не удалось, но в нём подробно изложено, как компания намеревается использовать Strawberry для проведения исследований — сейчас модель находится в процессе разработки, сообщил источник издания. Не удалось также установить, насколько модель Strawberry близка к выходу в общий доступ. Она засекречена, и доступ к ней строго охраняется даже внутри OpenAI. В документе описан проект, в рамках которого Strawberry не просто даёт ответы на вопросы, а составляет план для автономной навигации ИИ в интернете для выполнения некоего «глубокого исследования».

В OpenAI отмалчиваться или отрицать существование проекта не стали. «Хотим, чтобы наши модели ИИ видели и понимали мир так же, как мы. Непрерывное исследование новых возможностей ИИ — обычная практика в отрасли, и мы разделяем уверенность, что в будущем эти системы будут совершенствовать свои способности рассуждать», — заявил представитель компании. Работа над проектом велась ещё в прошлом году, но тогда он назывался Q* («Q со звёздочкой»), а инцидент с увольнением Сэма Альтмана (Sam Altman) произошёл вскоре после его запуска и получения первых результатов. Двое сотрудников OpenAI сообщили о том, как в этом году стали свидетелями демонстраций возможностей Q* — модель успешно отвечала на сложные научные вопросы и справлялась с математическими задачами.

 Источник изображения: Lukas / pixabay.com

Источник изображения: Lukas / pixabay.com

Во вторник в компании прошло внутреннее общее собрание, на котором был показан некий исследовательский проект — ИИ с новыми навыками рассуждения, подобными человеческим. Представитель OpenAI подтвердил факт проведения встречи, но отказался рассказать, что на ней было; Reuters не удалось установить, шла ли речь о проекте Strawberry. Предполагается, что система нового поколения задаст новую планку в аспекте способности ИИ рассуждать — это стало возможным благодаря новому способу обработки модели, которая была предварительно обучена на очень больших наборах данных.

В последние месяцы OpenAI в конфиденциальном порядке давала понять разработчикам и другим сторонним лицам, что находится на пороге выпуска технологии, связанной со значительно более продвинутыми способностями ИИ к рассуждениям, утверждают анонимные источники. Особенностью Strawberry является уникальная методика обработки системы ИИ после процедуры обучения — чаще всего под ней подразумевается «тонкая настройка» модели. В случае Strawberry речь идёт о сходстве с методом StaR (Self-Taught Reasoner), который был разработан в 2022 году в Стэнфордском университете (США): он описывает самообучение ИИ и итеративную подготовку моделью собственных наборов данных для последующего дополнительного обучения — эта схема в теории может использоваться для создания модели ИИ, которая превзойдёт интеллект человеческого уровня.

Важнейшей способностью Strawberry является выполнение задач, которые требуют планирования наперёд и выполнения ряда действий в течение длительного периода времени. Для этого в OpenAI проводятся создание, обучение и оценка моделей на данных «глубокого исследования» — состав этого набора данных и продолжительность периода, на который ИИ составляется план, журналистам установить не удалось. Такая модель реализует собственные исследовательские проекты, в автономном режиме осуществляя веб-серфинг при помощи специального агента — пользователя компьютера (Сomputer-Using Agent, CUA). В рамках проверки работы такая модель будет выполнять задачи, которые поручаются инженерам по ПО и машинному обучению.

Робоэкскаватор обучили прицельно швырять камни

Опытным экскаваторщикам знаком трюк, который позволяет отправлять содержимое ковша за пределы досягаемости стрелы. Наделённый нейросетью робоэкскаватор оказался прилежным учеником, который также смог освоить прицельное метание камней дальше зоны досягаемости стрелы. На очереди швыряние сыпучих материалов и повышение точности для работы ковшом на разных высотах.

 Источник изображения: ETH Zürich

Источник изображения: ETH Zürich

О процессе обучения нейросети робоэкскаватора для точного манипулирования содержимым ковша сообщили исследователи из Швейцарии (ETH Zürich). Нейросеть на основе обучения с подкреплением была обучена бросать мяч и камни в указанную точку, которая была дальше досягаемости стрелы (до 9,5 м при дальности захвата стрелой 7,5 м). Подобные операции помогут робототехнике справляться с большим кругом задач с меньшими затратами энергии на перемещения, а также сделают её работу более безопасной.

Экскаватор совершал захват и броски ковшом с двумя степенями свободы, который не был жёстко закреплён на стреле. Броски совершались как по прямой, когда в работе была одна только стрела, так и с поворотом кабины. Во втором случае точность была чуть меньше, но в любом случае снаряд отклонялся от точки прицеливания не более чем на 30–40 см.

Исследователи обучали нейросеть на базе модернизированного 12-т колёсного экскаватора Menzi Muck M545. Ранее они обучили экскаватор ряду нетривиальных операций, например, научив его строить устойчивую стену из неподготовленных каменных блоков. Экскаватор сам оценивал баланс камней и строил прочное каменное ограждение. Для точных автономных работ на местности экскаватор с помощью установленных на него датчиков строит модель окружающего пространства, в котором выполняет заданные операции.

Часть субсидий в США по «Закону о чипах» будет направлена на подготовку кадров для отрасли

На новых предприятиях по выпуску чипов, которые построят в США местные и зарубежные компании при помощи государственных субсидий, появятся многочисленные вакансии, которые нужно будет заполнять местными специалистами. Обеспечить их подготовку в адекватных количествах помогут средства, выделяемые властями в рамках «Закона о чипах», как поясняет Bloomberg.

 Источник изображения: Micron Technology

Источник изображения: Micron Technology

По некоторым оценкам, дефицит специалистов технического профиля в американской полупроводниковой отрасли к 2030 году будет измеряться 90 000 человек, и чтобы покрыть его хотя бы частично, потребуется финансировать их подготовку не только за счёт частных компаний, но и государства. По информации Bloomberg, намеревающиеся построить новые предприятия в США компании Intel, Samsung, TSMC и Micron готовы потратить на соответствующие нужды по $40–50 млн каждая.

Дополнительно власти США собираются направить на финансирование десяти образовательных программ для полупроводниковой отрасли от $500 000 до $2 млн в каждом случае. Эти средства будут изысканы из тех $5 млрд, которые власти страны намерены направить на создание и развитие Национального центра полупроводниковых технологий. С момента подписания в 2022 году «Закона о чипах» около 50 муниципальных образовательных учреждений в США ввели в свои учебные планы программы подготовки специалистов для полупроводниковой отрасли. Попутно был объявлен претендент на получение 12-го гранта на строительство предприятия по производству чипов в США. Им оказалась компания Rogue Valley Microdevices из Флориды, которая построит на территории штата предприятие по выпуску чипов, применяемых как в оборонной сфере, так и в сегменте биотехнологий.

YouTube пытается договориться со звукозаписывающими лейблами об ИИ-клонировании голосов артистов

После дебюта в прошлом году инструментов генеративного ИИ, создающих музыку в стиле множества известных исполнителей, YouTube приняла решение платить Universal Music Group (UMG), Sony Music Entertainment и Warner Records паушальные взносы в обмен на лицензирование их песен для легального обучения своих инструментов ИИ.

 Источник изображения: Pixabay

Источник изображения: Pixabay

YouTube сообщила, что не планирует расширять возможности инструмента Dream Track, который на этапе тестирования поддерживали всего десять артистов, но подтвердила, что «ведёт переговоры с лейблами о других экспериментах». Платформа стремится лицензировать музыку исполнителей для обучения новых инструментов ИИ, которые YouTube планирует запустить позднее в этом году. Суммы, которые YouTube готова платить за лицензии, не разглашаются, но, скорее всего, это будут разовые (паушальные) платежи, а не соглашения, основанные на роялти.

Информация о намерениях YouTube появились всего через несколько дней после того, как Ассоциация звукозаписывающей индустрии Америки (RIAA), представляющая такие звукозаписывающие компании, как Sony, Warner и Universal, подала отдельные иски о нарушении авторских прав против Suno и Udio — двух ведущих компаний в области создания музыки с использованием ИИ. По мнению RIAA, их продукция произведена с использованием «нелицензионного копирования звукозаписей в массовом масштабе». Ассоциация требует возмещения ущерба в размере до $150 000 за каждое нарушение.

Недавно Sony Music предостерегла компании, занимающиеся ИИ, от «несанкционированного использования» её контента, а UMG была готова временно заблокировать весь свой музыкальный каталог в TikTok. Более 200 музыкантов в открытом письме призвали технологические компании прекратить использовать ИИ для «ущемления и обесценивания прав занимающихся творчеством людей».

Reddit введёт жёсткие меры против сборщиков контента для обучения ИИ

Администрация платформы Reddit заявила, что обновит исключения для роботов (файл robots.txt), которые сообщают веб-ботам о разрешении или запрете сканировать сайт и его разделы. Ресурс также примет меры для фактического ограничения доступа некоторым ботам.

 Источник изображения: redditinc.com

Источник изображения: redditinc.com

Традиционно файл robots.txt использовался для того, чтобы помочь поисковым системам правильно сканировать сайт. Но с развитием систем искусственного интеллекта появились боты, которые выкачивают контент сайтов целиком для обучения моделей без указания источника этого контента. Поэтому вместе с обновлением файла robots.txt администрация Reddit продолжит ограничивать скорость неизвестных ботов и блокировать их доступ к платформе — меры будут приниматься, если эти системы не будут соблюдать «Политику открытого контента» (Public Content Policy) на сайте.

Новый режим работы не должен повлиять на большинство пользователей и добросовестных участников ресурса, включая исследователей и некоммерческие организации вроде Internet Archive, сообщили в администрации Reddit. Меры вводятся лишь для того, чтобы не позволить другим компаниям обучать большие языковые модели ИИ на контенте платформы. Администрация ресурса опубликовала заявление после того, как стало известно, что ИИ-стартап Perplexity занимается сбором контента вопреки директивам robots.txt — гендиректор компании Аравинд Шринивас (Aravind Srinivas) заявил, что эти директивы не являются правовым обязательством.

Предстоящие изменения Reddit не затронут партнёров, которые заключили соглашения с платформой: Google и OpenAI обучают свои модели ИИ на контенте ресурса на возмездной основе. В прошлом году Reddit для защиты от неправомерного сбора контента ввела плату за доступ к API, что вызвало массовые протесты среди пользователей.

Adobe прописала явный самозапрет обучать ИИ на материалах клиентов, но есть исключение

В последние недели Adobe пришлось отбиваться от резко негативной реакции пользователей на новую редакцию условий обслуживания — теперь компания пытается исправить ситуацию. Накануне она опубликовала изменённый вариант своего соглашения об условиях обслуживания, в котором чётко указала, что она не будет обучать искусственный интеллект на контенте пользователя, который хранится локально или в облаке.

 Источник изображения: Rubaitul Azad / unsplash.com

Источник изображения: Rubaitul Azad / unsplash.com

Раздел документа, определяющий доступ Adobe к пользовательскому контенту, теперь включает несколько категорий, одна из которых посвящена генеративному ИИ. Теперь в условиях обслуживания прямо говорится, что ПО компании «не будет использовать ваш локальный или облачный контент для обучения генеративного ИИ». За одним исключением: если материал пользователя отправлен на площадку Adobe Stock, то компания сохраняет за собой право использовать его для обучения своей нейросети Firefly.

Новая редакция документа, подчёркивает директор Adobe по стратегическим вопросам Скотт Бельски (Scott Belsky), на деле не меняет ничего — ранее позиция компании в отношении обучения ИИ не была чётко изложена ранее, что привело к недопониманию. «Мы прямо заявили, что не будем обучать генеративный ИИ на вашем контенте. Это всегда было политикой нашей компании. Мы всегда заявляли об этом очень ясно, но никогда не говорили об этом явным образом», — заявил господин Бельски ресурсу The Verge.

Документ в новой редакции также учитывает обеспокоенность пользователей по поводу сканирования компанией контента, который создавался в соответствии с соглашением о неразглашении (NDA) — компания заверила, что «не сканирует и не просматривает» содержимое материалов, хранящихся локально на компьютере пользователя. Но она производит автоматическое сканирование контента в облаке на предмет незаконных материалов — если система сообщает об обнаружении таких материалов, либо если пользователь участвует в программах тестирования предварительных версий ПО или улучшения продуктов, контент в облаке может просмотреть работник компании.

Только европейцы смогут запретить Meta✴ использовать свой контент из соцсетей для обучения ИИ

Компания Meta✴, которая владеет Facebook✴, Instagram✴ и WhatsApp, дала себе право обучать модели искусственного интеллекта на публикациях всех пользователей, но только аудитории из Евросоюза предоставлена привилегия отказать компании в доступе к своим материалам.

 Источник изображения: NoName_13 / pixabay.com

Источник изображения: NoName_13 / pixabay.com

Гигант соцсетей не стал включать материалы европейских пользователей в массив данных для обучения ИИ, вероятно, чтобы не нарушать действующих в регионе жёстких норм в отношении конфиденциальности граждан. «Чтобы обслуживать наши европейские сообщества должным образом, обеспечивающие работу Meta✴ модели ИИ должны обучаться на актуальной информации, отражающей различные языки, географию и культурные особенности людей в Европе, которые будут ими пользоваться. Для этого мы хотим обучать наши большие языковые модели, которые обеспечивают функции ИИ, с использованием контента, который люди в ЕС решили публично разместить в продуктах и сервисах Meta✴», — заявили в компании.

Meta✴ приняла несколько мер, чтобы укрепить свою позицию. Она указала, что для обучения ИИ будет использоваться «публичный контент», то есть публикации, комментарии, фотографии и другие материалы, размещённые на её платформах соцсетей пользователями старше 18 лет — личные сообщения в этот набор не входят. Компания также отметила, что с 22 мая разослала европейским пользователям уведомления о вступлении 26 июня в силу новых условий обслуживания на платформах, предусматривающих использование их материалов для обучения ИИ. При этом любой европейский пользователь может отказаться от этого без объяснения причин, и его данные не будет включаться в массив информации для обучения ИИ ни сейчас, ни в будущем.

Жителям других регионов Meta✴ такой возможности не предлагает. Обучение модели LLaMa 3 осуществлялось вообще без согласования с пользователями — теперь же граждан стран за пределами ЕС просто информируют о включении их материалов в обучающие массивы и не дают возможности отказаться от этого. Ранее против этой инициативы выступила европейская правозащитная организация NOYB (None Of Your Business), которая подчеркнула, что пользователи соцсетей должны давать явное согласие на использование их данных для обучения ИИ, а не совершать дополнительные операции, чтобы отказаться от этого.

Сейчас отношения Meta✴ и властей ЕС складываются не лучшим образом: платформы Facebook✴ и Instagram✴ ожидают проверки на предмет онлайн-контента, угрожающего безопасности несовершеннолетних. Выявленные правонарушения будут грозить компании гигантскими оборотными штрафами.

Ноутбуки на Intel Lunar Lake и AMD Strix Point на старте продаж не получат ИИ-функции Copilot Plus

Новые ИИ-функции Windows, включая технологию масштабирования Auto SR, не являются эксклюзивными для ПК на базе процессоров Qualcomm Snapdragon X Elite. Чипы Intel Lunar Lake и AMD Strix Point тоже оснащены производительными NPU, необходимыми для их работы. Компьютеры на этих процессорах появятся в продаже осенью и тоже получат маркировку Copilot Plus PC. Однако никто не гарантирует, что они получат поддержку ИИ-функций прямо на старте продаж, в отличие от систем на чипах Qualcomm.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Как пишет портал The Verge, поговоривший с представителями компаний Intel, AMD и Nvidia, системы на базе новых процессоров Core Ultra и Ryzen AI потребуют установку программных обновлений для Windows, которые наделят их поддержкой ИИ-функций Copilot Plus от Microsoft. Однако неизвестно, будут ли эти обновления выпущены до конца текущего года.

«Системы на базе Intel Lunar Lake и AMD Strix Point соответствуют требованиям Windows 11 AI PC и нашим требованиям аппаратного обеспечения для Copilot Plus PC. Мы тесно сотрудничаем с Intel и AMD для оснащения их систем функциями Copilot Plus через бесплатные программные обновления, когда те станут доступны», — говорится в заявлении менеджера по маркетингу Microsoft Джеймса Хауэлла (James Howell) для The Verge.

«Lunar Lake получат поддержку функций Copilot Plus PC через обновления, когда они станут доступным», — сообщил в ответе изданию PR-менеджер Intel Томас Ханнафорд (Thomas Hannaford).

Ранее в разговоре с The Verge представители Nvidia сообщили аналогичную информацию: «Эти Windows 11 AI PC получат бесплатные обновления с функциями Copilot Plus, когда эти обновления будут готовы».

Представитель AMD Мэтью Гурвиц (Matthew Hurwitz) в разговоре с журналистами не смог подтвердить, что ноутбуки на базе их процессоров получат функции Copilot Plus PC на старте продаж. «Мы ожидаем, что функции Copilot Plus появятся [в составе ноутбуков на базе наших процессоров] к концу 2024 года», — заявил Гурвиц.

В Intel и Microsoft тоже не смогли уточнить, появятся ли ИИ-функции в составе ноутбуков на базе Intel до конца текущего года.


window-new
Soft
Hard
Тренды 🔥
Власти США разглядели угрозу национальной безопасности в ASIC-майнерах Bitmain 4 ч.
Энтузиаст собрал автономную систему питания дома из б/у-аккумуляторов от ноутбуков — девятый год она работает без сбоев 4 ч.
ASUS представила модульную ИИ-систему PE3000N на платформе NVIDIA Jetson Thor T5000 8 ч.
В Microsoft Azure появились инстансы с Intel Xeon 6 и CXL-памятью 8 ч.
Суд намерен устранить монополию Google в онлайн-рекламе пока не поздно, но скорого успеха не ожидает 8 ч.
В США испытали беспроводное питание для спутников 9 ч.
Японский «заменитель TSMC» получит от местных властей $6,38 млрд на производство 2-нм чипов 12 ч.
Хуангу пришлось оправдываться, что инвесторы «не оценили» рекордную выручку Nvidia 12 ч.
Рынок не поверил Хуангу: акции бигтехов обвалились после квартального отчёта Nvidia 13 ч.
Власти США задумались о снятии запрета на поставки ускорителей Nvidia H200 в Китай 14 ч.