Для обучения своего виртуального помощника Meta✴ AI компания Meta✴ воспользовалась общедоступными публикациями в Facebook✴ и Instagram✴, но исключила из массива посты с ограниченным доступом, которые пользователи открывали только друзьям и членам семьи из уважения к конфиденциальности этих пользователей, рассказал представитель компании в интервью Reuters.
Meta✴ также не стала использовать в качестве обучающих данных личную переписку и предприняла меры по исключению личной информации из массива, заявил президент Meta✴ по международным вопросам Ник Клегг (Nick Clegg) в кулуарах мероприятия Connect. «Мы постарались исключить наборы данных, в которых преобладает личная информация», — заверил топ-менеджер и добавил, что «подавляющее большинство» данных, использованных Meta✴ для обучения ИИ, было общедоступным. Из соображений конфиденциальности компания преднамеренно исключила платформу LinkedIn.
Попавшие в обучающий массив Meta✴ AI общедоступные публикации в Facebook✴ и Instagram✴ включали как текст, так и фотографии, рассказал Клегг: первый использовался для обучения большой языковой модели Llama 2, а вторые — модели Emu, которая легла в основу генератора изображений. В Meta✴ действуют ограничения, регламентирующие, что может генерировать ИИ-помощник: например, запрещено создавать фотореалистичные изображения общественных деятелей.
Компания также готова к многочисленным судебным разбирательствам, поскольку до сих пор нет единого мнения о том, подпадает ли обучение ИИ под действие доктрины о добросовестном использовании — она допускает ограниченное использование защищённых авторским правом произведений для публикации комментариев, исследовательских работ и пародий. В Meta✴ предполагают, что подпадает, но не исключают судебных разбирательств по данному вопросу.
Чтобы избежать конфликтов такого характера, компания OpenAI минувшим летом подписала с Shutterstock шестилетнее соглашение на использование библиотек изображений, видео и музыки для обучения ИИ. Meta✴ подошла к данному вопросу с другой стороны, запретив пользователям своих платформ создавать контент, нарушающий конфиденциальность и авторские права.
Источник: