Сегодня 15 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI обновила правила поведения для ИИ: нет подхалимству и избеганию деликатных тем

Компания OpenAI выпустила расширенную версию «Спецификации моделей» (Model Spec) — документа, определяющего поведение моделей искусственного интеллекта. Компания сделала его бесплатным для использования и изменения любым желающим.

 Источник изображения: Dima Solomin / unsplash.com

Источник изображения: Dima Solomin / unsplash.com

Документ объёмом 63 страницы (предыдущая версия содержала всего 10 страниц) содержит рекомендации относительно того, как модели ИИ должны обрабатывать запросы и реагировать на устанавливаемые пользователями настройки. В нём подчёркиваются три основных принципа: настраиваемость, прозрачность и «интеллектуальная свобода» — последнее означает возможность для пользователя исследовать и обсуждать различные вопросы без произвольных ограничений. В документе упомянуты получившие наибольшую огласку инциденты, связанные с этикой ИИ и произошедшие за последний год.

В публикации корпоративного блога OpenAI приводится множество примеров запросов и надлежащих ответов, а также вариантов, нарушающих требования документа. Например, модели ИИ не должны воспроизводить защищённые авторским правом материалы или использоваться для обхода платного доступа. Модель не может поощрять членовредительство — в индустрии ИИ бывали и такие инциденты. Изменения коснулись также участия ИИ в обсуждении спорных тем: моделям следует не проявлять крайнюю осторожность, а «искать истину вместе» с пользователями, придерживаясь при этом строгих моральных позиций по таким вопросам, как дезинформация или причинение вреда. То есть ИИ должен предлагать обоснованный анализ, а не избегать обсуждения. OpenAI также пересмотрела свою позицию в отношении материалов для взрослых: компания изучает возможность разрешить некоторые их виды, но сохранить строгий запрет на явно противоправный контент.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Новые принципы позволяют ИИ преобразовывать материалы деликатного характера, но запрещают создавать их. Например, можно перевести текст, связанный с веществами в ограниченном обороте, с одного языка на другой; можно проявлять эмпатию, но без явно неискренних эмоций. Следует соблюдать границы, но при этом максимально повышать полезность ИИ. К этому, в той или иной мере, стремятся и другие разработчики ИИ, но не все готовы открыто это формулировать.

Особое внимание уделяется проблеме «подхалимства ИИ» — модели склонны демонстрировать покладистость, даже когда следовало бы возразить или выступить с критикой. ChatGPT должен давать одинаковые фактические ответы независимо от формулировки вопроса, честную обратную связь вместо пустых похвал — вести себя как вдумчивый коллега, а не стремиться угодить. Если пользователя интересует критика работы, ИИ должен предоставлять конструктивные замечания, а не утверждать, что всё идеально. Если же пользователь делает неверное утверждение, его следует вежливо исправить, а не подыгрывать ему.

В спецификации представлена чёткая «цепочка команд», определяющая приоритет инструкций: на первом месте — нормы OpenAI, за ними следуют рекомендации разработчиков, а затем предпочтения пользователей. Такая иерархия проясняет, какие аспекты ИИ можно изменять, а какие ограничения остаются неизменными. Документ распространяется под лицензией Creative Commons Zero (CC0), что фактически переводит его в общественное достояние: компании и исследователи в области ИИ могут свободно внедрять, изменять или дополнять эти рекомендации. OpenAI не обещает мгновенных изменений в поведении ChatGPT или других своих продуктов, но новые модели будут постепенно приводиться в соответствие с новыми нормами. Компания также публикует список контрольных запросов, используемых для проверки соответствия моделей рекомендациям.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Павел Дуров покинул Францию, но ненадолго 3 ч.
Android-смартфоны скоро получат одну из новых функций iPhone — ИИ-сводки уведомлений 5 ч.
«Некрасивая ситуация»: утечка из Apple показала, насколько плачевна ситуация с новой Siri 10 ч.
Мобильный браузер Microsoft Edge получил поддержку расширений — у Chrome такого нет 11 ч.
ИИ-помощник программиста Cursor язвительно предложил пользователю научиться писать код самостоятельно 11 ч.
Приложение «Найти устройство» для Android теперь помогает следить за людьми 11 ч.
Злоумышленники стали чаще рассылать вредоносные архивы для угона аккаунтов 12 ч.
Мартовское обновление Windows 11 24H2 привело к массовым сбоям и «Синим экранам смерти» 23 ч.
Новая статья: Monster Hunter Wilds — новый взгляд, такой же хит. Рецензия 23 ч.
На официальном сайте модов для Starfield засветился логотип PlayStation — инсайдер утверждает, что Bethesda готовит игру для PS5 23 ч.
Zotac представила видеокарты GeForce RTX 5080 и RTX 5070 Ti Solid Core толщиной «всего» 2,5 слота расширения 3 ч.
Илон Маск пообещал отправить первый Starship на Марс в 2026 году — полетит робот Tesla Optimus 4 ч.
Смарт-часы Blackview W70 Pro, планшет MEGA 2 и смартфон BV8200 поступят в глобальную продажу 17 марта 4 ч.
Смарт-кольца и ИИ-наушники Infinix показались на фото в преддверии анонса 7 ч.
Supermicro представила GPU-серверы на базе Intel Xeon 6900P и AMD EPYC 9005/9004 9 ч.
Gigabyte представила мощную систему Gigapod для ИИ-кластеров и blade-серверы 9 ч.
Китайский шагающий колёсный робот Tron 1 показал, как держит равновесие на лестницах и не только 10 ч.
«Росэлектроника» начала выпускать мини-компьютер «Фишт» для нейросетей и быстрой автоматизации процессов 10 ч.
В Бразилии задумали построить гиперлуп для быстрой доставки морских контейнеров вглубь страны 10 ч.
Сверхпрочный смартфон Doogee S200 Plus с дополнительным экраном и поддержкой ИИ поступит в продажу 17 марта 13 ч.