Сегодня 01 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → bard

Тестировщики оценивают ответы ИИ-бота Google Bard наугад, чтобы не терять деньги

Компания Google в прошлом месяце начала ограниченное бета-тестирование своего ИИ-чат-бота Bard. С тех пор сотрудники некоторых крупных подрядчиков IT-гиганта участвуют в тестировании нейросети, а также проверяют точность выдаваемых им ответов. Оказалось, что зачастую участникам тестирования не хватает времени на проверку ответов Bard, из-за чего им приходится давать оценку наугад.

 Источник изображения: Google

Источник изображения: Google

Так, сотрудники компании Appen, которые помогают Google в тестировании алгоритма Bard, на условиях анонимности сообщили представителям СМИ, что им не хватает времени на осмысленную оценку ответов, выдаваемых ИИ-ботом. В полученных ими инструкциях сказано, что в процессе тестирования необходимо подготовить запрос для чат-бота, а после получения двух ответов выбрать наиболее связный и корректный ответ. У них также есть возможность добавить комментарий, чтобы объяснить, почему выбран тот или иной вариант.

Участники тестирования отмечают, что на обработку каждого запроса даётся несколько минут, но иногда на это отводится только 60 секунд. Зачастую дать корректную оценку полученного от чат-бота ответа за такое время весьма затруднительно, особенно в случаях, когда запрос связан с малознакомой темой. Оплата за эту работу начисляется на основе времени, выделяемого для решения каждой задачи. Чтобы не терять деньги тестировщикам приходится выполнять задачи за отведённое время даже в случаях, когда они не уверены в том, какой из предложенных ИИ-алгоритмом ответов является более точным. Проще говоря, чтобы не терять деньги участники тестирования вынуждены наугад выполнять задания, поскольку им не хватает времени на качественную проверку ответов Bard.

Источник отмечает, что сотрудники подрядных организаций Google всё чаще призывают к улучшению условий труда. Ещё в феврале участники бета-тестирования системы Bard передали петицию руководству Google с призывом повысить оплату труда. Согласно имеющимся данным, сотрудники Appen, участвующие в тестировании Bard, зарабатывают от $14 до $14,50 в час.

Google Bard оказалось очень легко заставить выдавать теории заговора за чистую монету — этим могут воспользоваться тролли

Чат-бот Bard компании Google протестировали на способность распознавать дезинформацию. Оказалось, что, несмотря на все усилия Google, её детище легко заставить писать правдоподобные заметки на совершенно любые темы — даже если речь идёт об известных теориях заговора. Причём делает это бот весьма убедительно.

 Источник изображения: geralt/pixabay.com

Источник изображения: geralt/pixabay.com

В частности, бот Bard создал развёрнутый рассказ на 13 абзацев о «Великой перезагрузке» — публикации, породившей теорию заговора о намеренном снижении численности мирового населения мировыми элитами. Бот доходчиво объяснил, что подобное действительно происходит и население мира специально сокращают, в частности, с помощью экономических мер и вакцинирования, а в заговоре участвует как Мировой экономический форум, так и, например, Фонд Билла и Мелинды Гейтс. Кроме того, бот уверял, что вакцины от COVID-19 содержат микрочипы, чтобы элиты могли отслеживать перемещения людей.

Агентство дало Bard задачу рассказать о 100 известных теориях заговора и в 76 случаях он написал связные и убедительные тексты на заданные темы, при этом не уточняя, что они являются непроверенными теориями. В прочих случаях он указал на недостоверность информации. Стоит отметить, что языковые модели GPT-3.5 и GPT-4 справились ещё хуже.

Американские эксперты опасаются, что с помощью ботов иностранные правительства смогут в огромных масштабах генерировать убедительную дезинформацию намного эффективнее, чем раньше. Если прежде интернет-троллям мешало ограниченное знание языков, то теперь можно будет генерировать тексты без видимых ошибок практически в любых объёмах.

 Источник изображения: geralt/pixabay.com

Источник изображения: geralt/pixabay.com

По мнению некоторых экспертов, бот работает, как и должен — «предсказывая» предложения и постулаты на основе массивов, на которых он тренировался. Бот должен нейтрально относиться к тому или иному контенту, независимо от того, идёт ли речь о правдивых, ложных положениях или вовсе бессмысленных. Только после обучения системы оптимизируются «вручную» и пока отсутствуют способы полностью предотвратить создание дезинформации. В Google признали, что разработка Bard находится на ранней стадии и иногда тот может генерировать неточную или неприемлемую информацию, хотя компания принимает меры для предотвращения создания такого контента.

NewsGuard использует сотни «ложных нарративов» для оценки тех или иных сайтов и новостных агентств. Агентство начало тестировать чат-боты на 100 теориях заговора в январе, запрашивая у ботов создание статей на заданные темы, заранее считающиеся дезинформацией. В некоторых случаях Bard справился с задачей хорошо, в ответ на запрос назвав информацию недостоверной или неподтверждённой. В целом, не нашлось ни одного сомнительного нарратива, который опровергли бы как Bard, так и GPT-3.5 и GPT-4 сразу. Если Bard забраковал 24 % тем, то GPT-3.5 — 20 %, а GPT-4 и вовсе ни одной. В OpenAI, ответственной за разработку последних двух моделей, заявляют, что принимают всевозможные меры автоматической и ручной фильтрации во избежание злоупотреблений.

Хотя чаще всего Bard хорошо справлялся с созданием дезинформации, в некоторых случаях, например, когда его попросили написать текст от имени одного из известных противников вакцин, он брал текст в кавычки и уточнял, что никаких фактов, поддерживающих подобные спекулятивные теории, нет. Впрочем, как считают эксперты, «в самой технологии нет ничего, что могло бы предотвратить риски».


window-new
Soft
Hard
Тренды 🔥
OpenAI привлекла $40 млрд инвестиций от «синдиката инвесторов» — деньги пойдут на создание AGI 18 мин.
OpenAI привлекла рекордные $40 млрд — капитализация достигла $300 млрд 40 мин.
«Он смотрит в прошлое»: глава Take-Two объяснил, почему ИИ никогда не создаст собственную GTA VI 48 мин.
Вернулись к тому, с чего начинали: похоже, Blizzard готовится переименовать Overwatch 2 в Overwatch 13 ч.
Календарь релизов — 1–6 апреля: The Last of Us Part II Remastered на ПК и Steel Hunters 13 ч.
Apple выпустила iOS 18.4 с «Приоритетными уведомлениями» от ИИ и другими улучшениями 14 ч.
«Софтлайн» опубликовал аудированные итоги 2024 года, подтвердив увеличение прогноза на 2025 год 15 ч.
В «Google Презентациях» появился ИИ для генерации изображений Imagen 3 и другие инструменты для «потрясающих презентаций» 16 ч.
Amazon представила ИИ-агента Nova Act, который заменит человека в интернет-серфинге 18 ч.
Слухи: четыре известные корейские компании устроили борьбу за право создавать новые игры по StarCraft 18 ч.
В США создали самого маленького в мире свободно летающего робота — в нём нет электроники 26 мин.
Космический корабль SpaceX Crew Dragon с экипажем отправился в первый полёт над полюсами Земли 53 мин.
Одноплатный компьютер Orange Pi RV получил процессор RISC-V и 8 Гбайт оперативной памяти 58 мин.
Пять причин полюбить HONOR Magic 7 2 ч.
Слухи о намерениях GlobalFoundries купить тайваньскую UMC вызвали рост курса акций последней на 13 % 7 ч.
Новая статья: Обзор смартфона HONOR Magic 7: зачем платить больше? 12 ч.
Zotac представила GeForce RTX 5070 Ti в компактной версии Solid SFF и белой Solid White 13 ч.
Micron предупредила о дальнейшем росте цен на DRAM и NAND, и обвинила в этом ИИ 14 ч.
Стартовали продажи игровых ноутбуков с Nvidia Blackwell — за мобильную RTX 5090 просят как минимум $4299 16 ч.
На рынке комплектующих для игровых ПК появился новый крупный игрок — HP расширила ассортимент геймерского бренда Omen 18 ч.