Сегодня 21 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модель GPT-4.5 преуспела в тесте Тьюринга — её приняли за человека в 73 % случаев, но не всё так просто

Некоторые современные ИИ способны проходить тест Тьюринга — классическую проверку на неотличимость машины от человека в текстовом общении. В эксперименте судьи — участники, которые по переписке должны были отличить человека от ИИ, — принимали GPT-4.5 за человека в 73 % случаев, когда ИИ-модель работала со специальным промтом, который задавал ей характер и манеру речи.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Исследование провели Кэмерон Р. Джонс (Cameron R. Jones) и Бенджамин К. Берген (Benjamin K. Bergen). Они проверяли, смогут ли современные большие языковые модели (LLM) убедить людей-судей, что те общаются с живым человеком. Тест Тьюринга, предложенный британским математиком Аланом Тьюрингом (Alan Turing) в 1950 году, устроен просто: судья через текстовый чат одновременно общается с человеком и машиной, а потом решает, кто из собеседников настоящий.

По мнению учёных, такой формат куда показательнее стандартных тестов для ИИ. Обычные эталонные оценки статичны — высокие баллы могут отражать запоминание обучающих данных, а не реальную адаптивность в разговоре. Тест Тьюринга позволяет судьям задавать открытые вопросы и нащупывать слабые места машины.

Учёные организовали серию онлайн-экспериментов с участием почти 500 человек. Они оценивали ИИ-модели GPT-4.5, LLaMa-3.1-405B и GPT-4o, а также простой чат-бот 1960-х годов ELIZA — как базовый ориентир. В первом исследовании приняли участие 126 студентов Калифорнийского университета в Сан-Диего, во втором — 158 участников с онлайн-платформы Prolific. Роли судьи и собеседника распределялись случайным образом.

Исследователи создали интерфейс, похожий на привычный мессенджер. На общение отводилось ровно 5 минут. Затем судья определял, кто настоящий, оценивал свою уверенность и объяснял ход рассуждений. Учёные тестировали два типа промтов. Первый просто сообщал ИИ-модели, что она участвует в тесте Тьюринга. Второй предлагал ей играть интровертного молодого человека, хорошо знакомого с интернет-культурой и современным сленгом.

Промт с заданной ролью резко изменил результаты. GPT-4.5 была признана человеком в 73 % случаев — она обманывала судей значительно чаще, чем реальные участники. LLaMa-3.1-405B с тем же промтом получила 56 %. При правильных промтах продвинутые LLM демонстрируют тот же тон, прямоту, юмор и склонность к ошибкам, что и люди, отметил Джонс. По его словам, тест показал, что ИИ-модели могут убедительно воспроизводить социальные поведенческие черты, а не только выдавать информацию на любую тему.

С обычным промтом картина выглядела иначе. GPT-4.5 опознавалась как человек лишь в 36 % случаев, LLaMa-3.1-405B — в 38 %. Старые системы справлялись ещё хуже: ELIZA была выбрана как человек в 23 % случаев, GPT-4o — в 21 %. По словам Бергена, у ИИ-моделей есть способность выглядеть человекоподобными, но, возможно, не хватает способности самостоятельно разобраться, что для этого нужно.

Для проверки устойчивости результатов учёные провели дополнительный эксперимент с 205 новыми участниками и увеличили время общения до 15 минут. В нём использовались GPT-5, LLaMa-3.1-405B и ELIZA. Даже с дополнительным временем судьи с трудом определяли машины, играющие человека: GPT-5 была признана человеком в 59 % случаев, LLaMa-3.1-405B — в 56 %. Простую ELIZA распознали легко — как человека её определили лишь в 17 % случаев.

Большинство судей пытались вести светскую беседу — спрашивали о повседневных делах, личных мнениях и эмоциональном опыте. Они склонялись считать участника человеком, если тот допускал мелкие опечатки, демонстрировал пробелы в знаниях или отвечал прямо, без излишней формальности. По словам Бергена, эти черты далеки от математической и логической интеллектуальности, которую, вероятно, имел в виду Тьюринг.

Авторы предостерегают от неверной интерпретации: прохождение теста не означает, что машина обладает подлинным интеллектом или сознанием. Скорее, она исключительно хорошо соответствует ожиданиям людей о том, как другой человек мог бы общаться в онлайне. Высокие показатели LLM полностью зависели от промта — без подробных инструкций ИИ-модели не могли стабильно обманывать судей. Это показывает, что им по-прежнему нужно человеческое руководство для убедительно человеческого поведения.

Результаты несут практические последствия для доверия в интернете. По словам Джонса, настроить промт так, чтобы ИИ-модель стала неотличима от человека, достаточно легко, и при общении с незнакомцами в сети люди должны гораздо меньше полагаться на уверенность, что разговаривают именно с человеком.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Европейцы обвинили Google, Meta и TikTok в неспособности противостоять мошенникам 14 мин.
ИИ-модель GPT-4.5 преуспела в тесте Тьюринга — её приняли за человека в 73 % случаев, но не всё так просто 17 мин.
CapCut подружат с Gemini — пользователи смогут монтировать видео вообще без навыков 19 мин.
Microsoft нашла пару уязвимостей нулевого дня в «Безопасности Windows» и рекомендует срочно обновиться 21 мин.
Google Cloud Cybershield встал на киберзащиту национальной цифровой инфраструктуры Болгарии 2 ч.
Импортозамещение не помогло: российский рынок ПО вдвое отстал от мирового по темпам роста 4 ч.
На ПК вышла психоделическая шпионская ролевая игра Zero Parades: For Dead Spies от студии-разработчика Disco Elysium 4 ч.
Платное дополнение 2026 Season Pack отправит игроков F1 25 в «новую смелую эру для Формулы-1» — первый трейлер и дата выхода 5 ч.
Импортозамещение в IT принесло российским компаниям 1,6 млрд рублей, но потратили они в 116 раз больше 6 ч.
Масштабная перезагрузка обернулась для Ubisoft рекордными убытками, зато к 2029 году выйдут новые Assassin's Creed, Far Cry и Ghost Recon 6 ч.
Трёх тайванцев арестовали за контрабанду ускорителей Nvidia в Китай в обход санкций США 8 мин.
Представлен Xiaomi 17 Max — флагман со Snapdragon 8 Elite Gen 5, камерой на 200 Мп и батареей на 8000 мА⋅ч по цене от $630 14 мин.
Квантовые компании резко подорожали после обещанной поддержки от властей США 24 мин.
MSI готовит портативную приставку Claw 8 EX AI+ с графикой Intel Arc G3 Extreme — она показалось в Австралии почти за $1800 55 мин.
Работники чипового бизнеса Samsung выбили премии  почти по $340 000 на человека 2 ч.
AMD запустила массовое производство 2-нм серверных процессоров EPYC Venice на Zen 6 2 ч.
Представлен мощный хакерский мультитул Flipper One — это уже полноценный компьютер на Linux 2 ч.
Blackview ROCK 5 — сверхпрочный смартфон с кемпинговым фонарём, мощным динамиком и батареей на 20 000 мА·ч 2 ч.
Armada привлекла $230 млн на расширение производства модульных ИИ ЦОД 2 ч.
В Японии создали многоразовый фотополимер для 3D-печати — брак можно будет использовать повторно 3 ч.