Сегодня 25 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → егэ

Нейросеть YandexGPT 2 успешно сдала ЕГЭ по литературе

Разработанная «Яндексом» большая языковая модель YandexGPT 2 справилась с несколькими вариантами ЕГЭ по литературе, получив усреднённую оценку 55 баллов. Это выше минимального порога, необходимого для поступления в вуз (40 баллов) и близко к средней оценке (64 балла), которую получают российские школьники, когда выбирают данный предмет и специально готовятся к экзамену.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

ЕГЭ по литературе содержит несколько испытаний разного рода: вопросы на эрудицию, а также задания для оценки стиля письма и творческих способностей. Для нейросети это непростая задача, но YandexGPT 2 выдержала все испытания: в первой части экзамена она проанализировала произведение и ответила на вопросы о нём, а во второй — написала сочинение на предложенную тему.

В рамках испытания специалисты «Яндекса» получили в Московском центре непрерывного математического образования варианты настоящего ЕГЭ по литературе, которые использовались на тренировочных экзаменах с 2021 по 2023 гг., и удостоверились, что в массиве использованных при обучении YandexGPT 2 данных ответов на эти вопросы нет. Таким образом, нейросеть работала с заданиями наравне с любым школьником, выбирая предложенные варианты и генерируя ответы на открытые вопросы. Проверку проводили официальные эксперты ЕГЭ по литературе.

Разница между сдающими ЕГЭ школьниками и YandexGPT 2 в том, что первые специально готовятся к сдаче, то есть погружаются в специфику предмета, тогда как нейросеть работала скорее экспромтом — схожим образом сдаёт школьные экзамены взрослый человек, опираясь только на накопленные знания. Стандартным способом проверки нейросетей является тест MMLU (Massive Multitask Language Understanding) — он включает вопросы из 57 областей, но не предусматривает оценки ответов на открытые вопросы или написания творческих заданий. Поэтому в «Яндексе» остановились на ЕГЭ по литературе.


window-new
Soft
Hard
Тренды 🔥
Бизнес раскритиковал идею введения платного доступа к госсервисам для юрлиц 10 ч.
Объявлена дата выхода Little Nightmares 3 — новый трейлер, 11 минут геймплея и предзаказ с приятным сюрпризом 10 ч.
Российская гиперконвергентная платформа vStack HCP получила крупное обновление 13 ч.
Продажи Rematch от создателей Sifu превысили миллион копий — раскрыта статистика игроков 13 ч.
Для Warhammer 40,000: Rogue Trader вышло сюжетное дополнение Lex Imperialis и большой патч 1.4, а в работе ещё более крупное обновление 14 ч.
Anthropic выиграла суд у издателей: обучать ИИ на купленных книгах законно, на пиратских — нет 14 ч.
Xbox скоро настигнет новая волна массовых увольнений — Microsoft проводит реорганизацию 15 ч.
Путин подписал закон о создании национального мессенджера 16 ч.
Новый геймплейный трейлер раскрыл дату выхода перезапуска Painkiller — в российском Steam открыт предзаказ 16 ч.
Заявка на успех: более миллиона человек уже добавили Resident Evil Requiem в список желаемого 19 ч.
Недоступность ИИ-инфраструктуры усилит цифровое, экономическое и политическое неравенство 8 мин.
Бывший маркетолог Google создал «пустышку» для тех, кто не может оторваться от телефона 47 мин.
Оборот российского рынка микроэлектроники может к 2030 году превысить триллион рублей 5 ч.
Суд приговорил криптоблогера Битмаму к семи годам колонии за мошенничество 5 ч.
Apple приняла официальное участие в китайской программе субсидирования продаж потребительской электроники 5 ч.
Fujitsu считает важным появление в Японии контрактного производителя передовых чипов Rapidus 6 ч.
Intel запустила обещанную волну увольнений — первыми под сокращение попали инженеры в Калифорнии 8 ч.
Gigabyte представила три версии GeForce RTX 5050, включая низкопрофильную — все с разгоном 9 ч.
Стараниями Китая мировые поставки носимых устройств подскочили на 10,5 % в первом квартале 9 ч.
Новая статья: Разрубить EUV-узел 10 ч.