ИИ сдали ЕГЭ по математике: результаты трех нейросетей

Журналисты издания «Фонтанка» проверили, как современные нейросети справляются с заданиями единого государственного экзамена. В фокусе оказался базовый вариант ЕГЭ по математике, который решили с помощью ChatGPT, DeepSeek и Perplexity.

Ранее в телеграм-каналах, посвященных искусственному интеллекту, появились сообщения о том, что ChatGPT успешно сдал ЕГЭ по информатике, набрав 90 баллов из 100. Это значительный прогресс по сравнению с 2023 годом, когда та же нейросеть смогла получить лишь 14 баллов.

Для своего эксперимента «Фонтанка» использовала задания с образовательного портала «РешуЕГЭ», основателем которого является петербургский учитель года-2007 Дмитрий Гущин. Отметим, что этот ресурс рискует быть заблокированным из-за инициативы Минпросвещения о запрете публикации заданий прошлых лет.

Журналисты отправляли нейросетям тексты задач без дополнительных пояснений, имитируя поведение среднестатистического школьника. Все три модели показали результат, соответствующий оценке «отлично», хотя допустили ошибки в разных заданиях.

Американский ChatGPT верно решил 17 из 21 задачи. Он ошибся в заданиях, связанных с чтением графика, расчетом поездки на велосипеде, определением площади озера Великое и оценкой школьных отметок.
Китайский DeepSeek справился с 18 заданиями. Его ошибки касались расчета рейтинга автомобиля, площади озера Великое и площади поверхности многогранника.
Еще одна американская нейросеть, Perplexity, также дала 18 правильных ответов. Она не смогла корректно найти длину отрезка в треугольнике, объем четырехугольной пирамиды и четырехзначное число, кратное 18, с определенными условиями.
Таким образом, все три системы успешно сдали базовый ЕГЭ по математике. Журналисты отметили, что при более детальной работе с каждой задачей можно было бы достичь идеального результата, но цель эксперимента была иной — проверить возможности ИИ без вмешательства человека.
Комментируя эти результаты, доцент Института прикладных компьютерных наук Университета ИТМО Алексей Комиссаров пояснил, что сегодня правильнее говорить не о нейросетях, а об ИИ-агентах. «Самое простое сравнение — это двигатель от машины и машина. До марта 2025 года мы строили двигатели, а сейчас научились строить машины, куда вставляем различные двигатели разной мощности», — привел аналогию эксперт.
Он также упомянул специализированный тест «Последний экзамен человечества», который включает 2,5 тысячи сложных вопросов для узких специалистов. По словам Комиссарова, современные ИИ-системы уже показывают на нем высокие результаты. «Есть единственный вариант, когда ИИ не может решить ЕГЭ сейчас — это вопросы ЕГЭ поставлены некорректно или неправильно», — заявил преподаватель.
Эксперт добавил, что ИИ может не всегда давать стопроцентно верные ответы на школьные экзамены, поскольку учебные материалы иногда не соответствуют актуальным научным данным. «Возможно, если ему [ИИ] сказать, что это школьный экзамен… и там могут быть неправильные ответы с точки зрения современной науки, то, скорее всего, он сможет решить достаточно хорошо», — резюмировал Алексей Комиссаров.



















