Сегодня 26 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Исследование Microsoft показало, что ИИ пока «так себе» исправляет ошибки в программном коде

Новое исследование подразделения Microsoft Research выявило, что несмотря на то, что ИИ помогает разработчикам в написании кода, даже передовые модели OpenAI (o1) и Anthropic (Claude 3.7 Sonnet) справляются с исправлением ошибок не более чем в половине случаев. Тестирование проводилось на базе лучшего бенчмарка SWE-bench, который измеряет умение ИИ-систем создавать программный код.

 Источник изображения: сгенерировано AI

Источник изображения: сгенерировано AI

В ходе эксперимента ИИ-агенты пытались решить 300 задач по устранению ошибок в коде. Лидером стала модель Claude 3.7 Sonnet, которая выполнила задание с успешностью на 48,4 %, второе место заняла OpenAI o1 (30,2 %), третье — o3-mini (22,1 %). Однако, как видно, даже эти цифры далеки от уровня, которого можно было бы ожидать от опытных программистов-людей. Как поясняет TechCrunch, основная проблема заключается в том, что искусственный интеллект пока плохо понимает, как использовать доступные инструменты и интерпретировать ошибки.

По мнению авторов исследования, ключевым препятствием остаётся дефицит данных для обучения моделей. «Мы твёрдо верим, что обучение или дообучение может сделать их лучшими интерактивными отладчиками, — пишут они. — Однако для этого нужны специализированные данные, например, цепочка записей всех процессов взаимодействия людей с ИИ-отладчиками».

Сейчас таких данных недостаточно, что ограничивает возможности моделей. Например, популярный инструмент Devin стартапа Cognition Labs смог по этой причине справиться лишь с тремя из 20 тестов по кодированию. И хотя ИИ активно используется такими компаниями как Google, по словам генерального директора Сундара Пичаи (Sundar Pichai), четверть кода, который создаётся с помощью искусственного интеллекта, может даже наоборот добавлять ошибки.

Технологические лидеры скептически относятся к полной автоматизации профессии программиста. Билл Гейтс (Bill Gates) уверен, что программирование как профессия, конечно, никуда не исчезнет. Аналогичного мнения придерживаются генеральный директор Replit Амджад Масад (Amjad Masad), глава Okta Тодд Маккиннон (Todd McKinnon) и руководитель IBM Арвинд Кришна (Arvind Krishna).

Несмотря на очевидные проблемы, интерес к ИИ-инструментам для разработки продолжает расти. Инвесторы видят в них потенциал для повышения эффективности, однако ведущие разработчики считают, что доверять ИИ полностью пока рановато.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Учёные обнаружили, что у ИИ пока имеются проблемы с пониманием каламбуров и юмора 2 ч.
Инженеры проиграли ИИ: модель Claude Opus 4.5 справилась с заданием Anthropic лучше любого из людей 5 ч.
Голосовой режим ChatGPT встроили в чат — он стал естественнее и его можно перебивать 6 ч.
Black Forest Labs представила ИИ-генератор изображений FLUX.2 с оптимизацией для видеокарт GeForce RTX 7 ч.
«Блокнот» в Windows 11 получил поддержку таблиц и больше ИИ-возможностей 8 ч.
Мультиплеерный экшен Spellcasters Chronicles от создателей Heavy Rain и Detroit: Become Human готовится к «бете», но только для избранных 9 ч.
Тиранид-прайм, новая операция и Кровавые Ангелы: для Warhammer 40,000: Space Marine 2 вышло крупное обновление «Утилизация» 10 ч.
Хакеры научились проникать на ПК через поддельный экран «Центра обновления Windows» 11 ч.
Появились первые намёки, во что превратятся Android и ChromeOS после слияния 12 ч.
«Стресс-тест не только серверов, но и наших мозгов с нервами»: режиссёр Escape from Tarkov подвёл итоги недели с релиза и раскрыл, что ждёт игру дальше 13 ч.
Планы Meta использовать ИИ-ускорители Google TPU ударили по акциям NVIDIA 6 ч.
Новая статья: Обзор маршрутизатора Netcraze Ultra (NC-1812): новое имя, новый Wi-Fi 6 ч.
Samsung начала массовое производство 3-Гбайт чипов GDDR7 со скоростью 28 Гбит/с, и готовит более быстрые варианты 10 ч.
Huawei представила гибридный планшет MatePad Edge — 14,2" OLED, ПК-процессор и батарея на 12 900 мА·ч от $845 11 ч.
Финляндия создаст крупнейший в мире тепловой аккумулятор из целой горы песка 12 ч.
Японский конкурент TSMC начнёт строительство 1,4-нм фабрики чипов в 2027 году 12 ч.
Framework перестала продавать модули памяти из-за перекупщиков и предупредила о повышении цен 13 ч.
TSMC подала в суд на бывшего топ-менеджера, который переметнулся в Intel 13 ч.
Акции Nvidia обвалились на 4 % из-за слухов о том, что Meta нацелилась на ИИ-чипы Google 13 ч.
Компьютеры в России вот-вот снова подорожают — закупочные цены уже выросли на 5–10 % из-за кризиса памяти 13 ч.