ИИ-помощники программистов начали перемещаться в интерфейс командной строки

Существующие уже не первый год инструменты для написания кода, основанные на искусственном интеллекте, такие как Cursor, Windsurf и GitHub Copilot, выступают в качестве законодателей моды в своём сегменте. И по мере развития ИИ-агентов эти инструменты меняют механизмы работы, перемещаясь в терминал — интерфейс командной строки, обращает внимание TechCrunch.

Обзор ноутбука Acer Swift Go 14 (SFG14-63-R7T4) с процессором Ryzen 9 8945HS и OLED-экраном

HUAWEI Pura 80 Ultra глазами фотографа

Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных

Обзор рейтингового режима Warface: просто освоиться, сложно оторваться

Пять причин полюбить HONOR 400

Обзор смартфона HONOR 400: реаниматор

Источник изображения: Mohammad Rahmani / unsplash.com

Вместо работы только с кодом эти сервисы всё чаще взаимодействуют напрямую с оболочкой операционной системы, в которой работают, — это существенное изменение в процессе разработки ПО с использованием ИИ, и оно может повлиять на всю отрасль. Переход уже начали все крупные разработчики: в феврале Anthropic, Google DeepMind и OpenAI выпустили инструменты для программирования, ориентированные на работу с командной строкой — Claude Code, Gemini CLI и CLI Codex соответственно. Эти продукты уже завоевали популярность у своей аудитории.

Эту перемену легко не заметить, поскольку новые средства выпускаются преимущественно под теми же брендами, что и предыдущие, но на самом деле изменения носят глубокий характер. В будущем, считают создатели профильного бенчмарка Terminal-Bench, 95 % взаимодействия больших языковых моделей с компьютерами будут осуществляться через терминал или аналогичный интерфейс. Первое место в рейтинге теста занимает компания Warp, предложившая «агентную среду разработки» — нечто среднее между традиционной IDE и набором инструментов командной строки, таких как Claude Code.

Источник изображения: Fotis Fotopoulos / unsplash.com

Чтобы оценить отличия нового подхода, полезно взглянуть на применяемые для его анализа бенчмарки. Так, задачи SWE-Bench составляются на основе открытых сообщений о проблемах на GitHub — это реальные фрагменты кода, которые не работают. Для поиска решения ИИ-модели предлагают собственные варианты, пока код не начнёт функционировать. Инструменты с поддержкой терминала позволяют взглянуть ещё шире, поскольку охватывают не только сам код, но и всю среду, в которой запускается приложение: помимо написания кода, решаются задачи по настройке Git-сервера и отладке.

В одной из задач, предлагаемых в Terminal-Bench, указывается программа для распаковки и приводится целевой текстовый файл — ИИ-агенту требуется произвести обратную разработку и определить подходящий алгоритм сжатия. В другой задаче — агенту предлагается собрать ядро Linux из исходного кода, но не упоминается, что этот исходный код необходимо предварительно скачать. Важно, что новый подход предполагает поэтапное решение задач — именно на основе этой способности оценивается ценность ИИ-агентов. Однако даже в этом случае они пока не решают все задачи — так, Warp вышел в лидеры, справившись лишь с чуть более чем половиной из них.

Тем не менее уже сейчас, подчёркивают эксперты, ИИ-агенты способны взять на себя значительную часть задач, которые обычно выполняет разработчик, и игнорировать это нерационально. Тот же Warp успешно справляется с повседневной работой по подготовке нового проекта, выявлению зависимостей и запуску — а в случаях, когда ИИ не справляется, он поясняет, почему.

Источник: