软件工程代理(software engineering agents)

技术雷达

更新于 : Apr 02, 2025

Apr 2025

试验

自我们六个月前首次讨论 软件工程代理(software engineering agents) 以来，行业内仍然缺乏对“代理(Agent)”这一术语的统一定义。然而，一个重要的进展已经浮现——并非完全自主的编码代理（其能力仍然令人怀疑）——而是在 IDE 内的监督代理模式(supervised agentic modes)。这些模式允许开发者通过聊天驱动实现，工具不仅可以修改多个文件中的代码，还能执行命令、运行测试并响应 IDE 反馈（如 linting 或编译错误）。

这种方式有时被称为“面向聊天的编程(chat-oriented programming，CHOP)”或“从提示到代码(prompt-to-code)”，它让开发者保持控制的同时，将更多责任转移给 AI，这跟传统的自动补全类辅助工具有很大不同。该领域的领先工具包括 Cursor、Cline 和 Windsurf，而 GitHub Copilot 稍显落后，但正在快速追赶。这些代理模式的有效性取决于所使用的模型（以 Claude's Sonnet 系列为当前业界领先）以及工具与 IDE 集成的深度，为开发者提供良好的体验。

我们发现这些工作流具有吸引力且潜力巨大，并显著提高了编码速度。然而，保持问题范围小有助于开发者更好地审查 AI 生成的更改。这种方法在低抽象提示以及AI 友好的代码库中效果最佳——这些代码库结构良好且经过充分测试。随着这些模式的改进，它们也会加剧开发者自满于 AI 生成的代码。为了缓解这一问题，我们建议采用结对编程和其他严格的审查实践，尤其是在生产代码中。

Oct 2024

评估

目前在生成式 AI (GenAI) 领域最热门的话题之一是 软件工程代理 （software engineering agents）的概念。这些编程辅助工具不仅仅是在代码片段上帮助工程师，它们的目标是扩大解决问题的范围，理想情况下能够自主完成任务，且减少人为干预。其理念是，这些工具能够接收 GitHub issue 或 Jira ticket，提出计划并进行代码更改，甚至创建供人类审查的 pull request。这是提升 AI 编程辅助工具影响力的下一步逻辑，但想要实现覆盖广泛编码任务的通用代理的目标仍然非常雄心勃勃，目前的工具尚未令人信服地展示出这一点。然而，我们认为对于范围较小、较简单的任务，这种工具将很快起到作用，帮助开发人员腾出时间处理更复杂的问题。正在发布和推广测试版代理的工具包括 GitHub Copilot Workspace、 qodo flow 、 Tabnine's 的 JIRA 代理，以及 Amazon Q Developer 。SWE Bench 基准测试列出了更多此类工具，但我们建议对 AI 领域的基准测试保持一定的谨慎态度。

发布于 : Oct 23, 2024