AI Coding 工作流:
从个人工具到团队工程化
当 AI 把"写代码"的成本打到接近零,真正的瓶颈转移到了哪里?一份从产品经理视角出发的 AI Coding 深度实践报告。
执行摘要
从需求到可交互 Demo
AI 时代 PM 的核心转变
覆盖产品、工程、知识沉淀
从题目到交付的极限压测
本报告的核心内容:
- 范式演进:AI Coding 经历了 Prompt Engineering → Context Engineering → Harness Engineering 三个阶段。2026 年,真正的竞争力不在于"会用 AI 写代码",而在于"构建让 AI 持续高质量工作的工程系统"。
- PM 视角:市面上大量"AI Coding 工具测评",但几乎没有产品经理视角的工程化实践报告。本文基于 100+ Skills 技能库的构建经验,系统阐述 PM 如何用 AI Coding 重构工作流。
- 团队工程化:从个人效率到组织能力,AI Coding 的真正价值在于改变团队的交付结构——而不仅仅是让个人写代码更快。
- 实战案例:包含 60 分钟限时速赛、PM 工作流变革、知识库驱动的持续进化等第一手实践。
1. AI Coding 五分钟入门
在深入技术细节之前,先建立一个清晰的认知框架。AI Coding 不是"AI 帮你补全代码"那么简单——它正在重新定义软件开发中人与机器的分工。
1.1 什么是 AI Coding
理解 AI Coding,需要区分三个层次——它们之间不是简单的升级关系,而是代表了人机协作模式的根本性变化:
Level 1: Copilot(补全)
人写代码,AI 辅助。
- 代表工具:GitHub Copilot(早期版本)
- 核心能力:行级/块级代码补全
- 人的角色:主要编码者
- AI 的角色:智能 Tab 键
- 提速效果:约 1.5-2x
类比:AI 是你的"实习生",你说一句它补一句。
Level 2: Agent(自主编码)
人描述意图,AI 编码。
- 代表工具:Claude Code、Cursor Agent
- 核心能力:理解需求 → 规划 → 实现 → 自我修正
- 人的角色:需求定义者 + 验收者
- AI 的角色:独立开发者
- 提速效果:约 5-10x
类比:AI 是你的"外包团队",你给需求它交付成品。
Level 3: Harness(工程系统)
人构建系统,AI 在系统中持续交付。
- 代表形态:Claude Code + Skills + Hooks + Memory
- 核心能力:标准化流程 + 持续学习 + 质量保障
- 人的角色:系统架构师 + 质量校准者
- AI 的角色:工程化的交付引擎
- 提速效果:10x+ 且质量可控
类比:AI 是你"管理的团队",你不是给任务,而是建制度。
关键洞察:大多数人还停留在 Level 1-2 的讨论中("哪个 AI 补全更准"、"Cursor 还是 Copilot"),而真正的竞争力差异已经发生在 Level 3——谁能构建更好的 Harness,谁的 AI Agent 就能持续产出更高质量的结果。
1.2 工具全景图
2026 年中,AI Coding 工具市场已经从"百花齐放"进入"格局初定"阶段。以下是主流工具的横向对比:
| 工具 | Agent 能力 | 上下文理解 | MCP 支持 | 价格 | 最佳场景 |
|---|---|---|---|---|---|
| Claude Code | 极强,原生 Agent 架构 | 极强,200K 上下文窗口 | 原生支持,生态最丰富 | $130/月(MAX) | 复杂项目、全栈开发、Skill 体系构建 |
| Cursor | 强,Composer Agent 模式 | 强,codebase indexing | 支持 | $20/月(Pro) | 日常开发、快速迭代、VS Code 生态 |
| Codex | 强,云端沙盒执行 | 中等 | 有限 | 按 token 计费 | 批量代码任务、CI/CD 集成 |
| Windsurf | 中等,Cascade 流程 | 中等 | 有限 | $10/月起 | 轻量开发、新手友好 |
| GitHub Copilot | 中等,Agent 模式新增 | 中等 | 有限 | $19/月(Pro) | GitHub 生态深度集成、企业合规 |
工具选择不是"谁最强"的问题,而是"谁最适合你的工作流"。如果你需要构建 Harness 级别的工程化体系(Skills、Hooks、Memory),Claude Code 目前是唯一成熟的选择。如果你只需要日常 IDE 内的高效编码,Cursor 是性价比最高的方案。两者可以并行使用,通过 symlink 共享 Skills 配置。
1.3 为什么 2026 年是拐点
AI Coding 工具从 2022 年就出现了,但 2026 年是从"能用"到"能上生产"的质变之年。三个关键因素同时成熟:
Claude Opus 4.6 / Sonnet 4.5 / GPT-5 等模型在代码理解、长上下文推理、多步规划方面达到了 "初级-中级工程师"水平。不再是"写个函数还行,项目级不敢用"。
Model Context Protocol 成为 AI 工具连接外部系统的标准协议。Agent 不再局限于"读写代码",而是可以 操作数据库、调用 API、管理项目、读取文档——真正成为一个全栈工作单元。
Skills、Hooks、CLAUDE.md、Memory 等机制让 Agent 的行为从"随机"变为"可控可复现"。从碎石路到柏油路——不是跑得更快,而是每次都能跑出一样的路线。
这三个因素的叠加效应意味着:AI Coding 不再是"程序员的玩具",而是任何需要产出数字化交付物的角色都应该认真考虑的工作方式——尤其是产品经理。
2. 范式转移:从 Prompt 到 Harness
如果说第 1 章回答了"AI Coding 是什么",这一章要回答一个更深层的问题:AI Coding 的核心竞争力到底在哪里?答案不是"用什么模型",也不是"写什么 Prompt"——而是 Harness。
2.1 三个阶段的演进
AI 工程实践经历了三个清晰的阶段,每个阶段解决的核心问题完全不同:
2023: Prompt Engineering
核心问题:怎么跟 AI 说话?
这个阶段大家研究 Chain-of-Thought、Few-shot、角色设定等技巧。本质是在解决单次对话的质量问题。局限性:每次对话都从零开始,结果不可复现,高度依赖个人经验。
2024-2025: Context Engineering
核心问题:怎么给 AI 足够的背景信息?
人们开始意识到,Prompt 的天花板是上下文。RAG、向量数据库、代码索引等技术让 AI 能"看到"更多信息。CLAUDE.md 的出现让项目级上下文可以持久化。本质是把"说话技巧"升级为"信息架构"。
2026: Harness Engineering
核心问题:怎么让 AI 在一个受控系统中持续、稳定地交付?
不再是"给 AI 更多信息",而是构建一个让 Agent 行为可控、可复现、可迭代的工程系统。Skills、Hooks、Memory、Guardrails 组成的 Harness 就是这个系统。类比:从"教一个人做事"到"建一条生产线"。
2.2 什么是 Harness
Anthropic 在 Claude Code 的设计中提出了一个简洁的公式:
Agent = Model + Harness
Model 提供智能,Harness 提供结构。没有 Harness 的 Agent 就像没有工厂的工程师——有能力但没有持续交付的系统。
Harness 由六个核心组件构成:
AI-Assisted(给旧流程加 AI)
- 在 IDE 里加个补全插件
- 用 ChatGPT 问问代码问题
- 让 AI 生成单元测试
- 工作流程不变,AI 是"外挂"
典型心态:"AI 帮我快一点"
AI-First(围绕 Agent 重构系统)
- 用 CLAUDE.md 定义项目规范,Agent 自动遵守
- 用 Skills 封装可复用的工作流程
- 用 Hooks 实现自动化质量检查
- 工作流程围绕 Agent 重新设计
典型心态:"我的系统让 AI 持续产出高质量结果"
Peter Pang(AI 工程实践领域的知名声音)指出:真正的 AI-First 不是给旧流程加 AI,而是围绕 Agent 重构整个工程系统。这个判断在 2026 年已经被大量实践验证。
2.3 Skills 体系:Harness 的实践形态
如果 Harness 是理论框架,Skills 就是它的实践载体。
一个 Skill = 一个目录,包含:
- SKILL.md:上下文定义(这个 Skill 做什么、在什么场景下触发)
- 规则集:Agent 在执行时必须遵守的约束条件
- 模板:输出的标准化格式
- 示例:好的输出长什么样(Few-shot learning 的结构化版本)
本质上,Skill 把"我怎么教 AI 做一件事"从"每次重复说一遍"变成了"定义一次,永久复用"。
一个真实的 100+ Skills 技能库,大致可以分为以下几个层次:
| 类别 | 数量 | 代表 Skill | 用途 |
|---|---|---|---|
| 工程交付 | ~30 | frontend-slides, test-driven-development, code-review | 代码生成、测试、审查、部署的标准化流程 |
| 产品设计 | ~20 | spec, ui-ux-pro-max, design-review | PRD 撰写、UI 设计、设计评审 |
| 知识管理 | ~15 | deep-research, learn, secondbrain | 研究报告、学习笔记、知识库维护 |
| 沟通协作 | ~15 | meeting-transcribe, context-save/restore, changelog | 会议记录、上下文切换、变更日志 |
| 流程自动化 | ~10 | ship, qa, land-and-deploy | 发布、质量保障、部署的自动化 |
| 元能力 | ~10 | skillify, writing-skills, autoplan | "制造 Skill 的 Skill"——让技能库自我进化 |
Harness 层保持轻薄和通用(Claude Code 本身提供的 CLAUDE.md、Hooks、权限等机制),Skills 层承载领域知识和业务逻辑。这种分层类似于操作系统(Harness)和应用程序(Skills)的关系——操作系统不需要知道你的业务是什么,但它提供了让所有应用程序稳定运行的基础设施。
3. 产品经理用 AI Coding 做什么
这是本文最核心的章节。市面上大量 AI Coding 内容都在讨论"程序员怎么用 AI 写代码",但几乎没有人系统讨论过:一个不以编码为主业的产品经理,怎么用 AI Coding 彻底改变自己的工作方式。
3.1 Evals 取代 PRD
这可能是 AI 时代对产品经理影响最深远的变化:传统 PRD(产品需求文档)的有效性正在急剧下降。
传统 PRD
- 定义"做什么"和"怎么做"
- 假设输出是确定性的
- 写一次,开发遵照执行
- 验收标准:功能是否实现
- 产出周期:1-2 周
适用于:传统软件开发
Eval(评估体系)
- 定义"什么是好的输出"
- 承认输出是非确定性的
- 持续迭代,根据结果调整
- 验收标准:输出质量分布
- 产出周期:几小时内可迭代
适用于:AI 驱动的产品开发
为什么 PRD 在 AI 时代失效?因为 AI 的输出是非确定性的——同样的 Prompt 可能产生不同的结果。传统 PRD 假设"按需求做就能得到正确的产品",但 AI 产品需要的是"定义什么是好的,然后不断校准"。
"Writing evals is the most important thing a PM can do in the AI era."
— OpenAI CPO
Eval 的三个核心要素:
3.2 Demo-first 开发
当 AI 把"从需求到可运行代码"的时间从数周压缩到数十分钟,一个全新的开发范式出现了:先做 Demo,再谈需求。
Demo-first 的核心价值不是"快",而是"便宜地试错"。传统模式下试错成本极高(需要占用开发资源),所以产品经理倾向于"想清楚再做"——但问题是,很多需求不做出来根本想不清楚。Demo-first 让"做出来看看"的成本接近零,从而让产品探索变成了一个低成本、高频率的迭代过程。
3.3 从"生产者"到"判断者"
这是 AI 时代产品经理角色变化中最深刻的一个维度:
传统 PM 的时间分配
- 70% 生产:写 PRD、画原型、做竞品分析、整理数据
- 30% 判断:优先级排序、方案取舍、stakeholder 对齐
大量时间花在"把想法变成文档"上
AI 时代 PM 的时间分配
- 30% 生产:定义 Eval 标准、构建 Skills、维护知识库
- 70% 判断:校准 AI 输出、验证业务假设、优先级决策
大量时间花在"判断 AI 做得对不对"上
传统产品方法论(双钻模型、JTBD、设计思维等)有一个隐含的前提假设:信息获取和方案生成的成本很高。所以我们需要一套系统化的方法论来确保"在有限的资源下做出最好的决策"。
AI 打穿了这个假设。当信息获取(Deep Research)和方案生成(AI Coding)的成本接近零时,PM 的核心价值从"高效地生产方案"转向"准确地判断方案"。方法论不会消失,但其功能从"指导生产"变为"校准判断"。
新时代 PM 的三项核心能力:
4. 团队工程化:从个人到组织
前三章聚焦个人视角:AI Coding 是什么、怎么用、改变了什么。这一章要讨论一个更难的问题:怎么从"一个人用得很爽"到"整个团队都能受益"?
4.1 个人效率 ≠ 团队效率
一个人用 AI Coding 快 10 倍,但团队用不起来——这是 2026 年最普遍的困境。原因不是工具不好,而是组织层面存在 5 个结构性障碍:
| # | 障碍 | 表现 | 根因 |
|---|---|---|---|
| 1 | 技能断层 | 团队中只有 1-2 人会用,其他人觉得"太难了" | 缺乏渐进式的上手路径 |
| 2 | 知识孤岛 | 每个人的 Prompt、技巧、配置都在自己脑子里 | 没有 Skills 这样的知识沉淀机制 |
| 3 | 质量焦虑 | 管理者担心"AI 写的代码能上生产吗?" | 缺乏可度量的质量保障流程 |
| 4 | 流程冲突 | AI Coding 的速度跟现有评审、排期流程不兼容 | 旧流程假设"开发是瓶颈",但瓶颈已转移 |
| 5 | 激励失调 | "我花时间研究 AI,绩效上看不出来" | 绩效体系没有跟上工具变革 |
4.2 工程化的四个层次
团队 AI Coding 的成熟度可以分为四个阶段,每个阶段有不同的特征和关键任务:
产出:个人效率提升,但不可复制
关键任务:找到 1-2 个"灯塔用户",让他们自由探索
产出:可复用的 Skills 和最佳实践
关键任务:选一个低风险项目做试点,产出团队共享的 Skills
产出:标准化的工作流程 + 质量保障机制
关键任务:改造评审和交付流程,适配 AI Coding 的速度
产出:跨团队的 Skills 库 + 知识库 + 培训体系
关键任务:建立 AI Coding 的知识管理和人才培养体系
大多数团队试图从 L1 直接跳到 L3("我们制定一个规范,要求大家都用 AI Coding"),结果发现推不动。正确路径是 L1 → L2 → L3 → L4,每个阶段需要 2-3 个月的自然演进。L2 阶段的 Skills 共享是关键转折点——它把个人经验变成了团队资产。
4.3 AI Coding 的组织基础设施
要让 AI Coding 从个人能力升级为组织能力,需要三个基础设施:
基础设施 1: Skills 统一管理
通过 symlink(符号链接)实现 Skills 在不同 IDE 和工具之间的共享。一套 Skills 同时在 Claude Code 和 Cursor 中生效,避免重复维护。团队成员通过 Git 仓库共享和同步 Skills,像管理代码一样管理工作流。
基础设施 2: 知识库自动化
构建一条完整的知识流水线:飞书 CLI 结构化提取沟通信息 → Agent 处理和归纳 → 写入 Obsidian 知识库 → 反向更新 Skills。这条流水线确保团队的经验教训不会丢失在聊天记录里,而是被系统化地沉淀和复用。
基础设施 3: 质量保障前置
把验收标准从"事后检查"前移到"事前定义"。在 CLAUDE.md 和 Skills 中定义好质量标准,Agent 在执行过程中就自动遵守。不是做完再审,而是做的过程中就在审。这与 Eval 思维一脉相承。
5. 实战案例
理论说得再好,不如看实际怎么用。这一章分享三个真实案例,分别对应 AI Coding 的不同应用场景。
5.1 60 分钟速赛:AI Coding 的极限压测
某 B 端科技企业每周四举办内部 AI Coding 速赛——60 分钟限时开发 + 3 分钟演示。这个赛制本身就是一个精心设计的 AI Coding 训练场。
- 时间:60 分钟开发 + 3 分钟演示
- 评判标准:演示效果 > 代码质量(你做出来了什么比怎么做的重要)
- 工具不限:Claude Code、Cursor、Codex 随便用
- 不计较代码整洁:速赛不是代码审查
10 条硬门(赛中约束):
| # | 约束 | 为什么 |
|---|---|---|
| 1 | 不许 brainstorm | 60 分钟没时间发散,必须快速锁定方向 |
| 2 | 不许写测试 | 时间全部用来做可演示的功能 |
| 3 | 不许大重构 | 在现有基础上增量构建,不要推倒重来 |
| 4 | 演示效果 > 代码质量 | 训练"交付导向"思维 |
| 5 | 前 5 分钟必须确定技术方案 | 避免在技术选型上浪费时间 |
| 6 | 每 15 分钟必须有可运行的版本 | 增量交付,避免"最后一刻才发现跑不起来" |
| 7 | 不许手动安装依赖超过 3 分钟 | 环境问题不应该吃掉开发时间 |
| 8 | 最终演示必须从零启动 | 证明产出是可独立运行的 |
| 9 | 允许复用自己的 Skills 和模板 | 鼓励日常积累,Skills 就是竞争优势 |
| 10 | 不允许提前准备代码 | Skills 和模板可以提前准备,但代码不行 |
这条反直觉的规则背后有一个深刻的洞察:在 60 分钟的极限约束下,测试的 ROI 极低。写测试的时间足够多做一个核心功能。但更重要的是,这条规则训练了一种"结果导向"的思维——不是"代码是否正确",而是"用户看到的是否有价值"。
当然,这不意味着日常开发不需要测试。速赛的极端环境恰恰揭示了一个普适原理:在资源极度有限时,优先保障"可见价值"比"内部质量"更重要。日常工作中,这个原理同样适用于 MVP 阶段和概念验证。
一个典型的速赛流程:
5.2 产品经理的工作流变革
以下是一个真实的 PM 工作流对比——从传统模式到 AI-augmented 模式的转变:
输入端:结构化信息采集
传统 PM 的信息来源是"开会 + 看文档 + 聊天记录翻找",效率极低。AI-augmented PM 使用飞书 CLI 结构化提取沟通信息——自动拉取群消息、按时间筛选、提取关键决策点。投标文件、客户需求邮件等也通过 Agent 自动解析和归纳。
处理层:Agent 驱动的工作流
信息进入 Agent 后,通过不同的 Skills 自动路由到对应的处理流程。一个需求输入可能同时触发:竞品分析 Skill、技术可行性评估 Skill、Demo 原型生成 Skill。并行处理替代了串行等待。
输出端:四类标准化产出
Agent 的输出被标准化为四类:
- 文档:PRD / 分析报告 / 会议纪要
- 可交互 Demo:HTML 原型 / 可运行的 MVP
- 验收标准:Eval 数据集 + 评分规则
- 开发 PRD:面向工程团队的精确技术文档
传统 PM 一周产出
- 1 份 PRD(2-3 天)
- 1 份竞品分析(1-2 天)
- 若干会议纪要(碎片时间)
- 原型图若干页(Axure/Figma)
总工时:40-50 小时
AI-augmented PM 一天产出
- 1 份 PRD + Eval 体系(2 小时)
- 1 个可交互 Demo(1 小时)
- 自动化的会议纪要(实时)
- 竞品分析 + 技术可行性(1 小时)
总工时:6-8 小时(剩余时间用于判断和沟通)
5.3 知识库驱动的持续进化
AI Coding 的真正威力不在于"一次做得快",而在于每次做都比上次更好。这靠的是一个持续进化的循环:
Step 1: 实践
用 AI Agent 完成一个具体任务(写一份 PRD、做一个 Demo、交付一个功能)。
Step 2: 提取 Lessons
任务结束后,复盘哪些地方 Agent 做得好、哪些地方需要额外引导、哪些 Prompt 特别有效。这些就是 Lessons。
Step 3: 反向更新 Skill
把 Lessons 固化到对应的 Skill 中——修改规则、添加示例、调整模板。下次再做同类任务时,Agent 的起点更高。
Step 4: 知识库沉淀
跨 Skill 的经验教训写入知识库(Obsidian),形成可检索的经验资产。这不是"写文档",而是让未来的 Agent 会话能访问过去的经验。
这个循环就是个人层面的"碎石路到柏油路"。一开始,每个任务都是"碎石路"——Agent 需要大量引导,产出质量不稳定。但每次实践后的 Skill 更新,都相当于铺了一段柏油。100 次实践之后,你的 Skills 体系就是一条平整的高速公路——Agent 在上面跑得又快又稳。
6. 与 FDE 的交叉
如果你读过本站的 FDE 深度调研,会发现 AI Coding 和 FDE 之间存在深刻的互补关系。这一章做一个简要的交叉分析。
6.1 AI Coding 是 FDE 模式的成本革命
FDE 模式最大的落地障碍是什么?成本。
传统 FDE 需要的是"全栈高手"——既懂业务、又能写生产级代码、还要有客户沟通能力。这种人才极度稀缺,年薪通常在 30-60 万以上(国内)或 $150K-$250K(硅谷)。对于中等规模的 B 端企业来说,养一个 FDE 团队的成本是难以承受的。
传统 FDE 的人才模型
- 需要:高级全栈工程师
- 技术能力:独立交付生产级代码
- 业务能力:深度理解客户业务
- 人才获取:极难招聘
- 年成本:30-60 万 / 人
AI 时代 FDE 的人才模型
- 需要:中级工程师 + AI Coding
- 技术能力:AI Agent 完成编码,人负责验收
- 业务能力:同样需要深度理解客户业务
- 人才获取:门槛显著降低
- 年成本:15-30 万 / 人
关键洞察:AI Coding 不能替代 FDE 的业务理解力和客户沟通能力,但它显著降低了 FDE 的技术门槛。一个中级工程师 + 成熟的 AI Coding 工具,在代码产出能力上可以接近高级全栈工程师的水平。这使得中等规模企业也能以可接受的成本启动 FDE 实践。
6.2 "人人都是产品经理"的组织含义
吴恩达(Andrew Ng)在最近的分享中提出了一个重要判断:
当 coding agent 把写代码提速 10 倍后,瓶颈转移到"决定做什么"。最快的团队让工程师自己理解用户、判断优先级、直接实现。
这个判断与 FDE 的 Echo-Delta 结构(详见 FDE 调研)有深刻的共鸣:
当"做出来"不再是瓶颈,组织中的瓶颈就转移到了"谁最懂用户"和"谁能做出正确的取舍"。这恰好是产品经理的核心能力——但不一定只有产品经理才能具备这些能力。FDE 模式 + AI Coding 的组合,让工程师也能承担传统意义上 PM 的部分职责。
这不是说"产品经理要失业了"。相反,PM 的角色从"需求传递者"升级为"判断力校准者"——不是告诉工程师做什么,而是帮助整个团队建立判断什么该做的能力。这与 FDE 模式中"对业务结果负责"的理念完全一致。
7. 风险与诚实面对
任何技术都有其局限和风险。AI Coding 也不例外。诚实面对这些问题,比盲目乐观更有价值。
现状:2026 年的 AI 模型在"写正确的代码"方面已经相当可靠,但在"写好的代码"方面仍有差距。AI 生成的代码常见问题包括:过度冗长、缺乏抽象、命名不够语义化、异常处理过于防御性。
应对策略:
- Harness 规范:通过 CLAUDE.md 和 Skills 定义代码规范(如 Karpathy Guidelines),Agent 会自动遵守。比人类工程师的规范执行更一致。
- Code Review 前置:用 AI 审查 AI 生成的代码(/code-review Skill),再由人类做最终审查。双重过滤显著提升质量。
- 渐进式信任:从非核心模块开始使用,逐步扩展到核心代码。建立团队对 AI 代码质量的直觉。
结论:AI 代码的质量"可控但需要机制"。裸跑不行,但加上 Harness 后,质量可以达到"资深初级工程师"水平——对大多数场景已经够用。
现状:AI 确实可能生成存在安全隐患的代码——SQL 注入、XSS、硬编码密钥等。但研究表明,AI 生成代码的安全漏洞率并不比初级人类工程师高。
应对策略:
- 安全 Skills:在 Harness 中嵌入安全检查规则(/security-review),每次代码生成后自动运行。
- Guardrails:配置 Agent 权限白名单,禁止执行危险操作(如删除数据库、修改系统配置)。
- CI/CD 集成:在部署流水线中集成自动化安全扫描,作为最后一道防线。
结论:安全风险真实存在,但可以通过工程化手段控制到可接受水平。关键是不要假设 AI 生成的代码天然安全,而是建立与人工代码同等严格的安全审查流程。
现状:AI 模型的升级不是向后兼容的。一个在 Claude 3.5 上表现完美的 Skill,升级到 Claude 4.6 后可能行为发生变化。这种"模型漂移"是 AI Coding 工程化面临的独特挑战。
应对策略:
- Eval 驱动:为关键 Skills 建立 Eval 数据集。模型升级后跑一遍 Eval,快速发现行为变化。
- 版本锁定:对生产环境使用的 Skills,锁定模型版本,升级前在测试环境验证。
- Thin Harness 原则:Skills 不依赖模型的特定行为细节,只依赖通用能力。越"厚"的 Skill 越脆弱。
结论:这是一个真实且目前没有完美解法的问题。Eval 是目前最好的应对策略,但也需要持续投入。对于个人用户而言,保持 Skill 的简洁和通用是最好的防御。
现状:这是最常被提起的担忧,也是最需要诚实面对的问题。当 AI 替你写了 90% 的代码,你的编程能力确实可能退化——就像导航 App 普及后,很多人失去了认路能力。
但更准确的描述是"能力重构"而非"能力退化":
- 退化的:手写代码的速度和语法记忆
- 增强的:系统设计能力、代码审查能力、需求定义能力
- 新增的:Harness 构建、Eval 设计、AI 协作的元能力
应对策略:
- 保持"手感":定期做不用 AI 的编码练习(比如速赛中偶尔尝试纯手工)
- 深入理解:不只看 AI 的输出,理解它为什么这样写。Code Review 是最好的学习方式。
- 认清趋势:就像没有人抱怨"计算器让我口算能力退化了"一样,某些"基础能力"的重要性确实在下降。关键是把时间投入到未来更有价值的能力上。
结论:与其纠结"能力退化",不如关注"能力迁移"。AI 时代需要的是不同的能力组合,而不是旧能力的加强版。
附录
A. 术语表
| 术语 | 英文 | 解释 |
|---|---|---|
| Agent | Agent | 能自主感知环境、做出决策、执行行动的 AI 系统。区别于简单的"聊天机器人",Agent 有工具使用和多步推理能力。 |
| Harness | Harness | Agent 的运行环境和控制系统。包括 Agentic Loop、Tool System、Memory、Guardrails、Hooks、Session 六大组件。让 Agent 的行为从随机变为可控可复现。 |
| Skill | Skill | Claude Code 中的可复用工作流定义。一个目录 = SKILL.md(上下文)+ 规则 + 模板 + 示例。 |
| Eval | Evaluation | AI 产品的质量评估体系。由 Data(测试数据)+ Task(任务定义)+ Scores(评分标准)三部分组成。用于替代传统 PRD 的验收功能。 |
| MCP | Model Context Protocol | Anthropic 提出的开放协议,让 AI 模型能标准化地连接外部工具和数据源。类似于 AI 世界的"USB 接口"。 |
| CLAUDE.md | CLAUDE.md | 项目级的配置文件,定义 Agent 在该项目中的行为规范、上下文信息和约束条件。相当于"给 Agent 的入职手册"。 |
| FDE | Forward Deployed Engineer | 前线部署工程师。由 Palantir 首创的工程角色,特征是嵌入客户现场、写生产代码、对业务结果负责。 |
| Context Engineering | Context Engineering | 系统性地管理和优化 AI 模型输入上下文的工程实践。比 Prompt Engineering 更关注信息的结构化和持久化。 |
| Hooks | Hooks | Agent 生命周期中的自定义钩子。可以在工具调用前后、会话开始结束等关键节点插入自定义逻辑。 |
B. 工具推荐清单
| 场景 | 推荐工具 | 理由 |
|---|---|---|
| 终端 Agent 开发 | Claude Code(MAX 订阅) | 最强 Agent 能力,原生 Harness 支持,Skills 生态 |
| IDE 内日常编码 | Cursor Pro | VS Code 生态,Composer Agent 能力,性价比高 |
| 批量代码任务 | Codex | 云端沙盒执行,适合 CI/CD 集成 |
| 知识管理 | Obsidian + Agent 插件 | 本地优先,Markdown 格式,与 Skills 体系天然兼容 |
| 团队沟通结构化 | 飞书 CLI(lark-cli) | 比桌面控制快 10 倍,输出结构化,可管道处理 |
| 部署与发布 | Cloudflare Pages | 零配置部署,自动 HTTPS,边缘网络加速 |
| 深度研究 | Claude Deep Research / Perplexity | 多源交叉验证,自动引用,适合需求分析和技术选型 |
C. 参考资料
- OpenAI CPO on Evals — "Writing evals is the most important thing a PM can do in the AI era."
- Andrew Ng on AI Coding — 当 coding agent 把写代码提速 10 倍后,瓶颈转移到"决定做什么"
- Peter Pang on AI-First — 真正的 AI-First 不是给旧流程加 AI,而是围绕 Agent 重构工程系统
- Anthropic Claude Code 文档 — Agent = Model + Harness 的技术框架
- Claude Code 官方文档 — Harness 架构和 Skills 体系的权威参考
- Model Context Protocol — MCP 协议官方文档
- Cursor IDE — AI-first 代码编辑器
- FDE 落地可行性研究 — 本站 FDE 深度调研报告
- FDE 落地指南 — FDE 模式的实操落地路径