跳转到主内容

Claude Code 使用示例:搜索调研、网页抓取与文件批处理

2026-06-05claude-code · 搜索 · 爬虫 · 文件处理 · 实战 · 效率

一、从“聊天”到“干活”

很多人把 Claude Code 当成终端版的 ChatGPT——输入问题、得到答案、复制粘贴到代码编辑器。这没有充分利用了 Claude Code 的核心能力:它不是你的远程顾问,而是坐你旁边的开发者

维度普通 AI 对话(网页版)Claude Code(CLI)
交互方式复制 → 粘贴 → 复制 → 粘贴直接在你的项目里操作
上下文你告诉它什么才知道什么自动读取整个项目代码
执行力只能给建议和代码片段直接创建文件、改代码、运行命令、跑测试
记忆每次对话独立CLAUDE.md + Memory 系统记住项目规则
工具调用无法调用外部工具MCP 连接浏览器、数据库、GitHub 等

本文聚焦三个最高频的实战场景:搜索调研、网页抓取、文件批处理。每个场景都有完整的配置步骤和可直接使用的 Prompt 模板。

Claude Code 的搜索能力层级

Claude Code 的搜索不是“帮你在 Google 上搜一下”——它自动完成搜索 → 阅读 → 交叉验证 → 整理 → 输出的全流程。

三类搜索工具

工具特点安装搜索方式
内置 WebSearch开箱即用,零配置无需安装Claude 自动发起 web 搜索
搜索 MCP更强引擎,更多信息来源编辑 ~/.claude/settings.jsonmcpServers 字段Brave/Tavily/Perplexity 等专业搜索引擎
Context7 MCP专查最新版本编程库文档编辑 ~/.claude/settings.jsonmcpServers 字段直接查询 npm/pip/cargo 等包仓库的最新文档

实战:技术选型调研报告

场景:你需要为一个新项目选择 AI Agent 开发框架(LangChain vs CrewAI vs AutoGen vs Claude Agent SDK vs OpenAI Agents SDK),写一份调研报告给团队评审。

传统方式耗时:2–3 小时(手动 Google → 打开 20+ 网页 → 阅读 → 手动整理表格)

Claude Code 方式——在终端输入:

text
帮我深度调研 2026 年主流的 AI Agent 开发框架,包括:
1. LangChain、CrewAI、AutoGen、Claude Agent SDK、OpenAI Agents SDK
2. 每个框架的核心理念、优劣势、适合场景
3. GitHub Star 数和社区活跃度(最近 6 个月趋势)
4. 给出你的推荐:适合个人开发者 vs 企业团队
具体要求:
- 整理成 Markdown 表格
- 每条关键信息标注来源链接
- 保存到 research/agent-frameworks-report.md
- 最后用一段话总结你的推荐理由

Claude Code 会自动做什么

  1. 并行搜索:同时搜索 5 个框架的最新信息(如果配了 SubAgent 会自动并行)
  2. 交叉验证:对于 GitHub Star 数这种关键数据,从多个来源确认
  3. 自动整理:生成结构化对比表格
  4. 标注来源:每条信息的原始链接都会保留
  5. 保存文件:自动创建 research/ 目录并写入报告

预计耗时:5–10 分钟

关键技巧:让搜索更精准

技巧示例
明确输出格式“整理成表格”、“输出为 Markdown”、“用 JSON 格式”
指定保存路径“保存到 research/xxx.md”,Claude 会自动创建目录
要求标注来源“每条数据标注来源链接”、“标注引用出处”
指定对比维度“从性能、生态、学习成本、价格四个维度对比”
迭代深入看完初步结果后继续追问细节
善用并行“帮我同时调研 A 和 B”——Claude 自动启用 SubAgent
限定数据源价格等易变动信息建议指定:“优先以各品牌官网实时定价页面为准”

三、场景二:网页内容抓取

⚠️ 法律合规提醒:网页抓取功能仅限个人学习研究使用。使用前请遵守目标网站的 robots.txt 协议和相关版权声明。严禁恶意高频爬取、绕过反爬机制抓取付费内容、或将抓取内容用于商业再分发。违规使用可能导致法律风险。

三种抓取方案

方案工具原理稳定性适用场景安装
A内置 WebFetchHTTP 请求 → 转 Markdown★★★静态页面、博客、文档站无需安装
BChrome DevTools MCP连接本地 Chrome 浏览器★★★★★JS 渲染页面、需登录页面、SPAnpx 安装
Cagent-browser独立无头浏览器★★☆需隔离环境需额外安装

内置 WebFetch 的限制

  • 大小限制:单个页面的抓取有内容大小上限,超长页面可能无法完整抓取,只返回前段内容
  • 频次限制:短时间内连续发起大量 WebFetch 请求可能触发速率限制
  • JS 渲染不完整:对于完全依赖客户端 JS 渲染的 SPA 页面,WebFetch 可能抓取不到实际内容——此时应改用 Chrome DevTools MCP

Chrome DevTools MCP 的环境要求

必须是原版 Google Chrome(正式版或 Beta 版均可)。绿色便携版、修改版、部分国产浏览器的 Chromium 内核版本可能因调试端口未开放而无法挂载。首次使用需在 Chrome 中开启远程调试端口。

方案选择指南

text
你要抓取的页面是哪种?
├─ 普通静态页面 → 方案 A(WebFetch)足够了
│ ⚠️ 超大页面可能抓取不全
├─ JavaScript 渲染页面(React/Vue SPA)→ 方案 B
│ ⚠️ 必须是原版 Chrome,绿色便携版无效
├─ 需要登录后查看的页面 → 方案 B
│ Claude 可以操作你已经登录的浏览器
└─ 需要隔离 → 方案 C(agent-browser)

实战:批量提取技术文档

场景:把 React Hook Form 的完整 API 文档提取出来,保存为本地 Markdown。

text
请抓取 React Hook Form 的官方 API 文档:
1. 从 https://react-hook-form.com/api/useform 开始
2. 依次抓取 useForm、useController、useFieldArray、useWatch
四个主要 Hook 的文档
3. 每个 Hook 提取:函数签名、参数说明、返回值类型、代码示例
4. 整合为一份 Markdown 文件,保存到 docs/react-hook-form-api.md

四、场景三:文件批处理

Claude Code 能处理的文件操作

  • 整理文件夹:按文件类型、修改日期、大小等维度自动归类
  • 批量重命名:按规则一次性重命名大量文件
  • 格式转换:JSON ↔ YAML ↔ CSV ↔ Markdown ↔ SQL
  • 数据提取:从 Excel/CSV 中提取特定字段并转为结构化数据
  • 文件内容分析:统计、查找、替换、去重

文件处理的能力边界

  • 加密文件:受密码保护的压缩包、加密的 PDF、加密的 ZIP/RAR 等无法解析
  • 权限锁定文件:被操作系统或其他程序独占锁定的文件无法操作
  • 超大文件:超过 100MB 的单个文件建议先手动分片后再处理

实战:整理混乱的项目目录

text
帮我整理 downloads/ 文件夹:
1. 按文件类型分类到子文件夹:
images/、documents/、code/、archives/、other/
2. 对于 images/,按月份再细分
(读取 EXIF 中的拍摄日期,没有 EXIF 按文件修改时间)
3. 对于 documents/,PDF 一类、Office 文档一类、其他一类
4. 整理前先列出操作计划让我确认,不要直接移动文件

实战:数据提取与格式转换

text
读取 feedback.xlsx 文件:
1. 提取"评分"列 ≤ 2 的所有行(负面反馈)
2. 按"分类"列分组
3. 每组输出:分类名、数量、具体反馈列表
4. 保存为 JSON 文件:data/negative-feedback.json

文件处理的安全提醒

⚠️ 操作安全提示
  • 让 Claude Code 执行批量删除、移动、覆盖等操作前,建议先对目标目录做一次完整备份
  • 在操作项目源码、系统配置文件、数据库文件等关键数据时,建议让 Claude 先列出计划让你确认,不要直接让它执行
  • “清理”、“整理”、“归类”这类指令存在歧义——Claude 对“无用文件”的判断可能与你的预期不同。始终使用两步法:① 列出计划 → ② 确认后执行
  • 绝对不要用模糊指令让 Claude 操作系统目录(如 C:\Windows/etc/usr 等)

五、场景四:竞品分析与产品调研

实战:AI 编程工具选型对比

text
帮我调研 2026 年主流的 AI 编程工具
(Cursor、Windsurf、Claude Code、GitHub Copilot),从以下维度对比:
1. 定价(免费版限制、付费套餐价格)
—— 优先以各品牌官网定价页面实时数据为准
2. 支持的底层模型(可以用哪些大模型)
3. 核心特色功能(每个工具独有的卖点)
4. IDE 支持(独立 IDE 还是插件?支持哪些 IDE?)
5. 适合什么人群
整理成 Markdown 对比表格,每条价格信息标注来源和更新时间。
保存到 research/ai-coding-tools-comparison-2026.md
价格数据提示:大模型工具的价格变动频繁,建议在 prompt 中强调“优先以各品牌官网定价页面实时数据为准”而非依赖搜索引擎缓存的旧页面,以确保价格数据的时效性。

六、效率提升量化

任务传统方式耗时Claude Code 耗时效率提升
5 个框架的技术选型调研2–3 小时5–10 分钟~18x
50 页技术文档提取整理1–2 小时3–5 分钟~20x
200 个文件整理归类30–60 分钟2–3 分钟~15x
竞品分析(5 款产品 × 6 维度)3–4 小时10–15 分钟~16x
数据说明:以上提速倍数为常规规模任务在正常网络条件下的实测均值。实际耗时取决于任务复杂度、网络速度、MCP 工具配置情况以及所使用模型版本。当处理超大文件(单文件 >50MB)或高频网络请求时,效率提升幅度会显著缩水——Claude Code 的优势主要在快速理解和小型操作,对 I/O 密集型的大型文件任务提升有限。

七、新手常犯的 5 个错误

错误 1:Prompt 太模糊

❌ “帮我调研一下 AI Agent 框架”

✅ “帮我对比 LangChain、CrewAI、AutoGen、Claude Agent SDK、OpenAI Agents SDK 从核心理念、GitHub Star 数、适合场景三个维度进行对比,整理成表格,保存到 research/agent-frameworks.md”

关键:告诉 Claude 你要什么格式、保存在哪里。

错误 2:不让 Claude 读项目代码

Claude Code 的最大优势是能自动读取你的项目代码。在 prompt 中引用项目中已有的文件路径和风格参考。

错误 3:一次性任务太复杂

一个 prompt 包含 10 个子任务会造成 Claude 的注意力分散。拆成 2–3 个子任务,每步确认后再继续。

错误 4:不保存结果到文件

Claude Code 的对话历史会随会话结束而消失。任何有价值的内容都应该保存到文件。每次都加上 “保存到 docs/xxx.md”

错误 5:不安装搜索 MCP

内置 WebSearch 能用,但搜索 MCP(Brave Search + Tavily)在搜索质量和专业性上有明显提升。花 5 分钟装好,之后的每次调研都会受益。

八、使用建议

text
第 1 步(立即):
用内置 WebSearch 试一次技术调研
第 2 步(今天):
安装 Brave Search MCP + Tavily MCP(共 5 分钟)
第 3 步(本周):
尝试文件批处理——整理一个杂乱的文件夹或提取 Excel 数据
⚠️ 操作前做好备份!
第 4 步(下周):
安装 Chrome DevTools MCP(如需抓取 JS 渲染页面)
注意:需要原版 Chrome,绿色便携版不兼容
尝试一次竞品分析,生成完整的调研报告

九、总结

Claude Code 的主要用途不是“能聊天”,而在于 “能执行操作”

  • 搜索调研:不用再手动 Google → 打开 20 个 tab → 复制粘贴。一句话自动完成全流程
  • 网页抓取:静态页面用内置 WebFetch(注意大小和频次限制),JS 页面用 Chrome DevTools MCP(需原版 Chrome)。建议遵守 robots.txt 和版权法规
  • 文件处理:直接在项目中创建、修改、整理文件,结果是可直接使用的文件而非建议。删除和迁移操作前先备份

这三个场景覆盖了开发者日常工作量的 40–50%。掌握它们,你就从“AI 工具的使用者”变成了“AI 驱动力倍增的开发者”。


备注 1:本文中的 Prompt 模板基于 Claude Code 0.9.x 版本测试通过。MCP 服务器的可用性、免费额度以及内置 WebFetch 的功能限制均可能随 Claude Code 版本迭代而变更,实际操作请以官方最新文档为准。

备注 2:文中所涉方案(网页抓取、文件批处理等)仅限个人学习研究用途。如需商用,请遵守中华人民共和国相关法律法规、目标网站的 robots.txt 协议以及各平台 API 服务协议中的商用条款。

有疑问?来这里找答案

如果对本站内容有疑问,推荐到视频或其他知识性平台寻求解决方法,也可直接向 AI 提问获得参考性回答(注意分辨 AI 回答的正确性)

视频教程
B站搜索教程
视频演示 + 疑难解答