Claude Code 使用示例：搜索调研、网页抓取与文件批处理

2026-06-05claude-code · 搜索 · 爬虫 · 文件处理 · 实战 · 效率

一、从“聊天”到“干活”

很多人把 Claude Code 当成终端版的 ChatGPT——输入问题、得到答案、复制粘贴到代码编辑器。这没有充分利用 Claude Code 的核心能力：它可以在本地直接读写文件、运行命令和管理项目，而不仅是返回文本建议。

场景速查：搜索 · 抓取 · 文件处理工具选型

场景	首选方案	零配置	是否需要 MCP
通用搜索	内置 WebSearch	✅	否
深度搜索 / 交叉验证	Brave Search MCP / Tavily MCP	—	是
最新编程库文档	Context7 MCP	—	是
聚合多引擎搜索	SearXNG（自部署）	—	是
静态页面抓取	内置 WebFetch	✅	否
JS 渲染页面 / SPA	Chrome DevTools MCP	—	是
文件处理 / 格式转换	Claude Code 内置工具	✅	否

本文聚焦三个最高频的实战场景：搜索调研、网页抓取、文件批处理。每个场景都有完整的配置步骤和可直接使用的 Prompt 模板。

二、场景一：深度搜索与调研

Claude Code 的搜索能力层级

Claude Code 的搜索不是“帮你在 Google 上搜一下”——它自动完成搜索 → 阅读 → 交叉验证 → 整理 → 输出的全流程。

三类搜索工具

工具	特点	安装	搜索方式
内置 WebSearch	开箱即用，零配置	无需安装	Claude 自动发起 web 搜索
搜索 MCP	更强引擎，更多信息来源	编辑 `~/.claude/settings.json` 的 `mcpServers` 字段	Brave/Tavily/Perplexity 等专业搜索引擎
Context7 MCP	专查最新版本编程库文档	编辑 `~/.claude/settings.json` 的 `mcpServers` 字段	直接查询 npm/pip/cargo 等包仓库的最新文档

实战：技术选型调研报告

场景：你需要为一个新项目选择 AI Agent 开发框架（LangChain vs CrewAI vs AutoGen vs Claude Agent SDK vs OpenAI Agents SDK），写一份调研报告给团队评审。

传统方式耗时：2–3 小时（手动 Google → 打开 20+ 网页 → 阅读 → 手动整理表格）

Claude Code 方式——在终端输入：

text

帮我深度调研 2026 年主流的 AI Agent 开发框架，包括：

1. LangChain、CrewAI、AutoGen、Claude Agent SDK、OpenAI Agents SDK

2. 每个框架的核心理念、优劣势、适合场景

3. GitHub Star 数和社区活跃度（最近 6 个月趋势）

4. 给出你的推荐：适合个人开发者 vs 企业团队

具体要求：

- 整理成 Markdown 表格

- 每条关键信息标注来源链接

- 保存到 research/agent-frameworks-report.md

- 最后用一段话总结你的推荐理由

Claude Code 会自动做什么：

并行搜索：同时搜索 5 个框架的最新信息（如果配了 SubAgent 会自动并行）
交叉验证：对于 GitHub Star 数这种关键数据，从多个来源确认
自动整理：生成结构化对比表格
标注来源：每条信息的原始链接都会保留
保存文件：自动创建 research/ 目录并写入报告

预计耗时：5–10 分钟

搜索调研输出示例：框架对比报告节选

以下为 Claude Code 实际生成的调研报告片段（简化后）：

markdown

## AI Agent 框架对比报告 (2026-06)

| 框架 | GitHub Stars | 核心理念 | 最适合 | 学习曲线 |

|------|------------|---------|--------|---------|

| LangChain | 108k | 链式调用 + Agent 编排 | 企业级 RAG 应用 | 较陡 |

| CrewAI | 28k | 多 Agent 角色扮演协作 | 复杂工作流 | 中等 |

| AutoGen | 42k | 微软出品，对话驱动 | .NET 生态/微软用户 | 中等 |

| Claude Agent SDK | 18k | 原生 MCP + 工具扩展 | Claude 深度用户 | 较低 |

| OpenAI Agents SDK | 25k | 轻量 Agent 循环 | 快速原型 | 较低 |

## 推荐

- **个人开发者** → OpenAI Agents SDK（轻量、免费额度大）

- **企业团队** → LangChain（生态最全、生产案例最多）

- **Claude 用户** → Claude Agent SDK（原生 MCP，零切换成本）

> 数据来源标注在各条目原始链接中，此处省略。

关键技巧：让搜索更精准

技巧	示例
明确输出格式	“整理成表格”、“输出为 Markdown”、“用 JSON 格式”
指定保存路径	“保存到 research/xxx.md”，Claude 会自动创建目录
要求标注来源	“每条数据标注来源链接”、“标注引用出处”
指定对比维度	“从性能、生态、学习成本、价格四个维度对比”
迭代深入	看完初步结果后继续追问细节
善用并行	“帮我同时调研 A 和 B”——Claude 自动启用 SubAgent
限定数据源	价格等易变动信息建议指定：“优先以各品牌官网实时定价页面为准”

三、场景二：网页内容抓取

三种抓取方案

方案	工具	原理	稳定性	适用场景	安装
A	内置 WebFetch	HTTP 请求 → 转 Markdown	★★★	静态页面、博客、文档站	无需安装
B	Chrome DevTools MCP	连接本地 Chrome 浏览器	★★★★★	JS 渲染页面、需登录页面、SPA	`npx` 安装
C	agent-browser	独立无头浏览器	★★☆	需隔离环境	需额外安装

内置 WebFetch 的限制

大小限制：单个页面的抓取有内容大小上限，超长页面可能无法完整抓取，只返回前段内容
频次限制：短时间内连续发起大量 WebFetch 请求可能触发速率限制
JS 渲染不完整：对于完全依赖客户端 JS 渲染的 SPA 页面，WebFetch 可能抓取不到实际内容——此时应改用 Chrome DevTools MCP

Chrome DevTools MCP 的环境要求

必须是原版 Google Chrome（正式版或 Beta 版均可）。绿色便携版、修改版、部分国产浏览器的 Chromium 内核版本可能因调试端口未开放而无法挂载。首次使用需在 Chrome 中开启远程调试端口。

Chrome DevTools MCP 安装与配置

安装：

bash

npm install -g @anthropic/mcp-server-chrome-devtools

Claude Code 配置（settings.json）：

json

{

"mcpServers": {

"chrome-devtools": {

"command": "npx",

"args": ["-y", "@anthropic/mcp-server-chrome-devtools"],

"env": {

"CHROME_DEBUG_PORT": "9222"

}

启动 Chrome 时开启调试端口：

bash

# Windows

"C:\Program Files\Google\Chrome\Application\chrome.exe" --remote-debugging-port=9222

# macOS

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --remote-debugging-port=9222

# Linux

google-chrome --remote-debugging-port=9222

注意：Chrome DevTools MCP 需要原版 Chrome 在调试模式下运行。启动后 Chrome 会提示"浏览器正在被自动化软件控制"——这是正常状态。

方案选择指南

text

你要抓取的页面是哪种？

├─ 普通静态页面 → 方案 A（WebFetch）足够了

│ ⚠️ 超大页面可能抓取不全

│

├─ JavaScript 渲染页面（React/Vue SPA）→ 方案 B

│ ⚠️ 必须是原版 Chrome，绿色便携版无效

│

├─ 需要登录后查看的页面 → 方案 B

│ Claude 可以操作你已经登录的浏览器

│

└─ 需要隔离 → 方案 C（agent-browser）

实战：批量提取技术文档

场景：把 React Hook Form 的完整 API 文档提取出来，保存为本地 Markdown。

text

请抓取 React Hook Form 的官方 API 文档：

1. 从 https://react-hook-form.com/api/useform 开始

2. 依次抓取 useForm、useController、useFieldArray、useWatch

四个主要 Hook 的文档

3. 每个 Hook 提取：函数签名、参数说明、返回值类型、代码示例

4. 整合为一份 Markdown 文件，保存到 docs/react-hook-form-api.md

四、场景三：文件批处理

Claude Code 能处理的文件操作

整理文件夹：按文件类型、修改日期、大小等维度自动归类
批量重命名：按规则一次性重命名大量文件
格式转换：JSON ↔ YAML ↔ CSV ↔ Markdown ↔ SQL
数据提取：从 Excel/CSV 中提取特定字段并转为结构化数据
文件内容分析：统计、查找、替换、去重

文件处理的能力边界

加密文件：受密码保护的压缩包、加密的 PDF、加密的 ZIP/RAR 等无法解析
权限锁定文件：被操作系统或其他程序独占锁定的文件无法操作
超大文件：超过 100MB 的单个文件建议先手动分片后再处理

实战：整理混乱的项目目录

text

帮我整理 downloads/ 文件夹：

1. 按文件类型分类到子文件夹：

images/、documents/、code/、archives/、other/

2. 对于 images/，按月份再细分

（读取 EXIF 中的拍摄日期，没有 EXIF 按文件修改时间）

3. 对于 documents/，PDF 一类、Office 文档一类、其他一类

4. 整理前先列出操作计划让我确认，不要直接移动文件

实战：数据提取与格式转换

text

读取 feedback.xlsx 文件：

1. 提取"评分"列 ≤ 2 的所有行（负面反馈）

2. 按"分类"列分组

3. 每组输出：分类名、数量、具体反馈列表

4. 保存为 JSON 文件：data/negative-feedback.json

文件处理的安全提醒

⚠️ 操作安全提示：

让 Claude Code 执行批量删除、移动、覆盖等操作前，建议先对目标目录做一次完整备份
在操作项目源码、系统配置文件、数据库文件等关键数据时，建议让 Claude 先列出计划让你确认，不要直接让它执行
“清理”、“整理”、“归类”这类指令存在歧义——Claude 对“无用文件”的判断可能与你的预期不同。始终使用两步法：① 列出计划 → ② 确认后执行
绝对不要用模糊指令让 Claude 操作系统目录（如 C:\Windows、/etc、/usr 等）

五、场景四：竞品分析与产品调研

实战：AI 编程工具选型对比

text

帮我调研 2026 年主流的 AI 编程工具

（Cursor、Windsurf、Claude Code、GitHub Copilot），从以下维度对比：

1. 定价（免费版限制、付费套餐价格）

—— 优先以各品牌官网定价页面实时数据为准

2. 支持的底层模型（可以用哪些大模型）

3. 核心特色功能（每个工具独有的卖点）

4. IDE 支持（独立 IDE 还是插件？支持哪些 IDE？）

5. 适合什么人群

整理成 Markdown 对比表格，每条价格信息标注来源和更新时间。

保存到 research/ai-coding-tools-comparison-2026.md

价格数据提示：大模型工具的价格变动频繁，建议在 prompt 中强调“优先以各品牌官网定价页面实时数据为准”而非依赖搜索引擎缓存的旧页面，以确保价格数据的时效性。

六、效率提升参考

以下数据为常规规模任务在正常网络条件下的实测参考，实际耗时取决于任务复杂度、网络速度和 MCP 配置情况。

任务	传统方式耗时	Claude Code 耗时	主要收益
5 个框架的技术选型调研	2–3 小时	5–10 分钟	无需手动打开 20+ 页面、自动标注来源
50 页技术文档提取整理	1–2 小时	3–5 分钟	自动抓取 + 结构化输出，无需逐页复制
200 个文件整理归类	30–60 分钟	2–3 分钟	批量操作，避免人工重复
竞品分析（5 款产品 × 6 维度）	3–4 小时	10–15 分钟	自动搜索 + 并行对比 + 生成表格

数据说明：以上耗时数据为常规规模任务在正常网络条件下的实测参考。实际耗时取决于任务复杂度、网络速度、MCP 工具配置情况以及所使用模型版本。Claude Code 的优势主要在快速理解和小型操作，对 I/O 密集型的大型文件任务提升有限。

新手常犯的 5 个错误

错误 1：Prompt 太模糊

❌ “帮我调研一下 AI Agent 框架”

✅ “帮我对比 LangChain、CrewAI、AutoGen、Claude Agent SDK、OpenAI Agents SDK 从核心理念、GitHub Star 数、适合场景三个维度进行对比，整理成表格，保存到 research/agent-frameworks.md”

关键：告诉 Claude 你要什么格式、保存在哪里。

错误 2：不让 Claude 读项目代码

Claude Code 的最大优势是能自动读取你的项目代码。在 prompt 中引用项目中已有的文件路径和风格参考。

错误 3：一次性任务太复杂

一个 prompt 包含 10 个子任务会造成 Claude 的注意力分散。拆成 2–3 个子任务，每步确认后再继续。

错误 4：不保存结果到文件

Claude Code 的对话历史会随会话结束而消失。任何有价值的内容都应该保存到文件。每次都加上 “保存到 docs/xxx.md”。

错误 5：不安装搜索 MCP

内置 WebSearch 能用，但搜索 MCP（Brave Search + Tavily）在搜索质量和专业性上有提升。安装完成后，后续调研可复用该基础设施。

七、使用建议

text

第 1 步（立即）：

用内置 WebSearch 试一次技术调研

第 2 步（今天）：

安装 Brave Search MCP + Tavily MCP（共 5 分钟）

第 3 步（本周）：

尝试文件批处理——整理一个杂乱的文件夹或提取 Excel 数据

⚠️ 操作前做好备份！

第 4 步（下周）：

安装 Chrome DevTools MCP（如需抓取 JS 渲染页面）

注意：需要原版 Chrome，绿色便携版不兼容

尝试一次竞品分析，生成完整的调研报告

八、总结

Claude Code 的主要用途不是“能聊天”，而在于 “能执行操作”：

搜索调研：不用再手动 Google → 打开 20 个 tab → 复制粘贴。一次描述完成全流程
网页抓取：静态页面用内置 WebFetch（注意大小和频次限制），JS 页面用 Chrome DevTools MCP（需原版 Chrome）。建议遵守 robots.txt 和版权法规
文件处理：直接在项目中创建、修改、整理文件，结果是可直接使用的文件而非建议。删除和迁移操作前先备份

这三个场景覆盖了开发者日常工作中相当比例的重复性操作。掌握它们，你可以把更多时间花在需要判断力的任务上。

相关阅读：搭建私有搜索引擎做交叉验证 → 《SearXNG 本地部署与 MCP 接入》；扩展机制全览（MCP、Hook、Skill、SubAgent） → 《Claude Code 扩展机制》； MCP 架构深度讲解 → 《理解 MCP》。

备注与免责声明

备注 1：本文中的 Prompt 模板基于 Claude Code v2.x 版本测试通过。MCP 服务器的可用性、免费额度以及内置 WebFetch 的功能限制均可能随 Claude Code 版本迭代而变更，实际操作请以官方最新文档为准。

备注 2：文中所涉方案（网页抓取、文件批处理等）仅限个人学习研究用途。如需商用，请遵守中华人民共和国相关法律法规、目标网站的 robots.txt 协议以及各平台 API 服务协议中的商用条款。

时效性说明

⚠️ 以上信息可能已过时，请以各平台官方网站的最新公告和定价页面为准。基于 Claude Code v2.x 验证，写作日期 2026-06-12。

Claude Code 使用示例：搜索调研、网页抓取与文件批处理

一、从“聊天”到“干活”

场景速查：搜索 · 抓取 · 文件处理工具选型

二、场景一：深度搜索与调研

Claude Code 的搜索能力层级

三类搜索工具

实战：技术选型调研报告

关键技巧：让搜索更精准

三、场景二：网页内容抓取

三种抓取方案

内置 WebFetch 的限制

Chrome DevTools MCP 的环境要求

方案选择指南

实战：批量提取技术文档

四、场景三：文件批处理

Claude Code 能处理的文件操作

文件处理的能力边界

实战：整理混乱的项目目录

实战：数据提取与格式转换

文件处理的安全提醒

五、场景四：竞品分析与产品调研

实战：AI 编程工具选型对比

六、效率提升参考

七、使用建议

八、总结

有疑问？来这里找答案