如何为 Claude Code 添加网页爬取 | AI Agent 完整页面访问指南

网络搜索只返回摘要，网页爬取返回完整页面。了解如何通过一个 CLI 为 Claude Code 开启全页面网络访问——用于竞品研究、文档提取和内容分析。

你让 Claude Code 研究竞争对手的定价页面。它搜索网络，返回一个片段："从每月 29 美元起。"这远远不够。你需要完整的定价表、功能对比、企业版方案——也就是页面的完整内容。

网络搜索给你摘要。网页爬取给你整个页面。

以下是如何为 Claude Code 添加网页爬取功能——让你的 Agent 能够读取完整的网页，提取结构化数据，并将研究成果直接纳入工作流程。

网络搜索 vs. 网页爬取：有什么区别？

两者密切相关，但各司其职：

	网络搜索	网页爬取
返回内容	摘要、链接、引用	以整洁 Markdown 格式呈现的完整页面内容
最适合	快速问答、内容发现、事实核查	深度研究、内容提取、竞品分析
速度	秒级	数秒至一分钟（完整页面获取）
数据深度	表面级别	完整——每个标题、段落、表格
使用场景	"X 的定价是多少？"	"提取完整定价页面并与我们的定价进行对比"

你的 Agent 两者都需要。搜索用来找到正确的页面，爬取用来完整地读取它们。

为什么 Claude Code 需要网页爬取

Claude Code 能够分析你的代码库，重构函数、编写测试、跨文件调试问题。但当它需要研究某些内容时——竞争对手的 API 文档、某个库的更新日志、某个产品的功能列表——就会碰壁。

网络搜索有帮助，但片段只能带你走这么远。一个定价页面可能有 12 个方案。一个文档页面可能有 40 个章节。一个更新日志可能跨越 3 年的发布记录。150 个字符的片段只告诉你一件事。完整的页面告诉你一切。

网页爬取给你的 Agent 提供完整的页面。然后它可以：

提取结构化数据（定价方案、功能列表、API 端点）
逐条对比竞争对手的产品
将文档注入代码生成（"完全按照文档中的描述实现身份验证"）
随时间监控变化（每周爬取同一页面，对比结果差异）

想了解搜索和爬取在你 Agent 工具栈中的全貌，请阅读什么是 Capability Runtime？

方法一：手动网页抓取（脆弱的方式）

你可以配置 Claude Code 直接调用抓取服务。选择一个服务商（Firecrawl、Jina、ScrapingBee），注册账号，获取 API 密钥，然后接入你的 Agent。

手动方式：

注册抓取服务
获取 API 密钥
编写 Claude Code 可以调用的 shell 脚本或 MCP 配置
处理速率限制、重试机制和请求失败
解析响应并将其送回 Agent 上下文

这对偶尔使用来说是够用的。一旦扩展就会出问题——不同网站屏蔽不同的抓取器，速率限制因服务商而异，维护集成消耗的时间本可以用来开发。

方法二：爬取专用 MCP 服务器

用于网页爬取的 MCP 服务器将抓取逻辑打包成可复用的集成方案。Firecrawl 的 MCP 服务器最为常见——Claude Code 调用它，它便从任意 URL 返回整洁的 Markdown 内容。

配置比手动接 API 轻量，但你仍然需要管理：

每个能力对应一个 MCP 服务器（爬取与搜索是分开的）
服务商特有的速率限制和身份验证
在不同抓取服务商之间切换时的格式不一致问题

方法三：搜索 + 爬取用一个 CLI 搞定（AnyCap 的方式）

这种方式将搜索和爬取整合到单一命令界面中。你的 Agent 通过搜索找到页面，再通过爬取完整读取——全部通过同一个 CLI。

# 第一步：搜索相关页面
anycap search --prompt "competitor pricing pages SaaS 2026" --citations

# 第二步：爬取最相关的结果以获取完整内容
anycap crawl --url "https://competitor.com/pricing" -o pricing.md

Runtime 负责处理：

结构化输出。 页面转换为整洁的 Markdown——标题、段落、表格和代码块均得以保留。
JavaScript 渲染。 动态页面（SPA、React 应用）在提取前完成渲染。
内容净化。 导航栏、广告和样板内容被剥离。剩下的是文章正文。
格式一致。 无论来源如何，每个被爬取的页面都返回相同的 Markdown 结构。

安装：

npm i -g anycap
anycap login
anycap skill install --target ~/.claude/skills/anycap-cli/

→ 免费安装 AnyCap——新用户获赠 250 积分

实际应用：竞品研究流水线

你的 Agent 需要将自家产品定价与三个竞争对手进行对比。以下是完整工作流程：

# 1. 搜索竞争对手的定价页面
anycap search --prompt "competitor A pricing plans 2026" --citations
anycap search --prompt "competitor B pricing plans 2026" --citations
anycap search --prompt "competitor C pricing plans 2026" --citations

# 2. 爬取每个定价页面以获取完整内容
anycap crawl --url "https://competitor-a.com/pricing" -o competitor-a.md
anycap crawl --url "https://competitor-b.com/pricing" -o competitor-b.md
anycap crawl --url "https://competitor-c.com/pricing" -o competitor-c.md

# 3. 将爬取的内容提交给 Claude Code 进行分析
# Claude Code 现在拥有完整的定价数据，可以输出：
# - 对比表格
# - 定价定位建议
# - 功能差距分析

你的 Agent 完成了研究、爬取、分析和建议——全部在一次会话中完成。无需手动切换浏览器标签页，无需复制粘贴。

实际应用：文档驱动开发

你的 Agent 需要实现一个 API 集成。与其猜测认证流程，不如直接爬取官方文档：

# 爬取 API 身份验证文档
anycap crawl --url "https://api.provider.com/docs/auth" -o auth-docs.md

# 爬取端点参考文档
anycap crawl --url "https://api.provider.com/docs/endpoints" -o endpoints.md

# Claude Code 现在基于真实文档实现集成
# 而非基于可能已过时的训练数据

这就是"Claude Code，实现 Stripe 集成"（依赖训练数据，可能过时）和"Claude Code，爬取最新的 Stripe 文档，然后完全按照说明实现集成"（准确、最新、可靠）之间的区别。

实际应用：竞品动态监控

设置循环研究工作流。你的 Agent 按计划爬取竞争对手页面并对比结果：

# 爬取竞争对手的更新日志
anycap crawl --url "https://competitor.com/changelog" -o competitor-changelog-$(date +%Y%m%d).md

# 爬取竞争对手的功能页面
anycap crawl --url "https://competitor.com/features" -o competitor-features-$(date +%Y%m%d).md

# 与上周的爬取结果进行对比
diff competitor-features-20260511.md competitor-features-20260518.md

每周执行一次。你的 Agent 会标记出新功能、定价变动、信息更新——在你的产品团队从客户那里听说之前。

搜索 + 爬取：完整的研究能力栈

网络搜索负责发现，网页爬取负责阅读。两者结合，为你的 Agent 构建完整的研究能力：

步骤	命令	功能
1. 发现	`anycap search`	找到相关页面并附带有根据的引用
2. 提取	`anycap crawl`	以整洁 Markdown 格式获取完整页面内容
3. 分析	Claude Code	对提取内容进行推理分析
4. 执行	Claude Code	基于发现结果进行实现、对比或报告

这是有根据的研究——你的 Agent 不依赖训练数据或片段摘要，而是基于关键页面的真实、最新内容展开工作。

何时爬取，何时搜索

使用搜索，当你…	使用爬取，当你…
需要快速得到答案	需要完整页面内容
正在探索哪些页面存在	已知目标页面，需要全部内容
需要有引用依据的摘要	需要提取结构化数据
速度是优先级	深度是优先级
答案可以用片段表达	答案是表格、列表或跨越多个章节

大多数研究工作流两者兼用：搜索用于发现，爬取用于提取。

常见问题

网页爬取能处理 JavaScript 渲染的页面吗？

能。Runtime 在提取前会渲染动态内容（React、Vue、SPA）。你在浏览器中看到的，就是你的 Agent 获取到的。

网页爬取与 Claude Code 内置的网络搜索有何不同？

Claude Code 的内置网络搜索返回片段和摘要。网页爬取返回完整页面内容，以 Markdown 格式呈现——每个标题、段落、表格和代码块都包括在内。快速问答用搜索，需要深度内容时用爬取。

一次会话中可以爬取多个页面吗？

可以。每个 URL 执行一次 anycap crawl。你的 Agent 可以遍历 URL 列表并依次爬取。所有结果以本地 Markdown 文件的形式保存。

如果页面屏蔽爬虫怎么办？

部分页面会屏蔽自动化访问。Runtime 遵守 robots.txt 并妥善处理访问限制。如果页面无法爬取，你的 Agent 会收到明确的错误信息——不会静默失败。

在 Cursor 和 Codex 中也能使用吗？

可以。anycap crawl 使用相同的 CLI，在 Claude Code、Cursor 和 Codex 中均可使用。安装一次，所有 Agent 通用。

总结

网络搜索告诉你的 Agent 存在什么，网页爬取让你的 Agent 去读它。对于竞品研究、文档驱动开发和内容提取，单靠搜索是不够的。

给你的 Agent 两种能力。搜索用于发现，爬取用于理解。

→ 为 Claude Code 开启完整网络访问权限——一个 CLI 搞定搜索 + 爬取

📖 推荐延伸阅读

如何为 AI Agent 添加网络搜索能力——一条 CLI 命令 — 与本爬取指南配套的网络搜索指南。
如何用 Claude Code 生成视频：2026 年完整指南 — 先研究，再创作。能力在不断叠加。
如何从 Claude Code 部署网站 — 爬取内容、构建页面、部署上线。完整流水线。

什么是 Capability Runtime？ — 将搜索、爬取、图像、视频和存储整合到一个 CLI 的基础设施。
什么是 AI Agent？开发者完整指南 — 基础知识：Agent 是什么，需要哪些工具。
Agentic AI vs. 传统 AI：5 个关键区别 — 瓶颈不在于模型，而在于 Agent 是否具备网络访问等工具能力。

由 AnyCap 团队撰写。我们构建 Capability Runtime，为你的 Agent 提供带引用的网络搜索、完整页面爬取，以及自主研究所需的一切。

如何为 Claude Code 添加网页爬取：让你的 Agent 获得完整页面访问权限