docpull 是什么工具？

docpull 是一款Python开发的AI辅助工具。开源MCP工具：Crawl any website and convert it to clean, AI-ready Markdown — async Python CLI 。⭐21 · Python 主要应用场景包括：MCP配置。

docpull 如何安装和开始使用？

访问 docpull 的 GitHub 仓库或官方网站，按照 README 文档中的步骤安装依赖并运行。通常需要 Python 3.8+ 或 Node.js 16+ 基础环境。

docpull 是否免费？许可证是什么？

docpull 完全免费，采用 MIT 许可证开源发布，任何人都可以免费使用、修改和分发。

docpull 适合哪些用户使用？

docpull 主要面向有一定技术基础的用户，包括开发者、数据分析师、AI 工程师等专业人士。

docpull 的社区活跃度和项目维护状况如何？

docpull 在 GitHub 上已获得 21 个 Star，处于积极发展阶段，社区在持续扩大。

📄 工具详情 ⚙️ 安装教程 📚 使用教程

能力标签

🔌 MCP 🤖 Agent 💻 CLI 🔗 REST API 📚 RAG 🧠 Claude 🕸 采集

🔌

MCP工具

文档爬虫转换工具

基于 Python · 让 AI 助手直接操作你的系统与工具

英文名：docpull

⭐ 21 Stars 🍴 2 Forks 💻 Python 📄 MIT 🏷 AI 7.2分

7.2AI 综合评分

网页爬虫Markdown转换AI数据文档处理异步工具CLI工具

⬇ 下载源码 ZIP ⚙️ 配置说明

✦ AI Skill Hub 推荐

AI Skill Hub 推荐使用：文档爬虫转换工具是一款优质的MCP工具。AI 综合评分 7.2 分，在同类工具中表现稳健。如果你正在寻找可靠的MCP工具解决方案，这是一个值得深入了解的选择。

📚 深度解析

文档爬虫转换工具是一款基于 MCP（Model Context Protocol）标准协议的 AI 工具扩展。MCP 协议由 Anthropic 开发并开源，旨在建立 AI 模型与外部工具之间的标准化通信接口，目前已被 Claude Desktop、Claude Code、Cursor 等主流 AI 工具采纳。

通过安装文档爬虫转换工具，你的 AI 助手将获得额外的工具调用能力，可以用自然语言直接操控该工具的功能，无需学习复杂的命令行语法。MCP 工具的核心价值在于"一次配置，永久增强"——配置完成后，每次与 AI 对话时都可以无缝调用这些工具。

在技术实现上，MCP 工具通过标准的 JSON-RPC 协议与 AI 客户端通信，工具的功能以"工具列表"的形式暴露给 AI 模型，AI 可以按需调用。文档爬虫转换工具提供了结构化的工具调用接口，使 AI 模型能够精确地理解和使用每个功能点，显著降低 AI 在工具使用上的错误率。

与传统的 API 集成相比，MCP 工具的优势在于无需编写代码——用户只需在配置文件中添加几行 JSON，即可让 AI 获得全新能力。AI Skill Hub 将文档爬虫转换工具评为 AI 评分 7.2 分，属于同类工具中的优质选择。

📋 工具概览

文档爬虫转换工具是一款遵循 MCP（Model Context Protocol）标准协议的 AI 工具扩展。通过 MCP 协议，它可以让 Claude、Cursor 等主流 AI 客户端直接访问和操作外部工具、数据源和服务，实现 AI 能力的无缝扩展。无论是文件操作、数据库查询还是 API 调用，都可以通过自然语言在 AI 对话中直接触发，极大提升生产效率。

GitHub Stars

⭐ 21

开发语言

Python

支持平台

Windows / macOS / Linux

维护状态

轻量级项目，按需更新

开源协议

MIT

AI 综合评分

7.2 分

工具类型

MCP工具

Forks

📖 中文文档

以下内容由 AI Skill Hub 根据项目信息自动整理，如需查看完整原始文档请访问底部「原始来源」。

📌 核心特色

通过标准 MCP 协议与 Claude、Cursor 等主流 AI 客户端深度集成
提供结构化工具调用接口，显著降低 AI 集成复杂度
支持 Claude Desktop 和 Claude Code 无缝接入，开箱即用
可与其他 MCP 工具组合叠加，构建完整 AI 工作站
轻量无侵入设计，不影响现有系统架构

🎯 主要使用场景

在 Claude Desktop 对话中直接调用本地工具，实现 AI 与系统的深度联动
通过自然语言驱动复杂的多步骤自动化任务，代替繁琐手动操作
将多个 MCP 工具组合使用，构建个人专属 AI 工作站

以下安装命令基于项目开发语言和类型自动生成，实际以官方 README 为准。

安装命令

# 方式一：通过 Claude Code CLI 一键安装
claude skill install https://github.com/raintree-technology/docpull

# 方式二：手动配置 claude_desktop_config.json
{
  "mcpServers": {
    "--------": {
      "command": "npx",
      "args": ["-y", "docpull"]
    }
  }
}

# 配置文件位置
# macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
# Windows: %APPDATA%/Claude/claude_desktop_config.json

📋 安装步骤说明

确认已安装 Node.js（v18 或以上版本）
打开 Claude Desktop 或 Claude Code 的 MCP 配置文件
按「交给 Agent 安装 → Claude Desktop」标签中的 JSON 配置填入 mcpServers 字段
保存配置文件并重启 Claude 客户端
重启后，在对话中即可使用本工具

以下用法示例由 AI Skill Hub 整理，涵盖最常见的使用场景。

常用命令 / 代码示例

# 安装后在 Claude 对话中直接使用
# 示例：
用户: 请帮我用 文档爬虫转换工具 执行以下任务...
Claude: [自动调用 文档爬虫转换工具 MCP 工具处理请求]

# 查看可用工具列表
# 在 Claude 中输入："列出所有可用的 MCP 工具"

以下配置示例基于典型使用场景生成，具体参数请参照官方文档调整。

配置示例

// claude_desktop_config.json 配置示例
{
  "mcpServers": {
    "________": {
      "command": "npx",
      "args": ["-y", "docpull"],
      "env": {
        // "API_KEY": "your-api-key-here"
      }
    }
  }
}

// 保存后重启 Claude Desktop 生效

📑 README 深度解析真实文档完整度 82/100 查看 GitHub 原文 →

以下内容由系统直接从 GitHub README 解析整理，保留代码块、表格与列表结构。

docpull

Security-hardened, browser-free crawler that turns static documentation sites into clean, AI-ready Markdown — fast.

docpull uses async HTTP (not Playwright) to fetch server-rendered pages, extracts main content, and writes clean Markdown with source-URL frontmatter — in seconds, with a small install footprint. It won't render JavaScript, but for the large class of docs that don't need it (API references, Python/Go stdlib, most dev-tool docs, OpenAPI specs, Next.js and Docusaurus builds), it is a fast, auditable, sandbox-friendly way to pipe documentation into an LLM context, a RAG index, or an offline archive. SSRF, XXE, DNS-rebinding, and CRLF-injection protections are on by default — a necessity when an AI agent is choosing the URLs.

About the `mcp/` directory in this repo

The mcp/ directory at the repo root is a separate TypeScript + Bun MCP server backed by PostgreSQL with pgvector for semantic search. It is not the Python MCP server shipped in the docpull package described above — that one is the right choice for almost every user and is installed with pip install 'docpull[mcp]'. The mcp/ tree is mirrored to its own repo at raintree-technology/docpull-mcp; unless you specifically need pgvector-backed semantic search, ignore it and use docpull mcp.

Agent-friendly features

- --single — fetch a single URL without discovery. Designed for tool loops. - --stream — NDJSON one-record-per-line, flushed on every page, pipeable. - --max-tokens-per-file N — split each page into token-bounded chunks on heading boundaries (exact counts with tiktoken, estimate without). - --emit-chunks — write one file or record per chunk instead of per page. - --strict-js-required — hard-fail on JS-only pages instead of silently skipping. - --extractor trafilatura — swap in trafilatura for sites where the default heuristics struggle.

1. Install docpull with the MCP extra (required for the plugin)

pip install 'docpull[mcp]'

Install

```bash pip install docpull

Getting Started

…


NDJSON (one record per page or chunk):

json {"url": "...", "title": "...", "content": "...", "hash": "...", "token_count": 842, "chunk_index": 0} ```

Quick start

```bash

Optional extras

pip install 'docpull[llm]' # tiktoken for token-accurate chunking pip install 'docpull[trafilatura]' # alternative extractor for noisy pages pip install 'docpull[mcp]' # run as an MCP server for AI agents pip install 'docpull[all]' # everything above ```

Options

Run docpull --help for the full list. Highlights:

Core:
  --profile {rag,mirror,quick,llm,custom}
  --single                Fetch one URL (no crawl)
  --format {markdown,json,ndjson,sqlite}
  --stream                Stream NDJSON to stdout

LLM / chunking:
  --max-tokens-per-file N
  --tokenizer NAME        tiktoken encoding (default cl100k_base)
  --emit-chunks           One file/record per chunk

Content extraction:
  --extractor {default,trafilatura}
  --no-special-cases      Disable framework extractors
  --strict-js-required    Error on JS-only pages

Cache:
  --cache                 Enable incremental updates
  --cache-dir DIR
  --cache-ttl DAYS

Python API

from docpull import fetch_one

ctx = fetch_one("https://docs.python.org/3/library/asyncio.html")
print(ctx.title, ctx.source_type)
print(ctx.markdown[:500])

Async streaming:

import asyncio
from docpull import Fetcher, DocpullConfig, ProfileName, EventType

async def main():
    cfg = DocpullConfig(
        url="https://docs.example.com",
        profile=ProfileName.LLM,  # chunked NDJSON output
    )
    async with Fetcher(cfg) as fetcher:
        async for event in fetcher.run():
            if event.type == EventType.FETCH_PROGRESS:
                print(f"{event.current}/{event.total}: {event.url}")
        print(f"Done: {fetcher.stats.pages_fetched} pages")

asyncio.run(main())

Single-page from an agent tool:

from docpull import Fetcher, DocpullConfig

async def tool_call(url: str) -> str:
    async with Fetcher(DocpullConfig(url=url)) as f:
        ctx = await f.fetch_one(url, save=False)
        return ctx.markdown or ctx.error or ""

Troubleshooting

docpull --doctor              # Check installation
docpull URL --verbose         # Verbose output
docpull URL --dry-run         # Test without downloading
docpull URL --preview-urls    # List URLs without fetching

🇨🇳 中文文档镜像 AI 翻译 2026-05-23

英文原文章节由系统翻译为中文摘要，便于快速理解。完整原文见上方 "📑 README 深度解析"。

📌 简介

这是一个安全的、不依赖浏览器的爬虫工具，能够将静态文档网站转换为干净的、AI准备好的 Markdown 格式文件。它的速度快且易于使用。

⚡ 功能介绍

该工具提供了以下功能：

📋 环境依赖

该工具需要以下环境依赖和系统要求：

🛠 安装步骤（Docker/pip/源码）

要安装该工具，请使用以下命令：

🚀 使用教程

使用该工具的步骤如下：

⚙️ 配置说明（含 MCP / env）

该工具提供了以下配置选项：

🔌 API 说明

该工具提供了一个 Python API，用于程序matic访问。

❓ FAQ 摘要

以下是解决常见问题的方法：

🎯 aiskill88 AI 点评 B 级 2026-05-21

实用的MCP工具，专注网页转Markdown，异步设计高效。但star数较少，社区活跃度待观察，适合专项数据采集场景。

📚 实用指南（长尾问题）

适合谁

需要让 Claude / Cursor 操作本地工具的 AI 工程师
构建多智能体协作系统的 Agent 开发者
构建企业知识库 / RAG 检索应用的团队

最佳实践

配置 MCP 服务器时建议使用 stdio 传输 + JSON-RPC，避免暴露公网
分块大小建议 256-512 tokens，向量库优选 pgvector 或 Qdrant
Agent 任务先做 dry-run 验证工具调用链，再开启自主执行

常见错误

API key 直接提交到 git 仓库（请用 .env 并加入 .gitignore）
MCP 配置路径拼错或权限不足，重启 Claude Desktop 才生效
embedding 模型与查询模型不一致导致检索失效
Python 依赖冲突：建议用 venv / uv 隔离环境

部署方案

CLI：直接 npm install -g / pip install，命令行调用
云端托管：可放在 Vercel / Railway / Fly.io 等 PaaS 平台

⚡ 核心功能

通过标准 MCP 协议与 Claude、Cursor 等主流 AI 客户端深度集成
提供结构化工具调用接口，显著降低 AI 集成复杂度
支持 Claude Desktop 和 Claude Code 无缝接入，开箱即用
可与其他 MCP 工具组合叠加，构建完整 AI 工作站
轻量无侵入设计，不影响现有系统架构

👥 适合谁

需要让 Claude / Cursor 操作本地工具的 AI 工程师
构建多智能体协作系统的 Agent 开发者
构建企业知识库 / RAG 检索应用的团队

⭐ 最佳实践

配置 MCP 服务器时建议使用 stdio 传输 + JSON-RPC，避免暴露公网
分块大小建议 256-512 tokens，向量库优选 pgvector 或 Qdrant
Agent 任务先做 dry-run 验证工具调用链，再开启自主执行

⚠️ 常见错误

API key 直接提交到 git 仓库（请用 .env 并加入 .gitignore）
MCP 配置路径拼错或权限不足，重启 Claude Desktop 才生效
embedding 模型与查询模型不一致导致检索失效
Python 依赖冲突：建议用 venv / uv 隔离环境

👥 适合人群

Claude Desktop / Claude Code 用户AI 工具开发者需要扩展 AI 能力的专业人士自动化工程师

🎯 使用场景

在 Claude Desktop 对话中直接调用本地工具，实现 AI 与系统的深度联动
通过自然语言驱动复杂的多步骤自动化任务，代替繁琐手动操作
将多个 MCP 工具组合使用，构建个人专属 AI 工作站

⚖️ 优点与不足

✅ 优点

+MIT 协议，可免费商用
+标准化 MCP 协议，生态互联性强
+与 Claude 官方生态无缝对接
+即插即用，配置简单快捷

⚠️ 不足

−依赖 Claude 客户端，非 Claude 用户无法使用
−MCP 协议仍在持续演进，接口可能变更
−需要一定的配置步骤

⚠️ 使用须知

AI Skill Hub 为第三方内容聚合平台，本页面信息基于公开数据整理，不对工具功能和质量作任何法律背书。

建议在沙箱或测试环境中充分验证后，再部署至生产环境，并做好必要的安全评估。

📄 License 说明

🔗 相关工具推荐

github-mcp-server MCP工具

GitHub官方MCP服务器实现，使AI助手能直接操作GitHub仓库、问题、拉取请求等资源。采用Go语言开发，高性能稳

📚 相关教程推荐

Claude Code 完全指南：从安装到高级用法的系统教程

帮助中心 · AI Skill Hub

Claude Code 完全指南：从安装到高级用法的系统教程

帮助中心 · AI Skill Hub

📰 相关 AI 新闻

AI Agent 自主化能力最新进展

AI 资讯 · 知识关联

Claude Code 最新功能与使用技巧

🍿 AI 圈相关吃瓜

配了5个 MCP 工具，Claude 一个都没用

AI 圈观察

Filesystem MCP 帮 Claude 找文件，找了整个 node_modules

AI 圈观察

Claude 回复了30页，我只问了"你好"

🗺️ 相关解决方案

🧩 你可能还需要

基于当前 Skill 的能力图谱，自动补全的工具组合

技能寻求者

MCP · Agent · 工作流

total-agent-memory MCP工具

为Claude Code和Codex CLI提供持久化记忆功能的开源MCP工具。自动提取知识图谱，支持多轮对话上下文保留，适合需要长期记忆和

开源AI工具：RAG知识库系统

基于Vue.js前端的RAG知识库系统，提供高效的知识检索和生成功能，助力AI应用开发

natively-cluely-ai-assistant — Claude Skill 中文使用文档

免费开源的AI面试助手，实时转录，隐蔽模式，局部RAG，BYOK。无订阅，防止数据泄露。

❓ 常见问题 FAQ

支持哪些网站爬取？−

支持大多数标准HTML网站，可自定义选择器处理复杂结构。

Markdown输出质量如何？+

爬虫速度怎样？+

MCP 是什么？和普通 API 有什么区别？+

我需要编程基础才能使用这个 MCP 工具吗？+

这个工具支持 Claude Code 吗？还是只有 Claude Desktop？+

MCP 工具是否会访问我的本地文件或数据？+

多个 MCP 工具可以同时使用吗？+

💡 AI Skill Hub 点评

总体来看，文档爬虫转换工具是一款质量良好的MCP工具，在同类工具中具备一定竞争力。AI Skill Hub 将持续追踪其更新动态，建议收藏备用，结合自身场景选择合适时机引入使用。

⬇️ 获取与下载

⬇ 下载源码 ZIP

✅ MIT 协议 · 可免费商用 · 直接从 aiskill88 服务器下载，无需跳转 GitHub

📚 深入学习文档爬虫转换工具

查看分步骤安装教程和完整使用指南，快速上手这款工具

⚙️ 安装教程 📚 使用教程

🌐 原始信息

原始名称	`docpull`
原始描述	开源MCP工具：Crawl any website and convert it to clean, AI-ready Markdown — async Python CLI 。⭐21 · Python
Topics	`网页爬虫Markdown转换AI数据文档处理异步工具CLI工具`
GitHub	https://github.com/raintree-technology/docpull
License	MIT
语言	Python

🔗 原始来源

🐙 GitHub 仓库 https://github.com/raintree-technology/docpull 🌐 官方网站 https://docpull.raintree.technology/

收录时间：2026-05-20 · 更新时间：2026-05-21 · License：MIT · AI Skill Hub 不对第三方内容的准确性作法律背书。

文档爬虫转换工具

docpull

About the `mcp/` directory in this repo

Agent-friendly features

1. Install docpull with the MCP extra (required for the plugin)

Install

Getting Started

Quick start

Optional extras

Options

Python API

Troubleshooting

🤖 交给 Agent 安装 · 文档爬虫转换工具