• tags:

开源爬虫项目

WaterCrawl

watercrawl/WaterCrawl: Transform Web Content into LLM-Ready Data

自建需要的服务模块较多,包括数据库、对象存储等,服务器性能要求较高。

Firecrawl

mendableai/firecrawl: 🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API.

2025-04-02 提供了 docker compose 配置,但是本地需要构建其中的 playwright-service 服务,会构建失败

Crawl4AI

unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don’t be shy, join here: https://discord.gg/jP8KfhDhyN

提供 docker 镜像,basic 版本使用比较方便,支持设置 api key 鉴权

Jina Reader

intergalacticalvariable/reader: 📚 This is an adapted version of Jina AI’s Reader for local deployment using Docker.

2025-04-02 自部署的接口不能用,会超时

Crawlee

apify/crawlee-python: Crawlee

Python 库,未提供现成 HTTP 服务