- tags:
开源爬虫项目
WaterCrawl
watercrawl/WaterCrawl: Transform Web Content into LLM-Ready Data
自建需要的服务模块较多,包括数据库、对象存储等,服务器性能要求较高。
Firecrawl
2025-04-02 提供了 docker compose 配置,但是本地需要构建其中的 playwright-service 服务,会构建失败
Crawl4AI
提供 docker 镜像,basic 版本使用比较方便,支持设置 api key 鉴权
Jina Reader
2025-04-02 自部署的接口不能用,会超时
Crawlee
Python 库,未提供现成 HTTP 服务