开源爬虫库Crawlee.js：让网页数据尽在掌握

嗨, 大家好, 我是徐小夕.

之前一直在社区分享零代码&低代码的技术实践，也陆陆续续设计并开发了多款可视化搭建产品，比如：

我们都知道AI模型和应用离不开数据支持, 最近在做模型数据分析的时候发现一款非常强大的开源爬虫库——Crawlee, 是一个用于 Node.js 的网络爬虫和浏览器自动化库, 同时支持 javascript 和 Typescript. 可以低成本帮助前端工程师快速构建一个高质量爬虫应用.

目前这款开源项目在 github 上已有1.4w+ star, 数十万开发者使用它开发爬虫和数据分析应用, 接下来我就带大家一起揭秘这款神奇的开源爬虫库.

Crawlee 的功能亮点

Crawlee 是一个用于 Node.js 的网络爬虫和浏览器自动化库，其工作原理和亮点主要包括以下4个方面：

多种爬虫方式支持：

HTTP 爬虫：发送 HTTP 请求，模仿浏览器的头信息和 TLS 指纹。它还会根据关于真实世界流量的数据自动轮换这些信息。同时，包含了流行的 HTML 解析器 Cheerio 和 JSDOM。
无头浏览器爬虫：可以在 HTTP 爬虫和无头浏览器爬虫之间快速切换，只需几行代码。它基于 Puppeteer 和 Playwright 构建，并添加了自己的反屏蔽功能和类人指纹。支持 Chrome、Firefox 等多种浏览器。

自动管理和优化：

自动缩放：根据可用的系统资源自动管理并发，以提高爬虫的效率。
代理管理：智能地自监督代理，丢弃经常超时、返回网络错误或不良 HTTP 代码（如 401 或 403）的代理，以保持代理的健康状态，并使爬虫看起来更像人类，从而提高可靠性。

队列和存储：

队列：使用队列来存储要抓取的 URL，确保其唯一性，并在出现故障时不会丢失进度。
存储：可以通过一行代码将文件、屏幕截图和 JSON 结果保存到磁盘，也可以插入适配器用于数据库存储。

丰富的工具和可配置性：

工具：包括用于提取社交账号、电话号码、处理无限滚动、阻止不需要的资产等的工具。
可配置性：默认情况下工作良好，但也提供了丰富的配置选项，以满足不同项目的需求。

总结一下就是，Crawlee 通过提供多种爬虫方式、自动管理和优化资源、有效的队列和存储机制以及丰富的工具和可配置性，帮助用户快速构建可靠的爬虫。

Crawlee 的反屏蔽功能

我觉得 Crawlee 的反屏蔽功能设计非常酷, 它可以让爬虫躲过大部分网站识别机制, 从而提高爬虫服务的稳定性.

主要体现在以下4个方面：

智能代理监督：Crawlee 会智能地监督代理，减少对单个代理的过度使用，从而降低被目标网站识别和屏蔽的风险。
类人指纹：它会生成类人指纹，使爬虫的行为更接近人类用户的行为模式。这包括模仿浏览器的头信息和 TLS 指纹等，让网站难以区分爬虫和真实用户。
自动调整行为：根据对真实世界流量数据的分析，Crawlee 会自动调整爬虫的行为，例如请求的频率、并发量等，以避免触发网站的反爬虫机制。
集成浏览器特性：当使用无头浏览器爬虫时，Crawlee 基于 Puppeteer 和 Playwright 构建，并添加了自己的反屏蔽功能。这些浏览器通常具有更强大的功能来模拟人类的浏览行为，进一步降低被屏蔽的可能性。

通过以上这些功能的综合作用，Crawlee 能够在一定程度上提高爬虫的稳定性和可靠性，减少被网站屏蔽的情况发生。

然而，需要注意的是，完全避免被屏蔽是非常困难的，因为网站的反爬虫机制也在不断进化。在使用爬虫时，仍需遵守相关的法律法规和网站的使用规则。

我们的第一个爬虫案例

这里分享一个简单的使用 Crawlee 库进行网页内容提取和分析的代码示例：

const Crawlee = require('crawlee');

// 创建一个爬虫实例
const crawler = new Crawlee();

// 定义要抓取的网页 URL
const url = 'https://example.com';

// 定义抓取任务
crawler.addRequest({
  url: url,
  // 可以添加其他配置，如请求头、代理等
});

// 处理抓取结果
crawler.on('fetchSuccess', async ({ request, response }) => {
  // 从响应中提取内容
  const content = await response.text();

  // 进行内容分析和提取
  // 这里可以根据具体需求编写代码
});

// 启动爬虫
crawler.start();

当然在它的文档中有大量的案例供我们参考, 大家感兴趣的可以学习参考:

文档地址如下:

https://crawlee.dev/docs/quick-start

应用场景探索

以下我思考了一些使用 Crawlee 库的应用场景, 给大家做参考：

电商数据抓取：

抓取电商网站上的产品信息，如名称、价格、描述、图片等，用于价格比较、市场分析或构建自己的电商平台。
监测竞争对手的产品动态，包括新产品上线、价格变化等。

新闻资讯采集：

从新闻网站抓取文章标题、内容、发布时间等信息，进行舆情分析、热点追踪或构建新闻聚合平台。
收集特定领域的新闻资讯，为研究、报告或决策提供数据支持。

社交媒体数据收集：

抓取社交媒体平台上的用户信息、帖子内容、点赞数、评论等，进行社交网络分析、品牌监测或市场调研。
跟踪话题标签，了解公众对特定话题的讨论和情感倾向。

学术研究数据获取：

从学术数据库或研究网站抓取相关的论文、研究报告、数据等，为学术研究提供支持。
收集特定领域的学术文献，进行文献综述或数据分析。

房地产信息抓取：

抓取房地产网站上的房源信息，如房屋面积、价格、位置、户型等，用于房地产市场分析或房产中介平台的数据支持。
监测房价走势和房源变化情况。

旅游信息收集：

从旅游网站抓取景点介绍、酒店评价、航班信息等，为旅行者提供参考或构建旅游规划平台。
分析旅游目的地的热门景点和游客评价，帮助旅游企业制定营销策略。

金融数据抓取：

抓取金融网站上的股票行情、汇率信息、财经新闻等，进行金融市场分析或投资决策支持。
收集金融产品的相关数据，进行风险评估和产品比较。

例如，假设我们要创建一个电商价格比较工具，可以使用 Crawlee 来抓取多个电商网站上同一款产品的价格信息，并将这些数据进行整理和分析，以便用户能够快速找到最优惠的价格。

再比如，如果我们想要了解IT行业的动态，可以使用 Crawlee 从相关的网站和论坛上抓取文章和评论，然后通过文本分析来提取关键信息和观点。

这些只是一些简单的案例，实际上 Crawlee 可以应用于许多不同的领域和场景，具体的使用方式取决于我们的需求和目标。

技术交流

我建了一个独立开发者交流群, 如果大家感兴趣可以在《趣谈前端》公众号加我微信进群~

最后

好啦, 今天的分享就到这, 欢迎随时和我留言反馈，建议，技术交流~

大家也可以关注我的视频号，后续会做更多的独立产品经验分享~