网络爬虫是什么意思？

网络爬虫又称为“网页蜘蛛”“网络机器人”，是互联网时代下的一种网络信息搜集技术，也可以理解为一种自动在网络上模拟人操作行为的计算机程序。
在这里插入图片描述

这些“爬虫”按照特定程序，沿着一定的路径，模拟人工操作，从网站、应用程序等终端呈现的平台上去提取和存储数据。随着大数据等技术的发展，网络爬虫的影响力逐渐增加，而使得它渐渐进入公众视野。

爬虫的类型也有很多。举个例子，按照系统结构和实现技术，就能将爬虫分为通用网络爬虫（不讲究优先级，把网络的内容都爬下来）、聚焦网络爬虫（只爬预先设定好的主题相关的页面）、增量式网络爬虫（只爬新的网页，或者发生变化的网页）、深层网络爬虫（访问深层网页）。

我们一般见到的爬虫也是爬取数据用的。这类爬虫其实就做了两项工作：1.获取网页源代码；2.从网页源代码中解析和提取所需要的数据。很多反爬技术都是针对的第一项工作，阻止你通过爬虫获取到源代码，而只要获取了源代码，解析和提取数据的方法就非常多样，可以说，拿到源代码时爬数的工作算是完成一大半了。