Bootstrap

解析python网络爬虫pdf 黑马程序员_正版 解析Python网络爬虫 核心技术 Scrapy框架 分布式爬虫 黑马程序员 Python应用编程丛书 中国铁道出版社...

商品参数

书名:Python应用编程丛书:解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫

定价:52.00元

作者:[中国]黑马程序员

出版社:中国铁道出版社

出版日期:2018-08-01

ISBN:9787113246785

字数:

页码:

版次:

装帧:平装-胶订

开本:16开

内容介绍

网络爬虫是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本,它可以代替人力进行信息采集,能够自动采集并高效地利用互联网中的数据,在市场的应用需求中占据着重要的位置。 本书以Windows为主要平台,系统全面地讲解了Python网络爬虫的相关知识。主要内容包括:初识爬虫、爬虫的实现原理和技术、网页请求原理、爬取网页数据、数据解析、并发下载、图像识别与文字处理、存储爬虫数据、初识爬虫框架Scrapy、Scrapy终端与核心组件、自动爬取网页的爬虫 CrawSpider、Scrapy-Redis分布式爬虫。 本书适合作为高等院校计算机相关专业程序设计课程教材,也可作为Python网络爬虫的培训教材,以及广大编程开发者的爬虫入门级教材。

目录

第1章初识爬虫 1

1.1 爬虫产生背景 1

1.2 爬虫的概念 2

1.3 爬虫的用途 2

1.4 爬虫的分类 3

1.4.1 通用爬虫和聚焦爬虫 3

1.4.2 累积式爬虫和增量式爬虫 4

1.4.3 表层爬虫和深层爬虫 4

小结5

习题5

第2章爬虫的实现原理和技术 6

2.1 爬虫实现原理 6

2.1.1 通用爬虫工作原理 6

2.1.2 聚焦爬虫工作原理 8

2.2 爬虫爬取网页的详细流程 9

2.3 通用爬虫中网页的分类 10

2.4 通用爬虫相关网站文件 10

2.4.1 robots.txt文件 11

2.4.2 Sitemap.xml文件 12

2.5 防爬虫应对策略 12

2.6 选择Python做爬虫的原因 14

2.7 案例——使用八爪鱼工具爬取

个网页 14

小结21

习题21

第3章网页请求原理 23

3.1 浏览网页过程 23

3.1.1 统一资源定位符 24

3.1.2 计算机域名系统

;