python爬虫入门学习 - 悦读

python爬虫入门学习

1.什么是爬虫？

爬虫是一种自动化程序，可以批量对指定网页发送请求并得到数据。

2.爬虫流程

1）对网页发送请求并获得网页响应

①使用urllib.request中的urlopen方法得到http.client.HTTPResponse对象

②使用read方法和decode方法进行进一步处理

或者

①使用requests库中get方法得到requests.Response对象r（需pip install requests）

②r的属性包括网页二进制内容content，以及文本格式内容text等。

2）解析网页内容

①正则表达式

②BeautifulSoup（速度慢）

③requests-html

④lxml

3）保存数据文件

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

机器学习概率论相关学习笔记

文件上传校验upload---综合

图像处理与计算机视觉基础、经典以及最近发展

一文揭开ALBERT的神秘面纱

多线程（一）——委托与多线程

（完结）Java项目实战笔记--基于SpringBoot3.0开发仿12306高并发售票系统--(三)项目优化

基于springboot的在线装修管理系统的设计与实现

Qt学习之如何用代码实现UI布局及显示

《Netty in Action》中文版—第五章 ByteBuf

;