文章目录
xpath
- 环境安装:
pip install lxml
1.xpath解析的编码流程
-
1.创建一个etree类型的对象,然后把即将被解析的页面源码数据加载到该对象中
-
2.调用etree对象的xpath方法结合着不同形式的xpath表达式,进行标签定位和数据提取
-
xpath表达式如何理解?
-
html中的标签是遵从树状结构的。
-
切记:xpath表达式中最好不要出现tbody标签,因为tbody标签可能是浏览器加的,可以通过查看网页源代码判断是否是真实的tbody!
tbody可能是源代码自带的,也有可能是浏览器添加的
可以通过右键,查看页面源代码,确定tbody是不是浏览器添加的,如果源代码中有tbody,那就时源代码中包含的
如果没有那就是浏览器添加的
-
2.使用方法