Bootstrap

手把手教你使用python爬虫之xpath

xpath

  • 环境安装:
pip install lxml

1.xpath解析的编码流程

  • 1.创建一个etree类型的对象,然后把即将被解析的页面源码数据加载到该对象中

  • 2.调用etree对象的xpath方法结合着不同形式的xpath表达式,进行标签定位和数据提取

  • xpath表达式如何理解?

    • html中的标签是遵从树状结构的。

    • 切记:xpath表达式中最好不要出现tbody标签,因为tbody标签可能是浏览器加的,可以通过查看网页源代码判断是否是真实的tbody!
      tbody可能是源代码自带的,也有可能是浏览器添加的
      可以通过右键,查看页面源代码,确定tbody是不是浏览器添加的,如果源代码中有tbody,那就时源代码中包含的
      如果没有那就是浏览器添加的

2.使用方法

;