python爬虫提取a标签内的标题_python 爬虫之获取标题和链接

最近在oschina论坛里发了一些文章，然后呢，今天主要是没有什么内容发布了，所以准备发个小代码。

爬取一下我的oschina论坛内的链接和标题，非常简单，非常容易。

先上代码

from requests_html import HTMLSession

session = HTMLSession()

url = “https://my.oschina.net/u/4798232" r = session.get(url)

for i in range(1, 12):

i = str(i)

urlxpath = ‘//*[@id=”newestBlogList”]/div[1]/div[‘+i+’]/div/a’

bt = r.html.xpath(urlxpath, first=True).text

c = urlxpath+‘/@href’

link = r.html.xpath(c, first=True)

a = “原”

if bt.find(a) == -1:

print(bt)

print(link)

else:

print(bt.replace(a, “”))

print(link)

首先呢，这个是通过xpath来进行操作的，具体如何复制xpath可以看我的zjzdmc.top/jsfx/47.html这篇文章，里面有动图。

然后导入什么库啥的，都是老生常谈的了，在a标签中，你复制的xpath为//*[@id=