Bootstrap

python爬虫提取a标签内的标题_python 爬虫之获取标题和链接

最近在oschina论坛里发了一些文章,然后呢,今天主要是没有什么内容发布了,所以准备发个小代码。

爬取一下我的oschina论坛内的链接和标题,非常简单,非常容易。

先上代码

from requests_html import HTMLSession

session = HTMLSession()

url = “https://my.oschina.net/u/4798232" r = session.get(url)

for i in range(1, 12):

i = str(i)

urlxpath = ‘//*[@id=”newestBlogList”]/div[1]/div[‘+i+’]/div/a’

bt = r.html.xpath(urlxpath, first=True).text

c = urlxpath+‘/@href’

link = r.html.xpath(c, first=True)

a = “原”

if bt.find(a) == -1:

print(bt)

print(link)

else:

print(bt.replace(a, “”))

print(link)

首先呢,这个是通过xpath来进行操作的,具体如何复制xpath可以看我的zjzdmc.top/jsfx/47.html这篇文章,里面有动图。

然后导入什么库啥的,都是老生常谈的了,在a标签中,你复制的xpath为//*[@id=

;