本人python小白,最近因实验室做项目才对python有了一些更多地了解
前几天要做一个网络爬虫,可是爬出来的东西里面有一堆标签对,像一般的标签对用strip或者replace就可以轻松去掉了,但是有这样的关于超链的标签对真的要让我烦的不行:
<a href="https://www.ncbi.nlm.nih.gov/pubmed/23526973" > Sequencing and comparative analysis of the straw mushroom (Volvariella volvacea) genome. </a>
显然这里面标签对之间的这一串字符是有用的,但是网址以及标签对是没用的,需要去掉,所以我采用了这样的方法:
data = "<a href="https://www.ncbi.nlm.nih.gov/pubmed/23526973" > Sequencing and comparative analysis of the straw mushroom (Volvariella volvacea) genome. </a>"
##实际上需要用\转义里面的双引号
data2 = str(data).replace("<a","%")
data3 = str(data2).replace("</a>","")
data4 = str(data3).replace(">","$")
mes1 = data4.find("%")
mes2 = data4.find("$")
hhh1 = data4[:mes1]
hhh2 = data4[mes2+1:]
hhh = hhh1 + hhh2
其实就是使用特殊符号来代替里面的字符串,然后用分割的方法将他们切开,再连接起来,我认为这样比较好。