python的网页解析器;
正则表达式
html.parser
Beautiful Soup(可以使用html.parser 和lxml两种解析器)
lxml
步骤:未测试
from bs4 import BeautifulSoup #导入模块
def htmlget(great):
with open(great) as sm: #打开文件
soup = beautifulsoup(sm, 'html.parser', from_encoding = 'utf-8') #解析文件
urlget = soup.find_all('a') #获取url
for url in urlget: #输出url
print(url)
if __name == '__main__': #主函数
htmlget(great = 'smile.txt')
以上为初步了解网页解析器,代码未经测试。