Bootstrap

python网页解析器

python的网页解析器;

正则表达式

html.parser

Beautiful Soup(可以使用html.parser 和lxml两种解析器)

lxml

步骤:未测试

from bs4 import BeautifulSoup #导入模块
def htmlget(great):
    with open(great) as sm: #打开文件
        soup = beautifulsoup(sm, 'html.parser', from_encoding = 'utf-8') #解析文件
    urlget = soup.find_all('a') #获取url
    for url in urlget: #输出url
        print(url)
if __name == '__main__': #主函数
    htmlget(great = 'smile.txt')
以上为初步了解网页解析器,代码未经测试。



;