Bootstrap

玩好大数据:1.数据清洗

当我们面对海量数据,总会出现那么一些异常数据,我们就需要对数据进行清洗,让我们更好的操作数据。

import codecs
import os
filepath="E:\\python\\python文件\\52G\\126\\"#需要读取文件的路径
savefilepath="D:\\数据处理\\good.txt"#需要写入文件的路径
filename=os.listdir(r"E:\python\python\52G葫\126")#批量输出文件名
filenum=len(filename)#所有文件的个数
for num in filename:#批量打开,因为我是从多个文本读取的内容,所以批量打开文本读取
    print(num)
    file=codecs.open(filepath+num,"rb","utf-8","ignore")
    savefile = open(savefilepath, "ab")
    mylist=file.readlines()#全部都出
    for i in mylist:
        mystr=i.split("----")
        if len(mystr)==2:#筛选
             savefile.write(i.encode("utf-8"))写入优质数据
        else:
            pass
file.close()#关闭文件
savefile.close()#关闭文件

这样,简单的数据清洗就完成了

;