当我们面对海量数据,总会出现那么一些异常数据,我们就需要对数据进行清洗,让我们更好的操作数据。
import codecs
import os
filepath="E:\\python\\python文件\\52G\\126\\"#需要读取文件的路径
savefilepath="D:\\数据处理\\good.txt"#需要写入文件的路径
filename=os.listdir(r"E:\python\python\52G葫\126")#批量输出文件名
filenum=len(filename)#所有文件的个数
for num in filename:#批量打开,因为我是从多个文本读取的内容,所以批量打开文本读取
print(num)
file=codecs.open(filepath+num,"rb","utf-8","ignore")
savefile = open(savefilepath, "ab")
mylist=file.readlines()#全部都出
for i in mylist:
mystr=i.split("----")
if len(mystr)==2:#筛选
savefile.write(i.encode("utf-8"))写入优质数据
else:
pass
file.close()#关闭文件
savefile.close()#关闭文件
这样,简单的数据清洗就完成了