select_f = []
for col in list(data.columns):
zero = len(data[data[col] == 0])
if zero < data.shape[0]*0.90:
select_f.append(col)
metagenomics_species = metagenomics_species.loc[:,select_f]
print(data.shape)
对Dataframe格式的数据进行处理,数据特征数量过多乃至上万,为了让数据能够用于模型,对其进行预筛选,这里展示的就是根据每一列0的个数占总样本的比例来筛选,去除百分之九十及以上的样本对应特征值为0的特征。