Bootstrap

【python】DataFrame对象的数据处理

缺失值处理

缺失值在数据中表示为NaN,通过info()查看每一列的非空值可以比较出哪一列有多少个缺失值,isnull()以类似表格的形式输出各个元素的情况,非空为False,空值为Ture。

dropna()可以删除带有缺失值的行,其中声明参数how='all',则只删除整行都是缺失值的行。

fillna()可以用参数填充所有缺失值。这个参数也可以是字典的形式,根据不同的缺失值填入不同的值,键为关键字,值为填充内容。

重复值处理

调用drop_duplicates()可以删除重复的数据行(数据完全相同)。添加参数subset指定需要处理的列,则可只删除该列中重复值所在的行,subset可以传入一个列表则对多列进行删除筛选(仅该列中的值重复即可删除)。删除默认保留第一个值,声明参数keep可控制只留最后一行Last或全部删除False

在数据的某一列中调用unique(),可以得到该列唯一值,该值按出现顺序排列

数据排序

;