Pandas使用教程 - 数据插值与填充 (interpolate, fillna)

进阶篇31. 数据插值与填充 (interpolate, fillna)

在数据分析过程中，缺失数据（NaN）是常见问题，可能由于数据采集不完整、数据传输错误等原因产生。缺失数据若不处理，往往会影响后续的数据分析、模型构建和结果解释。Pandas 提供了两种主要方法来处理缺失数据：

fillna()：用于直接填充缺失值，可以用常数、前值（前向填充）或后值（后向填充）等方式填补缺失数据。
interpolate()：用于通过插值方法根据已知数据推算缺失数据，适用于时间序列数据或具有连续性的变量。

本文将详细介绍这两种方法的使用原理、数学表达、具体代码示例以及实际应用场景，帮助你灵活选择适合自己数据的缺失值处理策略。

1. 数据填充：fillna()

1.1 基本概念

fillna() 方法用于填充 DataFrame 或 Series 中的缺失值（NaN）。其基本思路是将 NaN 替换为指定的值或通过方法（如前向填充、后向填充）进行填充。数学上，如果有数据序列：
$x_1, x_2, \dots, x_n$
其中部分 ( x_i ) 为 NaN，则填充操作可以表示为：
$x_i' = \begin{cases} x_i, & \text{if } x_i \text{ is not NaN} \\ v, & \text{if } x_i \text{ is NaN} \end{cases}$
其中 ( v ) 为填充值，或者用前值 ( x_{i-1} ) 或后值 ( x_{i+1} ) 替代。

1.2 常用参数

value：用于填充缺失值的常数或字典。
method：指定填充方法，如 'ffill'（前向填充）和 'bfill'（后向填充）。
axis：指定填充的轴，默认为 0，即按列填充。
inplace：是否直接在原对象上修改，默认为 False。

1.3 示例代码

import pandas as pd
import numpy as np

# 创建示例 DataFrame，包含缺失值
data = {
    'A': [1, np.nan, 3, np.nan, 5],
    'B': [np.nan, 2, np.nan, 4, 5]
}
df = pd.DataFrame(data)
print("原始数据：")
print(df)

# 使用 fillna() 用常数填充缺失值
df_filled_const = df.fillna(0)
print("\n使用常数 0 填充缺失值：")
print(df_filled_const)

# 使用前向填充 (ffill)
df_filled_ffill = df.fillna(method='ffill')
print("\n使用前向填充：")
print(df_filled_ffill)

# 使用后向填充 (bfill)
df_filled_bfill = df.fillna(method='bfill')
print("\n使用后向填充：")
print(df_filled_bfill)

# 对不同列使用不同的填充值
fill_values = {'A': 10, 'B': 20}
df_filled_dict = df.fillna(value=fill_values)
print("\n使用字典填充缺失值：")
print(df_filled_dict)

上述代码展示了如何使用 fillna() 方法将缺失值填充为常数、前向填充、后向填充，以及针对不同列采用不同的填充值。

2. 数据插值：interpolate()

2.1 基本概念

interpolate() 方法用于通过插值法填补缺失值。对于连续性较强的数据，插值能够根据已有数据点推算出缺失值。常见的插值方法包括线性插值、时间插值、多项式插值等。数学上，对于数据序列 ( x_1, x_2, \dots, x_n )，线性插值的公式为：
$x_i' = x_{i-1} + \frac{x_{i+1} - x_{i-1}}{2} \quad \text{（简单情况）}$
实际中，Pandas 会根据具体情况进行更精确的插值计算。

2.2 常用参数

method：插值方法，如 'linear'（默认）、'time'（时间插值）、'polynomial'（多项式插值）等。
limit：指定最大连续 NaN 值的填充数量，超过该数量不进行插值。
inplace：是否直接修改原对象，默认为 False。

2.3 示例代码

2.3.1 线性插值

# 创建包含缺失值的时间序列数据
dates = pd.date_range(start="2024-01-01", periods=10, freq="D")
data = [1.0, np.nan, 3.0, np.nan, 5.0, 6.0, np.nan, 8.0, 9.0, np.nan]
s = pd.Series(data, index=dates)
print("原始时间序列数据：")
print(s)

# 使用线性插值填充缺失值
s_interpolated = s.interpolate(method='linear')
print("\n线性插值后的数据：")
print(s_interpolated)

2.3.2 时间插值

当索引为 DatetimeIndex 时，可以使用时间插值方法：

# 创建时间序列数据
s_time = pd.Series(data, index=dates)
# 使用时间插值（method='time'）
s_time_interpolated = s_time.interpolate(method='time')
print("\n时间插值后的数据：")
print(s_time_interpolated)

2.3.3 多项式插值

可以使用多项式插值方法，但需指定 order 参数：

# 使用多项式插值，order=2 表示二次插值
s_poly = s.interpolate(method='polynomial', order=2)
print("\n二次多项式插值后的数据：")
print(s_poly)

3. 应用场景

3.1 时间序列数据

在金融、气象等领域，数据通常具有时间连续性。通过插值，可以平滑数据波动，填补缺失的观测值。例如，在股票数据中，使用线性插值可以估计非交易日的价格变化。

3.2 数据预处理

在数据清洗过程中，填充缺失值是常见任务。根据数据特点选择合适的填充或插值方法能够保持数据的真实性和连续性。

3.3 特征工程

插值和填充操作可以用来生成新的特征，如累积增长率、周期性特征等，为后续模型训练提供稳定的输入数据。

4. 最佳实践与注意事项

4.1 选择合适的方法

对于具有明显连续性的数据，建议使用 interpolate() 进行插值；
对于缺失值较多且不连续的数据，直接使用 fillna() 填充常数或采用前向、后向填充更为合适。

4.2 参数设置

插值时合理设置 limit 参数，以防连续缺失值过多导致插值结果不准确；
如果数据带有时间戳，使用 method='time' 可获得更合理的插值结果；
在多项式插值中，注意 order 的选择，过高的 order 可能导致过拟合。

4.3 处理缺失值前的预处理

在插值或填充之前，建议先对数据进行可视化检查，了解缺失值分布和数据趋势，以便选择合适的方法。

4.4 性能考虑

插值操作通常是向量化的，但在大数据集上仍需注意内存和计算效率。若数据集较大，可以考虑分块处理或使用 Dask 等工具扩展 Pandas。

5. 总结

本文详细介绍了 Pandas 中两种处理缺失值的方法：

fillna()：用于直接填充缺失值，可以填充常数、前向填充（ffill）或后向填充（bfill），适用于数据缺失情况较为简单的场景。
interpolate()：用于根据已有数据进行插值，适合连续型数据的缺失值估计。常用的插值方法包括线性插值、时间插值和多项式插值等。

数学上，线性插值可以近似表示为：
$x_t' = x_{t-1} + \frac{x_{t+1} - x_{t-1}}{2}$
而 fillna() 则直接将缺失值设定为某个常数或根据相邻值填充。

这两种方法各有优缺点，选择时应根据数据的特性和分析需求灵活决定。结合实际案例，我们展示了如何利用这两种方法对时间序列数据进行缺失值填补和插值，从而保持数据的连续性和真实性，为后续分析和模型构建提供可靠数据基础。

6. 参考资料

Pandas 官方文档：DataFrame.fillna
Pandas 官方文档：DataFrame.interpolate
《Python for Data Analysis》 by Wes McKinney

希望本文能帮助你全面理解并灵活应用 Pandas 中的 fillna() 和 interpolate() 方法，在数据预处理和特征工程中有效解决缺失值问题，提升数据分析和建模的准确性和稳定性。不断实践与优化，将使你在数据科学的道路上获得更高效、更精确的结果。