在 Polars 中,不建议使用方括号 [ ] 来选择行和列的原因主要是性能和可读性方面的考虑。Polars 旨在提供高效的 DataFrame 操作,特别是在处理大型数据集时。使用方括号进行选择可能会导致性能下降,因为这涉及到额外的操作和潜在的数据复制。下面是几个具体的原因:
性能问题:
- 数据复制:使用方括号选择单个列时,Polars 会复制整个列的数据,通常会创建临时的 DataFrame 或 Series,这导致不必要的内存使用和计算开销,导致不必要的内存分配和复制操作,从而影响性能
- 效率较低:方括号语法可能不如其他专门设计的 API 方法(如 `.select()`、`.filter()` 等)那样直观易懂。这些方法提供了更清晰的方式来表达你的意图,并且随着库的发展,它们可能会得到优化以提供更好的性能。
可读性和维护性:
- 清晰性:使用 .select() 或 .filter() 等专门的函数可以使代码更具可读性,更容易理解。
- 一致性:遵循 Polars 推荐的最佳实践和约定可以使代码更易于维护。
隐式转换:
- 使用方括号语法选择单个列时,它会返回一个 Series 而不是一个 DataFrame。这可能会导致代码中出现意外的行为,特别是当你期望得到一个 DataFrame 但实际得到的是一个 Series 时。
明确性
- Polars 的设计鼓励使用显式的函数调用来执行操作,这样可以更容易地追踪代码中的数据流动,并有助于避免潜在的错误。
示例
假设你有一个 DataFrame df,并且你想要选择其中的一列或几列:
使用方括号选择列
# 使用方括号选择单个列
column_a = df['A']
# 使用方括号选择多个列
selected_columns = df[['A', 'B']]
使用 .select() 选择列
# 使用 .select() 选择单个列
column_a = df.select(pl.col('A'))
# 使用 .select() 选择多个列
selected_columns = df.select(['A', 'B'])
选择行
对于选择行,Polars 提供了 .filter() 方法,这比使用方括号更高效:
# 使用 .filter() 选择满足条件的行
filtered_df = df.filter(pl.col('A') > 10)
总结
- 使用 .select() 和 .filter() 等专门的方法通常比使用方括号更高效,尤其是在处理大数据集时。
- 使用这些专门的方法可以避免不必要的数据复制,并且可以使代码更易于理解和维护。
- 遵循 Polars 的最佳实践有助于编写出更高效、更可读的代码。
总的来说,虽然方括号选择在某些情况下仍然可用,但对于更高效和更易维护的代码,Polars 推荐使用 .select() 和 .filter() 等方法来选择列和行。