Bootstrap

pyspark基础操作

最近在公司经常会用到一些spark,一般都是使用python进行处理,一开始使用还是有点陌生,看了几篇往上的文章也简单的操作了几天,通过写这篇文章再去巩固一下基础知识~持续更新
提示(tips)

  1. 这里要说一下spark中每一个环节都是分开的;
  2. spark函数使用的是驼峰命名法;
  3. 代码写在一行上,如果过长换行必须有"",否则会报错(此坑已踩!!);

基础查询
select
where ->> where/filter
group by ->> groupby
case when
函数对比

操作 SQL/HIVE SparkSQL
选择 select df.select()
筛选 where df.where/filter()
分组 group by df.groupby()
条件 case when from pyspark.sql import functions as F F.when(condition, value1).otherwise(value2)
去重 distinct df.distinct()
新增一列 select中直接新增 df.withColumn(列名,条件)

更新:at 2021-08-08 23:48 from 北京


读取数据

  1. 读取parquet后缀的文件
    pandas读取
;