最近在公司经常会用到一些spark,一般都是使用python进行处理,一开始使用还是有点陌生,看了几篇往上的文章也简单的操作了几天,通过写这篇文章再去巩固一下基础知识~持续更新
提示(tips)
- 这里要说一下spark中每一个环节都是分开的;
- spark函数使用的是驼峰命名法;
- 代码写在一行上,如果过长换行必须有"",否则会报错(此坑已踩!!);
基础查询
select
where ->> where/filter
group by ->> groupby
case when
函数对比
操作 | SQL/HIVE | SparkSQL |
---|---|---|
选择 | select | df.select() |
筛选 | where | df.where/filter() |
分组 | group by | df.groupby() |
条件 | case when | from pyspark.sql import functions as F F.when(condition, value1).otherwise(value2) |
去重 | distinct | df.distinct() |
新增一列 | select中直接新增 | df.withColumn(列名,条件) |
更新:at 2021-08-08 23:48 from 北京
读取数据
- 读取parquet后缀的文件
pandas读取