pyspark基础操作 - 悦读

pyspark基础操作

最近在公司经常会用到一些spark,一般都是使用python进行处理,一开始使用还是有点陌生,看了几篇往上的文章也简单的操作了几天,通过写这篇文章再去巩固一下基础知识~持续更新
提示(tips)

这里要说一下spark中每一个环节都是分开的;
spark函数使用的是驼峰命名法;
代码写在一行上,如果过长换行必须有"",否则会报错(此坑已踩!!);

基础查询
select
where ->> where/filter
group by ->> groupby
case when
函数对比

操作	SQL/HIVE	SparkSQL
选择	select	df.select()
筛选	where	df.where/filter()
分组	group by	df.groupby()
条件	case when	from pyspark.sql import functions as F F.when(condition, value1).otherwise(value2)
去重	distinct	df.distinct()
新增一列	select中直接新增	df.withColumn(列名,条件)

更新:at 2021-08-08 23:48 from 北京

读取数据

读取parquet后缀的文件
pandas读取

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

YOLO11模型训练 | 目标检测与跟踪 | 实例分割 | 关键点姿态估计

PHP网站环境搭建软件的探讨

Java基础知识点梳理（详细）

【线性代数】理解正定矩阵和半正定矩阵

2、DML语言 DQL语言

Ubuntu开机自启配置（基于service：以ROS和docker为例）

MySQL物理备份恢复实战之XtraBackup

Redis 开源的、基于键值对的内存数据结构存储系统

数据库脏读、事务的四大特性、四大隔离级别、三大范式

【Python基础教程】python相关性热力图自动标记显著性

;