Bootstrap

大厂面经:京东大数据面试题及参考答案(3万字长文)

目录

Hive窗口函数有什么,什么场景,怎么用

Hive文本拼接函数是什么

Hive的数据存储格式有哪些,优缺点

两个表 join 过程中,空值的情况如何处理?

Hive存储结构的区别?

Hive本身对于SQL做了哪些优化?

Hive分区和分桶区别?

Hive分桶表的作用?

HBase负载均衡怎么实现

Hadoop如何更改文件所有者

Kafka如何监控

LGBM和XGBoost的区别

RNN, GRU, LSTM之间的差别

为什么RNN容易梯度爆炸?

进程的通信方式

进程和线程

逻辑斯特回归过拟合怎么办?

大数据集群间节点是如何通信的

hadoop core-site文件一般配置什么内容

ranger权限管理的最小粒度要什么

KNN的时间复杂度?怎么优化KNN的时间复杂度

SVM核函数的作用是什么

clickhouse的写入和读取为什么快

flink有哪些算子

flink的窗口函数了解吗

flink的精准一次性如何保证的

kafka是如何保证数据不丢失和不重复的,从生产者和消费者考虑

hbase用过吗,rowkey的设计原则是什么

如何解决热点现象

redis的数据结构了解吗

java的集合类有哪些

java实现多线程的几种方式

你知道有哪些实现线程池的方式吗,讲一下有哪些类

udf函数的分类

你实现的udf函数的功能

项目中最大的收获是什么

大数据项目遇到过的最难的需求,怎么解决的

MapReduce的执行过程

zookeper的leader选举机制,常见的一些应用场景,举例说明

kafka介绍一下

spark中jvm调优怎么调

hive优化你用过哪些,数据倾斜遇到过吗

你采用的数据存储格式是什么,相比于其他有什么优势

flink和spark的区别是什么

hashmap的底层原理是什么

你用过的一些linux命令

hbase中rowkey的设计原则是什么,如何解决热点现象

有什么方法取出hashmap中的所有key,怎么去遍历key,不是value

java从编译到运行发生了什么

一台服务器特别卡,应该怎么处理

shullfe为什么环形缓冲区80% 大于或小于行不行

namenode怎么保证开机还有之前的记录

hbase的特点和底层,和mysql有什么区别

zookeper的leader选举机制,常见的一些应用场景,举例说明

常见的排序算法,时间复杂度,空间复杂度

快速排序

归并排序

插入排序

冒泡排序

选择排序

堆排序

synchronized关键字的使用

volatile关键字,和synchronized的区别

Java的内存回收怎么做的

hashmap和treemap的区别

红黑树有什么特点

队列和栈结构

Java的内存回收怎么做的

hashmap和treemap的区别

红黑树有什么特点

队列和栈结构

你项目里的熔断器的原理?

SQL调优怎么做的?

MVC架构里用到了什么设计模式?

那你讲讲Java里的设计模式

给定一颗二叉树,按照从顶部到底部的顺序,返回从右侧能看到的节点值?

示例代码

写Java代码-搜索螺旋排序数组

示例代码


Hive窗口函数有什么,什么场景,怎么用

Hive 支持多种窗口函数,这些函数可以在数据集的每一行上进行计算,并且可以考虑数据集中的其他行。常见的窗口函数包括 ROW_NUMBER(), RANK(), DENSE_RANK(), LAG(), LEAD(), FIRST_VALUE(), LAST_VALUE(), NTH_VALUE(), 以及聚合函数如 SUM(), AVG(), COUNT(), MIN(), MAX() 等。

应用场景:

  • 排名:根据某个字段对数据进行排名,比如销售业绩排名。
  • 累计计算:比如计算每个月的累计销售额。
  • 前后行比较:比较当前行与前一行或后一行的值,用于计算增
;