大厂面经：京东大数据面试题及参考答案（3万字长文） - 悦读

大厂面经：京东大数据面试题及参考答案（3万字长文）

目录

Hive窗口函数有什么，什么场景，怎么用

Hive文本拼接函数是什么

Hive的数据存储格式有哪些，优缺点

两个表 join 过程中，空值的情况如何处理？

Hive存储结构的区别？

Hive本身对于SQL做了哪些优化？

Hive分区和分桶区别？

Hive分桶表的作用？

HBase负载均衡怎么实现

Hadoop如何更改文件所有者

Kafka如何监控

LGBM和XGBoost的区别

RNN, GRU, LSTM之间的差别

为什么RNN容易梯度爆炸？

进程的通信方式

进程和线程

逻辑斯特回归过拟合怎么办？

大数据集群间节点是如何通信的

hadoop core-site文件一般配置什么内容

ranger权限管理的最小粒度要什么

KNN的时间复杂度？怎么优化KNN的时间复杂度

SVM核函数的作用是什么

clickhouse的写入和读取为什么快

flink有哪些算子

flink的窗口函数了解吗

flink的精准一次性如何保证的

kafka是如何保证数据不丢失和不重复的，从生产者和消费者考虑

hbase用过吗，rowkey的设计原则是什么

如何解决热点现象

redis的数据结构了解吗

java的集合类有哪些

java实现多线程的几种方式

你知道有哪些实现线程池的方式吗，讲一下有哪些类

udf函数的分类

你实现的udf函数的功能

项目中最大的收获是什么

大数据项目遇到过的最难的需求，怎么解决的

MapReduce的执行过程

zookeper的leader选举机制，常见的一些应用场景，举例说明

kafka介绍一下

spark中jvm调优怎么调

hive优化你用过哪些，数据倾斜遇到过吗

你采用的数据存储格式是什么，相比于其他有什么优势

flink和spark的区别是什么

hashmap的底层原理是什么

你用过的一些linux命令

hbase中rowkey的设计原则是什么，如何解决热点现象

有什么方法取出hashmap中的所有key，怎么去遍历key，不是value

java从编译到运行发生了什么

一台服务器特别卡，应该怎么处理

shullfe为什么环形缓冲区80% 大于或小于行不行

namenode怎么保证开机还有之前的记录

hbase的特点和底层，和mysql有什么区别

zookeper的leader选举机制，常见的一些应用场景，举例说明

常见的排序算法，时间复杂度，空间复杂度

synchronized关键字的使用

volatile关键字，和synchronized的区别

Java的内存回收怎么做的

hashmap和treemap的区别

红黑树有什么特点

队列和栈结构

Java的内存回收怎么做的

hashmap和treemap的区别

红黑树有什么特点

队列和栈结构

你项目里的熔断器的原理？

SQL调优怎么做的？

MVC架构里用到了什么设计模式？

那你讲讲Java里的设计模式

给定一颗二叉树，按照从顶部到底部的顺序，返回从右侧能看到的节点值？

写Java代码-搜索螺旋排序数组

Hive窗口函数有什么，什么场景，怎么用

Hive 支持多种窗口函数，这些函数可以在数据集的每一行上进行计算，并且可以考虑数据集中的其他行。常见的窗口函数包括 ROW_NUMBER(), RANK(), DENSE_RANK(), LAG(), LEAD(), FIRST_VALUE(), LAST_VALUE(), NTH_VALUE(), 以及聚合函数如 SUM(), AVG(), COUNT(), MIN(), MAX() 等。

应用场景：

排名：根据某个字段对数据进行排名，比如销售业绩排名。
累计计算：比如计算每个月的累计销售额。
前后行比较：比较当前行与前一行或后一行的值，用于计算增

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

Deep Learning模型之：CNN卷积神经网络（一）深度解析CNN

帆软FineReport经验总结

[论文学习笔记]03一种混合填充算法【3D打印路径规划】

COLING 2018 最佳论文解读：序列标注经典模型复现

什么是设备运维管理系统？有什么作用？（6款设备运维管理系统推荐）

cesium-API分类

div怎么添加一个点击事件onClick?

用于目标检测的细粒度动态头

TreeSelect只能选中叶子节点

;