Hadoop实操
这是Fayson创建的学习交流的公众号,包含非常多优质hadoop相关的文章.
新的一年希望自己能够好好学习Hadoop实操里的所有内容,并整理出对应的文档,整理对应的blog.
加油!
下面是大体的目录
1.规划设计
1.1.on-premise部署规划
0001-《CDH网络要求(Lenovo参考架构)》
0062-《如何为Hadoop集群选择正确的硬件》
0158-《如何给Hadoop集群划分角色》
1.2.on private cloud部署规划
0200- 《如何在VMware上部署Hadoop》
1.3.on public cloud部署规划
0195- 《公有云中的Hadoop》
2.安装/升级/卸载
2.1.安装
0002-《CENTOS7.2安装CDH5.10和Kudu1.2(一)》
0002-《CENTOS7.2安装CDH5.10和Kudu1.2(二)》
0024-《CENTOS6.5安装CDH5.12.1(一)》
0025-《CENTOS6.5安装CDH5.12.1(二)》
0030-《如何在CDH中安装Kudu&Spark2&Kafka》
0072-《CDH安装前置准备》
0073-《CentOS6.5安装CDH5.13》
0167-《如何在Redhat7.3安装CDH5.14》
0270- 《如何在Redhat7.4安装CDH6.0.0_beta1》
0317- 《如何在Redhat7.4安装CDH5.15》
0377- 《如何在Redhat7.4安装CDH6.0》
0470- 《0470-如何在Redhat7.4安装CDH5.16.1》
0491- 《0491-如何在Redhat7.4安装CDH6.1》
《0549-6.1-如何在SUSE12 SP3安装CDH6.1》
《0610-6.2.0-如何在Redhat7.4安装CDH6.2》
《0719-5.10.0-如何在RedHat7.2使用rpm安装CDH(无CM)》
《0720-5.10.0-如何在RedHat7.2使用rpm安装CDH(有CM)》
《0721-5.10.0-CM接管rpm方式安装的无CM的CDH集群》
《0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)》
《0723-6.2.0-如何在RedHat7.2使用rpm安装CDH(有CM)》
《0724-6.2.0-CM接管rpm方式安装的无CM的CDH集群》
《0728-6.3.0-如何在Redhat7.4安装CDH6.3》
《0733-7.0.3-如何在Redhat7.6中安装CDP DC7.0.3》
2.2.一键安装
计划中…
2.3.升级
0009-《如何升级Cloudera Manager和CDH》
0095-《如何通过CM升级Kafka0.11及Spark2.2》
0171- 《如何使用Cloudera Manager升级Spark2.1版本至Spark2.2》
0284- 《CDH集群跨多版本滚动升级》
《0594-6.1.0-如何从CDH6.1.0升级到CDH6.2.0》
2.4.迁移
0007-《如何迁移Cloudera Manager节点》
2.5.卸载
0008-《如何卸载CDH(附一键卸载github源码)》
《0609-6.1.0-如何卸载CDH6.1》
《0621-6.2.0-如何卸载CDH6.2》
《0725-5.16.2-如何卸载CDH5.16.2》
3.Cloudera Manager
3.1.产品介绍
0053-《CDH5.13和CM5.13的新功能》
0160-《CDH5.14和CM5.14的新功能》
0216- 《Cloudera Manager管理控制台》
0217- 《Cloudera Manager首页》
0269- 《Cloudera Enterprise 6 Beta发布》
0274- 《CDH5弃用的项目》
0303- 《CDH5.15和CM5.15的新功能》
0336- 《Kudu1.7的新功能》
0365- 《关于CDH相关服务启动用户的说明》
0376- 《Cloudera Enterprise 6正式发布》
0427- 《CDH6中的第三方库》
0444- 《Cloudera产品支持生命周期策略》
0466- 《0466-CDH5.16.1和CM5.16.1的新功能》
0487- 《0487-CDH6.1的新功能》
0488- 《0488-Cloudera Manager6.1的新功能》
0509- 《0509-深入分析CDH的安装目录》
《0585-Cloudera Enterprise 6.2.0发布》
《0589-Cloudera Manager6.2的新功能》
《0593-CDH5与CDH6对比》
《0595-CDH6.2的新功能》
《0603-Cloudera Flow Management和Cloudera Edge Management正式发布》
《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》
《0682-Cloudera Enterprise 6.3.0发布》
《0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续》
《Cloudera Streams Management正式GA》
《0717-6.3.0-Cloudera Manager 6.3的新功能》
《0718-6.3.0-CDH6.3的新功能》
《0732-Cloudera Data Center7.0今天正式GA》
《CSP2.0-什么是CSM-01》
《0735-什么是Cloudera Management Service - 1》
3.2.扩容
0080-《如何在CDH集群中加入异构设备》
0089-《如何给CDH集群增加Gateway节点》
0110-《如何给Kerberos环境下的CDH集群添加Gateway节点》
0112-《如何在非Kerberos环境下对CDH进行扩容》
0126-《如何为Kerberos环境的CDH集群在线扩容数据节点》
0344- 《如何Redhat7的CDH集群中扩容增加Redhat6的节点》
0461- 《0461-CDH6.0扩容异常分析》
《0567-6.1.0-非Kerberos环境下集群外跨操作系统的Gateway节点配置》
《0571-5.16.1-Redhat7的CDH集群外配置Kerberos环境SUSE12的Gateway节点》
0297- 《如何在CDH集群外配置非Kerberos环境的Gateway节点》
0306- 《如何在CDH集群外配置Kerberos环境的Gateway节点》
3.3.减容
0115-《如何使用Cloudera Manager在线为集群减容》
3.4.使用
0003-《如何在CDH中使用LZO压缩》
0036-《如何通过CM API优雅的获取元数据库密码》
0040-《如何重置Cloudera Manager的admin密码》
0088-《如何将CDH集群JAVA升级至JDK8》
0090-《如何将CDH从企业版降级为免费版》
0091-《如何将Kerberos环境下CDH集群JAVA升级至JDK8》
0096-《如何使用Cloudera Manager启用HDFS的HA》
0098-《如何使用Cloudera Manager禁用HDFS HA》
0100-《如何使用Cloudera Manager启用YARN的HA》
0104-《如何使用Cloudera Manager禁用YARN的HA》
0117-《如何修改CDH集群的DataNoe节点HOSTNAME》
0163-《如何修改CDH集群的IP地址》
0187- 《如何降级Cloudera Manager和CDH》
0271- 《如何修改Kerberos的CDH集群的HOSTNAME》
0300- 《如何在CDH集群中为数据节点热插拔硬盘》
0311- 《如何在CDH集群外配置非Kerberos环境的Spark2和Kafka客户端环境》
0314- 《如何在CDH集群外配置Kerberos环境的Spark2和Kafka客户端环境》
0332- 《如何修改CDH集群元数据库地址》
0349- 《如何迁移CDH的opt目录》
0392- 《CDH集群升级JDK8后CM服务的JDK版本指定分析》
0400- 《如何修改Cloudera Manager的时区》
0442- 《如何使用Cloudera Manger自定义部署Parcel包》
0446- 《如何在Kerberos环境下修改启用HA的CDH集群HOSTNAME》
0449- 《如何在Kerberos环境的CDH集群外跨OS版本中在指定目录配置HDFS的Gateway节点》
0456- 《如何使用Cloudera Manager为Hadoop服务角色启用远程JMX访问》
0457- 《0457-如何使用Cloudera Manager手动收集诊断包》
0486- 《0486-如何将Kerberos的CDH5.16.1从Oracle JDK 1.8迁移至OpenJDK 1.8》
0497- 《0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8》
0515- 《0515-如何对Cloudera Manager的数据库密码进行脱敏》
0517- 《0517-如何在CDH5中使用单用户模式》
0520- 《0520-如何使用非root用户启动CM的Server和Agent服务》
《0541-6.1.0-如何为Cloudera Manager设置反向代理》
《0545-Cloudera Manager中Entryopy警告处理》
《0546-6.1-使用Cloudera Manager API启停组件说明》
《0547-CM Server和Agent服务停止脚本说明》
《0548-5.13.1-如何使用普通用户管理CM server和agent服务》
《0551-6.1-普通用户配置kill CDH集群进程权限》
《0591-5.16.1-如何通过CM的API 获取集群告警信息》
《0597-5.16.1-如何在CM界面自定义图表》
《0605-5.16.1-CM告警SNMP中DateAndTime类型解析》
《0629-6.2-如何使用CM API接口获取集群所有节点内存和磁盘使用情况》
《0638-6.1.0-Cloudera Manager配置TLS》
《0642-6.2-如何在CM界面创建触发器》
《0654-6.2.0-如何通过CM API获取集群事件并入库到MySQL》
《0707-如何安装Grafana并使用Cloudera Manager datasource插件》
《0730-5.16.2-如何禁用CDH中的静态资源池》
3.5.异常分析
0023-《HOSTS配置问题导致集群异常故障分析》
0034-《CM启动报InnoDB engine not found分析》
0044-《CDH高可用集群误删NameNode故障恢复》
0086-《Cloudera Manager Server服务在RedHat7状态显示异常分析》
0170- 《Cloudera Manager分发Parcel异常分析》
0196- 《CDH内存调拨过度警告分析》
0350- 《Redhat7.4安装CDH6.0_beta1时分发Parcel异常分析》
0378- 《Cloudera Agent服务异常分析》
0379- 《CM部署客户端配置失败异常分析》
0476- 《0476-Cloudera Agent服务tmpfs文件系统cm_processes空间不足分析》
0519-《0519-如何解决Cloudera Manager主机页面出现重复主机异常》
《0565-6.1.0-NFS异常导致Host Monitor及Agent服务错误》
《0577-5.16.1-使用Cloudera Manager配置自定义csd目录异常》
《0587-6.1.0-CM 管理界面中Impala 的查看SQL查询详细异常问题分析》
《0601-6.1.0-解除授权后的机器重新加入集群异常分析》
《0615-5.16.1-如何修改Cloudera Manager中图表查询的时间序列限制数》
《0637-5.16.1-CDH集群中var目录占用空间大问题分析》
《0669-6.2.0-集群中部分节点hadoop命令无法使用问题分析》
《0705-5.16.2-HDFS文件浏览器异常分析》
4.Navigator
4.1.Navigator安装
0197- 《Cloudera Navigator介绍与安装》
4.2.Navigator使用
0203- 《Navigator的使用》
0205- 《Cloudera Navigator异常分析》
0396- 《Navigator发布审计数据到Kafka并使用Flume入HBase》
0399- 《如何合理的设置Navigator Metadata Server的Heap》
《0655-6.2.0-CDH6.2安装Navigator无法访问异常分析》
《0698-6.2.0-Navigator审计日志查看对应用户的操作》
5.数据科学
5.1.基础环境
0012-《什么是数据科学工作台?为什么数据科学家需要它?》
0038-《如何在CDH集群安装Anaconda&搭建Python私有源》
0049-《什么是sparklyr》
0050-《如何在Redhat中配置R环境》
0051-《如何在Redhat中安装R的包及搭建R的私有源》
0052-《如何使用R连接Hive与Impala》
0057-《PySpark数据类型转换异常分析》
0118-《如何在CDH集群上部署Python3运行环境及运行Python作业》
0334- 《CDH集群升级Python3异常问题分析》
0339- 《Python3环境通过JDBC访问非Kerberos环境的Hive》
0340- 《Python3通过JDBC访问非Kerberos环境的Impala》
0473- 《0473-如何使用Python3访问Kerberos环境的Hive和Impala》
0490- 《0490-如何为GPU环境编译CUDA9.2的TensorFlow1.8与1.12》
0499- 《0499-如何使用潜水艇在Hadoop之上愉快的玩耍深度学习》
《0570-如何在CDH集群上部署Python3.6.1环境及运行Pyspark作业》
5.2.CDSW
5.2.1.安装/升级/卸载
0037-《如何在Windows Server2008搭建DNS服务并配置泛域名解析》
0047-《如何利用Dnsmasq构建小型集群的本地DNS服务器》
0077-《如何在Windows Server2012搭建DNS服务并配置泛域名解析》
0078-《如何在CDH5.13中安装CDSW1.2》
0172- 《如何在RedHat6上使用Bind搭建DNS服务》
0174- 《如何在RedHat7上使用Bind搭建DNS服务》
0323- 《如何在CDH5.14中安装CDSW1.3》
0325- 《如何在CDH5.15中安装CDSW1.4》
0390- 《如何通过CM升级CDSW1.2.2至1.4》
0478- 《0478-如何在CDH5.16.1中安装CDSW1.4.2》
《0573-5.16.1-如何将CDSW从1.4.2升级到1.5》
《0574-5.16.1-CDSW1.4升级1.5版本db-migrate镜像启动失败问题解决》
《0584-5.16.1-如何卸载CDSW1.5》
《0586-5.16.1-如何在CDH5.16.1中安装CDSW1.5》
《0600-6.1.0-如何在CDH6.1中安装CDSW1.5》
《0602-6.1.0-如何卸载CDSW1.5》
《0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5》
《0668-6.2.0-如何在CDH6.2.0上卸载CDSW1.5》
5.2.2.产品介绍
0063-《CDSW1.2的新功能》
0165-《CDSW1.3的新功能》
0304- 《如何在CDSW中使用GPU运行深度学习》
0313- 《CDSW1.4的新功能》
0355- 《Hadoop之上的模型训练 - CDSW1.4新功能模块》
0357- 《Hadoop之上的模型部署 - CDSW1.4新功能模块》
《0544-CDSW1.5的新功能》
《CDSW1.6的新特性》
《0677-在CDSW1.6中使用你喜爱的编辑器》
《0716-1.6.0-CDSW1.6的新功能》
5.2.3.使用
0042-《如何在CDSW中使用R绘制直方图》
0054-《如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业》
0055-《如何使用CDSW在CDH中分布式运行所有R代码》
0059-《如何基于CDSW基础镜像定制Docker》
0151-《如何使用Nginx实现CDSW的跨网段访问》
0156-《如何修改CDSW服务的DNS和HOSTNAME》
0159-《如何在CDSW上运行TensorFlow》
0161-《如何在CDSW中定制Docker镜像》
0175- 《如何在CDSW上创建Git工程》
0265- 《如何在CDSW上创建Git工程并提交代码》
0327- 《如何在CDH中使用PySpark分布式运行GridSearch算法》
0331- 《如何在CDSW上分布式运行GridSearch算法》
0333- 《如何在CDSW上调试失败或卡住的Spark应用》
0347- 《后台查找CDSW中用户的审计日志》
0350- 《如何通过CM将CDSW从1.3升级至1.4》
0356- 《CDSW1.4的Experiments功能使用》
0358- 《CDSW1.4的Models功能-创建和部署模型(QuickStart)》
0359- 《模型训练和部署-Iris数据集》
0393- 《如何为CDSW的数据目录扩容》
0430- 《如何修改CDSW会话的时区》
0489- 《0489-CDSW中用户Session访问外部数据目录》
0502- 《0502-CDSW中访问Kerberos环境下的Kafka》
《0580-5.16.1-通过CDSW API获取所有用户的Project详细信息》
《0581-5.16.1-关于CDSW监控指标API接口描述》
《0582-5.16.1-1.4.2-后台脚本无感知为CDSW用户绑定Kerberos账号(keytab认证)》
《0583-5.16.1-1.4.2-后台脚本无感知为CDSW用户绑定Kerberos账号(密码认证)》
《0646-6.1.1-如何查看CDSW中其它用户创建的Public工程》
《0649-6.1.1-在C6集群中CDSW的Terminal执行hadoop命令异常分析》
《0662-6.2.0-CDSW集成Active Directory后登录异常分析》
《0663-6.2.0-通过Nginx获取CDSW的登录信息》
《0670-6.2.0-如何获取CDSW中每个Session输出的LiveLog日志》
《0672-5.16.1-CDSW中Run Experiments异常分析》
《0673-6.2.0-通过Nginx获取CDSW的登录信息(续)》
《0679-6.2.0-通过Nginx获取CDSW的登录信息-续-2》
《0683-6.2.0-通过Nginx获取CDSW的登录信息-续-3》
《0690-TensorFlow之车牌识别案例》
《0689-1.4.0-CDSW目录迁移变更技术手册》
《0691-1.4.0-GPU环境下CDSW运行TensorFlow案例》
《0714-1.5.0-CDSW数据库登录失败异常分析》
《0729-6.3.0-如何修改CDSW1.6中Docker服务的默认网关》
《0736-1.6.1-如何配置CDSW使用本地的Pycharm》
《0737-1.6.1-CDSW分布式计算》
《0739-CDSW本地数据目录权限问题》
《0740-1.6.1-CDSW中定制docker无法使用Jupyter Notebook问题》
6.元数据库
6.1.MySQL
0029-《如何实现CDH元数据库MySQL的主备》
0058-《如何在CDH集群的非元数据库节点安装MySQL5.7.12》
0134-《如何实现CDH元数据库MySQL的主主互备》
0135-《如何实现CDH元数据库MySQL的高可用》
0136-《如何修改CM及CDH元数据库配置》
《0618-6.1.1-如何在CDH6集群内节点安装MySQL5.7.22》
《0619-MySQL5.7.22主从配置》
《0694-5.10.2–如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》
《0695-5.10.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》
《0708-5.16.2-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》
《0709-5.16.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》
《0710-6.3.0-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》
《0711-6.3.0-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》
7.Hadoop组件
7.1.Hive
0004-《Hive表字段Comment中文乱码》
0010-《Hive多分隔符支持示例》
0011-《如何在Hive&Impala中使用UDF》
0014-《Hive中的Timestamp类型日期与Impala中显示不一致分析》
0026-《Hive使用十六进制分隔符异常分析》
0043-《如何在CDH中使用HPLSQL实现存储过程》
0083-《如何使用HAProxy实现HiveServer2负载均衡》
0084-《如何使用Zookeeper实现HiveServer2的HA》
0099-《如何使用java代码通过JDBC连接Hive(附github源码)》
0102-《Hive中的Timestamp类型日期与Impala中显示不一致分析(补充)》
0143- 《Hive事务管理避坑指南》
0144-《Hive Load本地数据文件异常分析》
0146-《如何向Hive表加载数据》
0149-《如何使用java代码通过JDBC访问Sentry环境下的Hive》
0180- 《Hive与Impala的关键字》
0181- 《如何在Kerberos环境下使用Haproxy实现HiveServer2负载均衡》
0190- 《如何获取Hive正在执行或者已结束的的MapReduce作业的SQL语句》
0204- 《如何编译及使用hive-testbench生成Hive基准测试数据》
0210- 《使用Hive SQL插入动态分区的Parquet表OOM异常分析》
0240- 《如何使用HAProxy实现HiveServer2服务的LDAP和Kerberos认证负载均衡》
0246- 《在同时使用Hive+Sentry,因HMS死锁导致的高并发写入工作负载时,查询速度缓慢或者停滞》
0247- 《Parquet格式表重命名列名后Hive查询列数据显示NULL异常分析》
0249- 《如何在CDH集群中安装Hive2.3.3》
0250- 《如何在Hive中生成Parquet表》
0261- 《如何强制Hive使用指定时区而非操作系统时区》
0263- 《Hive2.2.0如何与CDH集群中的Spark1.6集成》
0315- 《如何为Hive2启用Kerberos认证》
0343- 《HiveServer2服务异常日志分析》
0364- 《如何使用Nginx实现HiveServer2负载均衡》
0375- 《非Kerberos环境下Hive2.2.0 On Tez集成》
0381- 《如何编译适用于CDH的Tez版本并集成Kerberos环境的Hive2》
0401- 《Hive CLI禁用补充说明》
0407- 《如何在Beeline中使用自定义变量》
0428- 《如何为Hive CLI运行时指定日志目录》
0435- 《Hive创建外部表CSV数据中列含有逗号问题处理》
0436- 《如何在Hive中使用Map类型》
0437- 《如何在Hive中使用Struct类型》
0447- 《答应我,别在CDH5中使用ORC好吗》
0448- 《Hive作业产生的临时数据占用HDFS空间大问题处理》
0458- 《0458-Hive数据类型校验问题分析》
0472- 《0472-Hive中TimeStamp精度问题分析》
0496- 《0496-使用Parquet矢量化为Hive加速》
0505- 《0505-使用Apache Hive3实现跨数据库的联邦查询》
0507- 《0507-Hive查询json格式表执行MapReduce任务错误问题分析和解决》
0514- 《0514-Hive On Spark无法创建Spark Client问题分析》
0516- 《0516-如何查看Hive中某个角色所有已授权的组》
《0537-5.15.0-查询Parquet格式表异常问题》
《0556-6.1.0-Hive On Spark修改作业临时配置文件生成目录》
《0572-5.16.1-Hive中decimal类型字段.0结尾数据显示异常问题处理》
《0607-6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表》
《0608-6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表(续)》
《0631-6.2-如何确认一个Parquet文件是否被压缩》
《0632-6.2-通过Hive生成的Snappy表Impala无法访问异常分析》
《0650-6.2.0-通过UDF实现Hive&Impala的中文拼音排序》
《0653-5.16.1-Hive Staging目录占用大量HDFS空间问题分析》
《0656-6.2.0-如何配置Haproxy高可用》
《0659-6.2.0-Hive处理JSON格式数据》
《0665-6.2.0-如何在CDH中配置HMS高可用》
《0671-6.2.0-如何将CDH5.12的Hive元数据迁移到CDH6.2》
《0687-5.16.1-Hive分桶问题》
《0738-6.2.0-如何在Hive中使用多分隔符》
7.2.Impala
0039-《如何使用Python Impyla客户端连接Hive和Impala》
0070-《如何使用Beeline连接Impala》
0081-《如何使用Nginx实现Impala负载均衡》
0082-《如何使用HAProxy实现Impala的负载均衡》
0097-《如何使用java代码通过JDBC连接Impala(附Github源码)》
0113-《Impala升级为Apache顶级项目》
0124-《如何使用HAProxy实现Kerberos环境下的Impala负载均衡》
0131-《如何在Kerberos的Linux上安装及配置Impala的ODBC驱动》
0147-《如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive》
0154-《如何在Impala中实现拉链表》
0162-《使用Java代码通过JDBC连接只启用Sentry的Impala异常分析》
0206- 《Impala的Short-Circuit Reads》
0224- 《Hive与Impala对VARCHAR/CHAR存放中文字符解析不一致问题分析》
0242- 《Impala TPC-DS基准测试》
0248- 《如何在Impala中使用Parquet表》
0275- 《当Impala碰到由Hive生成的timestamp数据》
0276- 《由Impala-3316导致的并发查询缓慢问题》
0277- 《Impala并发查询缓慢问题解决方案》
0312- 《如何在Kerberos环境下使用Spark2通过JDBC访问Impala》
0326- 《如何为Impala Daemon服务配置Executor和Coordinator角色》
0337- 《Impala最佳实践》
0397- 《Python2使用Impyla访问集成OpenLDAP并启用Sentry的Impala服务》
0405- 《如何使用Impala合并小文件》
0433- 《Kerberos环境下Impala Daemon在CDH5.15版本中KRPC端口27000异常分析》
0440- 《如何启用Impala的动态资源池》
0441- 《Impala动态资源池及放置规则使用》
0518-《0518-如何在Impala中使用UDF获取SessionId》
《0680-5.16.1-impala-shell导出数据存在中文异常问题》
7.3.HBase
0045-《Cloudera Labs中的Phoenix》
0066-《如何使用Java连接Kerberos的HBase》
0071-《如何在CDH中使用HBase快照》
0046-《如何在CDH中使用Phoenix》
0254- 《如何使用HBase存储文本文件》
0258- 《如何使用HBase存储图片》
0266- 《如何使用Java调用HBase的 Endpoint Coprocessor》
0268- 《如何开发HBase Endpoint类型的Coprocessor以及部署使用》
0307- 《如何使用Phoenix在CDH的HBase中创建二级索引》
0308- 《如何在CDH5.14.2中安装Phoenix4.14.0》
0321- 《如何在CDH中使用HBase的ACLs进行授权》
0322- 《如何在CDH中使用HBase的Quotas设置资源请求限制》
0346- 《使用Spark通过BulkLoad快速导入数据到HBase》
0454- 《如何使用Java访问非Kerberos环境的HBase》
《0539-5.15.0-HBase-Spark无法在Spark2编译通过问题解决》
《0540-5.15.0-Spark2使用HBase-Spark访问HBase》
《0674-5.16.2-如何在CDH5中使用Phoenix4.14.1》
《0676-5.16.2-Apache Phoenix for CDH》
《0693-6.2.0-如何将Hive数据导入HBase》
《0712-6.2.0-HBase快照异常》
《0713-6.2.0-HBase的Thrift Server启动问题》
7.4.Hue
0056-《如何重置Hue用户密码》
0152-《如何在Hue中配置已启用SSL的HttpFS服务》
0153-《Hue禁止用户下载数据问题分析》
0164-《如何在Hue中配置HiveServer2的负载均衡》
0168-《如何在Hue中配置Impala的负载均衡》
0236- 《Hue中无法删除用户异常分析》
0241- 《如何开启Hue的Debug模式》
0251- 《如何在Hue中集成配置Hive2.3.3服务》
0328- 《如何在退出Hue后关闭Spark会话》
0395- 《在Kerberos环境下Hue与HBase集成》
0402- 《如何修改Hue的时区》
0408- 《如何在Hue中集成第三方Web应用》
0422- 《如何为Hue添加自定义Banner》
0431- 《如何在Hue中添加Spark Notebook》
0450- 《如何在Hue中调优Impala和Hive查询》
0475- 《0475-如何统一Hue和Oozie的时区》
0498- 《0498-Hue Sqoop1的编辑器中执行Sqoop作业失败问题分析》
0506- 《0506-如何将Hue4.0版本中默认执行引擎设置为Hive而非Impala》
《0536-5.15.0-如何使用Hue集成RDBMS数据库》
《0635-5.16.1-Hue集成HBase出现Api Error异常分析》
0636- 《6.1.1-Hue上SQL查询结果显示不全异常分析》
《0640-6.1.1-Hue上SQL查询结果显示不全异常分析-补充》
《0647-6.1.1-Hue集成HBase出现Api Error异常分析(续)》
《0681-6.2.0-如何在HDFS自动创建用户主目录》
7.5.Sqoop
0121-《Sqoop抽取Hive Parquet表数据到MySQL异常分析》
0193- 《如何使用Sqoop2》
0342- 《Sqoop抽数到Hive表异常分析》
0348- 《Sqoop抽数到Hive表异常分析(之二)》
0425- 《如何清理Sqoop脚本产生的临时编译目录》
《0657-6.2.0-Sqoop导入Parquet文件Hive查询为null问题》
7.6.Solr
0103-《如何使用Java代码访问CDH的Solr服务》
0114-《如何使用Hue通过数据文件创建Collections》
0252- 《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》
0253- 《如何使用Flume准实时建立Solr的全文索引》
0256- 《如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引》
0293- 《如何在Kerberos下使用Solr》
0301- 《使用命令行创建collection时Sentry给Solr赋权的问题》
0504- 《0504-使用Pulse为数据管道实现主动告警》
《0700-6.2.0-使用Solr7对多种格式文件建立全文索引》
《0701-6.2.0-使用Solr7对结构化csv文件建立全文索引》
《0703-6.2.0-使用Sentry为Solr进行赋权》
7.7.Oozie
0060-《如何使用Hue创建Spark1和Spark2的Oozie工作流》
0061-《如何使用Hue创建Spark2的Oozie工作流(补充)》
0075-《如何在Hue中创建Ssh的Oozie工作流》
0119-《如何使用Hue上创建一个完整Oozie工作流》
0120-《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》
0123-《Hue中使用Oozie创建Shell工作流在脚本中切换不同用户》
0132-《使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析》
0133-《在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析》
0184- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》
0185- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》
0186- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Shell工作流》
0188- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark作业》
0189- 《如何启用Oozie的HA》
0194- 《如何使用Oozie API接口向Kerberos集群提交Java程序》
0202- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业》
0207- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Shell作业》
0296- 《如何在Oozie中创建有依赖的WorkFlow》
0462- 《0462-如何在Hue中创建Shell Action工作流续》
《0535-5.15.0-Oozie中创建Ssh Action指定ssh端口号》
《0590-6.1.0-C6升级过程中Oozie共享库的问题分析》
7.8.HDFS
0068-《如何在CDH集群使用HDFS快照》
0105-《如何使用Java代码访问HDFS.docx》
0125-《如何在集群外节点跨网段向HDFS写数据》
0130-《如何将HDFS文件系统挂载到Linux本地文件系统》
0148-《如何为HttpFS服务配置SSL》
0209- 《JournalNode的edits目录没有格式化异常分析》
0243- 《Slow ReadProcessor&Error Slow BlockReceiver错误日志分析》
0262- 《HDFS部署最佳实践》
0264- 《如何修改启用了高可用HDFS的NameService ID》
0292- 《如何使用Java API访问HDFS为目录设置配额》
0341- 《集群JournalNode服务重启导致NameNode挂掉分析》
0360- 《NameNode Metadata备份和恢复最佳实践》
0403- 《如何在Hadoop中处理小文件》
0409- 《如何指定Hadoop命令行日志输出级别》
0432- 《什么是HDFS的纠删码》
0435- 《如何在CDH6.0中使用纠删码》
0443- 《CM上HDFS容量显示与实际命令不一致问题分析》
0451- 《如何使用Scala代码访问Kerberos环境的HDFS》
0455- 《如何在Hadoop中处理小文件-续》
0460- 《0460-HDFS纠删码的机架感知》
0464- 《0464-如何离线分析HDFS的FsImage查找集群小文件》
0482- 《0482-HDFS上一次检查点异常分析》
0494- 《0494-如何恢复HDFS中节点正常解除授权丢失的数据》
0508- 《0508-如何使用Hadoop的Archive处理小文件》
0512- 《0512-使用Python访问Kerberos环境下的HDFS》
0521- 《0521-Hadoop命令无法访问HDFS路径诡异问题解决》
《0524-6.1-如何使用Cloudera Manager启用HDFS的HA》
《0525-6.1-如何使用Cloudera Manager禁用HDFS的HA》
《0526-6.1-如果你不小心删了一个NameNode1》
《0527-6.1-如果你不小心删了一个NameNode2》
《0528-6.1-如何迁移NameNode相关角色》
《0530-6.1-如何只是迁移NameNode或JournalNode》
《0531-6.1-如何手动迁移JournalNode》
《0532-6.1-如果你的NameNode服务器坏了并且无法恢复》
《0550-6.1-如何将普通用户增加到HDFS的超级用户组supergroup》
《0564-6.1.0-HDFS超级用户(Superuser)和HDFS管理员(Administrator)的区别》
《0598-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统》
《0599-5.14.4-HDFS出现大量BrokenPipe异常处理》
《0616-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统(续)》
《0630-6.2-什么是HDFS ACL》
《0658-5.16.1-如何使用CM设置HDFS目录配额》
《0675-6.2.0-什么是HDFS分层存储》
《0678-6.2.0-如何在CDH中使用HDFS分层存储》
《0692-5.16.1-外部客户端跨网段访问Hadoop集群方式(续)》
《0704-5.16.2-如何使用Hive合并小文件》
《0731-6.3.0-关于HDFS ACL的32个条目限制说明》
7.9.Kudu
0020-《使用JDBC向Kudu表插入中文字符-双引号的秘密》
0021-《使用JDBC向Kudu表插入中文字符-cast的秘密》
0085-《如何在Kudu1.5中使用Sentry授权》
0128-《如何迁移Kudu1.2的WAL和Data目录》
0267- 《如何使用Java API访问CDH的Kudu》
0452- 《如何使用Java代码访问Kerberos环境下的Kudu》
《0538-5.15.0-Spark2 KuduContext访问Kudu》
《0611-5.16.1-Kudu表执行COMPUTE STATS 命令异常分析》
7.10.Kafka
0022-《如何永久删除Kafka的Topic》
0065-《如何通过Cloudera Manager为Kafka启用Kerberos及使用》
0069-《如何使用Java连接Kerberos的Kafka》
0324- 《如何在CDH中为Kafka设置流量配额》
0362- 《如何查看Kafka的Topic消费情况》
0363- 《如何在Spark Streaming应用中使用Kudu管理Kafka的Offset》
0370- 《如何实现Kafka的Partition重分配》
0374- 《如何在CDH集群中部署Kafka Manager》
0383- 《如何通过CM升级CDK至3.1.0(Kafka-1.0.1)》
0404- 《如何规划设置Kafka Broker的heap size》
0500- 《0500-使用Python2访问Kerberos环境下的Kafka》
0501- 《0501-使用Python访问Kerberos环境下的Kafka(二)》
《0542-6.1.0-非安全环境下Kafka管理工具Kafka Eagle安装使用》
《0543-5.15.0-Kerberos环境下Kafka管理工具Kafka Eagle安装使用》
《0726-6.3.0-如何在CDH6.3中安装Streams Messaging Manager(SMM)》
《如何在一个Kafka Broker的log.dir中移动partition数据》
7.11.YARN
0019-《Yarn的JobHistory目录权限问题导致MapReduce作业异常》
0107-《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》
0108-《如何使用hadoop命令向CDH集群提交MapReduce作业》
0109-《如何使用java命令从非集群节点向CDH集群提交MapReduce作业》
0129-《如何在HDFS上查看YARN历史作业运行日志》
0291- 《如何使用Cloudera Manager设置使用YARN队列的ACL》
0353- 《如何使用curl命令调用CM的API动态配置Yarn资源池》
0354- 《如何使用Java调用CM的API动态配置Yarn资源池》
0369- 《如何在CDH中配置YARN动态资源池的计划规则》
0421- 《如何在不重启Yarn服务的情况下启用DEBUG日志记录》
0426- 《如何在Cloudera Manager中配置Yarn放置规则》
《0529-5.15.0-这次玩儿大了,找不回了》
《0533-6.1-如何使用Cloudera Manager启用YARN的HA》
《0534-6.1-如何使用Cloudera Manager禁用YARN的HA》
《0588-6.1.0-命令行动态指定MapReduce运行参数无效问题分析》
《0606-6.1.0-NodeManager丢失文件启动失败异常分析》
《0620-5.16.1-如何设置MR作业的Map或Reduce日志级别》
《0652-5.16.1-目录挂载点nosuid参数导致NodeManage启动失败异常分析》
7.12.Spark
0016-《Avro序列化&反序列化和Spark读取Avro数据》
0017-《Spark的HistoryServer不能查看到所有历史作业分析》
0041-《如何使用Intellij搭建Spark开发环境》
0064-《如何通过Cloudera Manager配置Spark1和Spark2的运行环境》
0079-《如何在CDH中启用Spark Thrift》
0176- 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》
0177- 《如何编译Livy并在非Kerberos环境的CDH集群中安装》
0178- 《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》
0182- 《如何在Kerberos环境的CDH集群部署Livy》
0183- 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》
0278- 《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》
0280- 《如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端》
0281- 《如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端》
0285- 《如何使用java连接Kerberos和非kerberos和kerberos的Spark1.6 ThriftServer》
0373- 《如何指定Spark2作业中Driver和Executor使用指定范围内端口》
0438- 《如何指定Spark1作业中Driver和Executor使用指定范围内端口》
0445- 《如何为Spark应用启用Kerberos的Debug日志》
0483- 《0483-如何指定PySpark的Python运行环境》
0485- 《0485-如何在代码中指定PySpark的Python运行环境》
0510- 《0510-Spark应用访问Hive报错异常分析》
《0639-6.1.1-Spark读取由Impala创建的Parquet文件异常分析》
《0643-Spark SQL Thrift简介》
《0644-5.16.1-如何在CDH5中使用Spark2.4 Thrift》
《0645-6.2.0-为什么我在CDH6上使用Spark2.4 Thrift失败了》
7.13.Zookeeper
0006-《Zookeeper指标分析》
0101-《Kerberos环境下删除ZooKeeper服务注册信息问题分析》
0239- 《集群启用Kerberos后对Zookeeper的Znode操作异常分析》
0381- 《如何通过CM迁移Zookeeper服务》
7.14.NiFi
《0622-什么是Apache NiFi》
《0623-6.2.0-如何在CDH中安装CFM》
《0624-6.2.0-NiFi处理器介绍与实操》
《0625-6.2.0-Hello NiFi-第一个NiFi例子》
7.14.Flink
《0727-6.3.0-在CDH上运行你的第一个Flink例子》
《如何获得Cloudera的Flink Parcel包》
8.多租户
8.1.静态资源管理
计划中…
8.2.动态资源管理/YARN
计划中…
8.3.动态资源管理/Impala
计划中…
8.4.安全
8.4.1.认证
8.4.1.1.Kerberos
0005-《Windows Kerberos客户端配置并访问CDH》
0027-《如何在CDH集群启用Kerberos》
0087-《如何配置Kerberos服务的高可用》
0173- 《如何在Redhat7.3的CDH5.14中启用Kerberos》
0271- 《如何禁用CDH集群Kerberos》
0273- 《如何在CDH6.0.0-beta1中启用Kerberos》
0319- 《如何在Redhat7.4的CDH5.15中启用Kerberos》
0345- 《如何将CDH集群的KDC从RedHat7迁移到RedHat6》
0389- 《如何在CDH6.0中启用Kerberos》
0477- 《0477-如何在Redhat7.4的CDH5.16.1中启用Kerberos》
0495- 《0495-如何在CDH6.1中启用Kerberos》
《0552-5.15.0-同一OS用户下不同Kerberos用户执行脚本Principal串掉问题分析》
《0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群》
《0554-6.1.0-同一java进程中同时访问认证和非认证集群的问题(续)》
《0555-6.1.0-使用Python并发访问认证和非认证集群》
《0578-5.15.1-Kerberos环境下Java应用程序认证超时异常分析》
《0579-5.15.1-Java 应用程序中修改Kerberos ticket_lifetime参数无效异常分析》
《0592-5.16.1-如何配置Kerberos高可用》
《0596-6.2.0-如何在CDH6.2中禁用Kerberos》
《0614-5.16.1-同一OS用户并行Shell脚本中kinit不同的Principal串掉问题分析》
《0627-如何跳过HiveServer2 WebUI的Kerberos验证》
《0628-6.2-如何在CDH6.2中启用Kerberos》
《0641-5.16.1-如何禁用CDH5.16.1的Kerberos》
《0686-6.2.0-如何为CDH集群的JDK安装JCE策略文件》
《0706-6.2.0-Windows Kerberos客户端配置并访问CDH》
《0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业(续)》
8.4.1.2.OpenLDAP
0137-《1.如何在CentOS6.5安装OpenLDAP并配置客户端》
0138-《2.OpenLDAP集成SSH登录并使用SSSD同步用户》
0139-《3.如何实现OpenLDAP的主主同步》
0140-《4. 如何为Hive配置OpenLDAP认证》
0141-《5.如何为Impala配置OpenLDAP认证》
0142-《6.如何为Hue配置OpenLDAP认证》
0150-《7.如何在OpenLDAP中实现将一个用户添加到多个组》
0166-《如何集成OpenLDAP+Sentry.docx》
0226- 《1.如何在RedHat7上安装OpenLDA并配置客户端》
0227- 《2.如何在RedHat7中实现OpenLDAP集成SSH登录并使用sssd同步用户》
0229- 《3.如何RedHat7上实现OpenLDAP的主主同步》
0233- 《4.如何为Hive集成RedHat7的OpenLDAP认证》
0234- 《5.如何为Impala集成Redhat7的OpenLDAP认证》
0235- 《6.如何为Hue集成RedHat7的OpenLDAP认证》
0237- 《7.如何在RedHat7的OpenLDAP中实现将一个用户添加到多个组》
0238- 《8.如何使用RedHat7的OpenLDAP和Sentry权限集成》
0361- 《9.如何为Navigator集成RedHat7的OpenLDAP认证》
0367- 《10.如何在OpenLDAP启用MemberOf》
0368- 《11.如何为CDSW集成RedHat7的OpenLDAP认证》
0371- 《12.OpenLDAP管理工具Phpldapadmin的安装及使用》
0386- 《13.一键添加OpenLDAP用户及Kerberos账号》
0424- 《14.如何为Cloudera Manager集成OpenLDAP认证》
0492- 《OpenLDAP管理工具之LDAP Admin》
《0626-如何监控OpenLDAP主主同步状态》
《0688-6.2.0-特殊用户名在Hue和YARN中测试》
8.4.1.3.AD
0410- 《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》
0411- 《02-Active Directory安装证书服务并配置》
0412- 《03-Active Directory的使用与验证》
0413- 《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》
0414- 《05-如何为Hive集成AD认证》
0415- 《06-如何为Impala集成AD认证》
0416- 《07-如何为Hue集成AD认证》
0417- 《08-如何为Navigator集成Active Directory认证》
0418- 《09-如何为CDSW集成Active Directory认证》
0419- 《如何将CDH中集成的RedHat7版Kerberos切换至Active Directory的Kerberos认证》
0420- 《如何为CDH集成Active Directory的Kerberos认证》
0423- 《11-如何为Cloudera Manager集成Active Directory认证》
8.4.1.4.FreeIPA
《0558-01-如何在Redhat7上安装FreeIPA》
《0559-02-如何在Redhat7上安装FreeIPA的客户端》
《0560-03-如何使用root用户重置FreeIPA admin密码》
《0561-04-如何将CDH集成的KDC迁移至FreeIPA的Kerberos认证》
《0562-05-5.15.0-如何为Hive集成FreeIPA的用户认证》
《0563-06-如何在FreeIPA上管理域名解析》
《0566-07-5.15.0-如何为Impala集成FreeIPA的用户认证》
8.4.1.5.SAML
0191- 《如何使用Shibboleth搭建IDP服务并集成OpenLDAP》
0192- 《如何使用SAML配置Cloudera Manager的身份验证》
0199- 《如何使用SAML配置CDSW的身份验证》
8.4.2.授权
0015-《如何使用Sentry管理Hive外部表权限》
0028-《如何在CDH未启用认证的情况下安装及使用Sentry》
0031-《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》
0032-《如何在CDH启用Kerberos的情况下安装及使用Sentry(二)》
0033-《如何在Hue中使用Sentry》
0035-《如何使用Sentry管理Hive外部表(补充)》
0067-《Sentry赋予server1权限给hive以外用户时ACL不同步问题分析》
0074-《如何在启用Sentry的CDH集群中使用UDF》
0155-《如何查看集成Sentry后Hive作业的真实用户》
0208- 《如何使用Sentry实现Hive/Impala的数据脱敏》
0225- 《如何使用Sentry通过视图实现Impala的行级授权》
0279- 《如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制》
0294- 《如何使用Sentry为Solr赋权》
0298- 《如何使用Sentry为Kafka赋权》
0304- 《如何在Hue中使用Sentry为Solr赋权》
0406- 《如何使用Sentry管理Hive仓库目录外的其他目录的acl同步》
0439- 《Hive启用Sentry后如何限制用户提交Yarn资源池》
0493- 《0493-如何在Sentry中使用WITH GRANT OPTION命令》
《0568-普通用户在Sentry中使用show roles 命令查看失败异常分析》
《0569-5.15.1-开启Sentry后LOAD DATA异常分析》
《0575-5.16.1-Hive中只有create权限却能查看到非自己创建表的异常》
《0576-6.1.0-Hive Comment中文乱码补充》
《0617-6.1.0-使用Sentry给Solr的collection赋予Query权限后查询异常分析》
《0633-6.2.0-什么是Apache Sentry》
《0634-6.2.0-如何在CDH中安装Sentry服务》
《0648-6.2.0-配置Senty服务》
《0651-6.2.0-启用Sentry后Impala执行SQL失败问题分析》
《660-6.2.0-无法在启用Sentry的集群中使用TRANSFORM问题分析》
《0664-6.2.0-用户有CREATE权限建表后但无HDFS文件的ACL访问权限异常分析》
《0715-6.2.0-用户有CREATE权限建表后无HDFS文件的ACL访问权限异常分析》
8.4.3.加密
0092-《什么是HDFS透明加密》
0111-《如何在CDH实现HDFS透明加密》
8.4.4.审计
计划中…
8.5.集群资源使用报告
0157-《如何在CM中启用YARN的使用率报告》
9.灾备
9.1.介绍
0244- 《如何部署active-active的Hadoop集群》
9.2.HDFS
0013-《如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据》
《0661-6.2.0-Hadoop数据备份与恢复》
9.2.HBase
0076-《如何使用HBase快照实现跨集群全量与增量数据迁移》
10.运维
10.1.监控
0211- 《Cloudera Manager监控介绍》
0212- 《Cloudera Manager的时间轴》
0213- 《Cloudera Manager的运行状况测试》
0218- 《使用Cloudera Manager查看集群,服务,角色和主机的图表》
0289- 《如何使用Cloudera Manager监控服务》
10.2.告警
0259- 《如何通过Cloudera Manager配置使用SNMP方式转发告警》
0372- 《CM告警SNMP对接补充》
0394- 《如何为CDH集群配置警报邮箱》
《0523-5.15-为Cloudera Manager配置自定义告警脚本》
11.外部工具集成
11.1.Tableau
0093-《如何安装Tableau并连接CDH的Hive/Impala》
0094-《如何通过Tableau连接Kerberos的Hive/Impala》
11.2.SAS
0198- 《如何安装SAS并配置连接Hive/Impala》
《0696-5.16.1-如何使用SAS连接CDH5.16.1集群的Hive和Impala》
《0697-6.2.0-如何使用SAS连接CDH6.2.0集群的Hive和Impala》
11.3.Azkaban
0214- 《如何编译安装Azkaban服务》
0215- 《如何编译Azkaban插件》
0219- 《如何在Azkaban中安装HDFS插件以及与CDH集成》
0222- 《如何在Azkaban安装插件(二)》
0223- 《Azkaban的使用及Command作业创建》
11.4.SmartBI
0257- 《如何安装SmartBI并连接到Impala》
11.4.StreamSets
0220- 《如何在CDH中安装和使用StreamSets》
0231- 《如何使用StreamSets从MySQL增量更新数据到Hive》
0232- 《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》
0255- 《如何使用StreamSets实时采集Kafka并入库Kudu》
0282- 《如何使用StreamSets实现MySQL中变化数据实时写入HBase》
0299- 《如何使用StreamSets实时采集Kafka数据并写入Hive表》
0302 -《如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表》
0320- 《如何使用StreamSets实现Oracle中变化数据实时写入Kudu》
《0604-6.1.0-如何使用StreamSets实时采集指定数据目录文件并写入库Kudu》
11.5.Kylin
0260- 《如何在CDH中部署及使用Kylin》
0295- 《如何在启用Kerberos的CDH中部署及使用Kylin》
11.6.Presto
0316- 《如何在CDH集群中部署Presto》
0318- 《如何为Presto集成Kerberos环境下的Hive》
11.7.Juypter
0382- 《如何在非安全的CDH集群中部署Jupyter并集成Spark2》
0384- 《如何在非安全的CDH集群中部署多用户JupyterHub服务并集成Spark2》
0385- 《JupyterHub与OpenLDAP集成》
0391- 《Jupyter Notebook与Livy集成》
0398- 《JupyterLab的安装及使用》
11.8.Livy+Zeppelin
0387- 《如何打包Livy和Zeppelin的Parcel包》
0389- 《如何在CM中使用Parcel包部署Livy及验证》
0393- 《如何在CM中使用Parcel包部署Zeppelin及使用》
11.9.SQL开发工具
0459- 《0459-如何使用SQuirreL通过JDBC连接CDH的Hive(方式一)》
0463- 《0463-如何使用SQuirreL通过JDBC连接CDH的Hive(方式二)》
0465- 《0465-如何使用SQuirreL访问Kerberos环境下的Hive》
0467- 《Hadoop SQL客户端工具之Dbeaver安装及使用》
0468- 《0468-如何使用DBeaver访问Kerberos环境下的Hive》
0469- 《0469-如何使用DBeaver访问Kerberos环境下的Impala》
《0557-6.1.0-Kerberos环境下SQL客户端DBeaver配置异常分析》
0474- 《0474-如何使用SQL Developer访问Hive》
11.10.Airflow
《0612-如何在RedHat7.4上安装airflow》
《0613-Airflow集成自动生成DAG插件》
11.11.Nginx
《0684-如何配置Nginx高可用》
12.应用场景
12.1.实时
0116-《如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS》
0122-《非Kerberos环境下Kafka数据到Flume进Hive表》
0145-《如何使用Spark Streaming读取HBase的数据并写入到HDFS》
0283- 《SparkStreaming读Kafka数据写HBase》
0286- 《SparkStreaming读Kafka数据写Kudu》
0287- 《如何使用Flume采集Kafka数据写入Kudu》
0288- 《如何使用Flume采集Kafka数据写入HBase》
0290- 《如何在Kerberos环境下使用Flume采集Kafka数据写入HBase》
0309- 《Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu》
0310- 《Spark2Streaming读Kerberos环境的Kafka并写数据到HBase》
0330- 《Spark2Streaming读Kerberos环境的Kafka并写数据到Hive》
0335- 《Spark2Streaming读Kerberos环境的Kafka并写数据到HDFS》
0338-《Spark2Streaming读Kafka并写入到HBase》
0352- 《Spark2Streaming读非Kerberos环境的Kafka并写数据到Kudu》
13.基准测试
0245- 《如何使用HiBench进行基准测试》
0201- 《如何编译及使用TPC-DS生成测试数据》
13.HDP
0048- 《Hortonworks联合Jethro扩充其数据仓库解决方案》
0222- 《如何在Centos7.2安装HDP2.6》
0230- 《Hortonworks去年第四季度以及全年财报》
0329- 《Hortonworks正式发布HDP3.0》
0429- 《如何在Redhat7.4安装HDP3.0.1》
0479- 《0479-如何禁用HDP2.6.5的HDFS HA》
0480- 《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》
0481- 《0481-如何从HDP2.6.5原地升级到CDH6.0.1》
14.转载
《刘汨春:AI大数据在企业全链业务中的应用和价值(上)》
《HDFS添加 NFS Gateway 角色实例启动失败问题及解决办法》
《近期文章内容预告》
《安装CDSW数据磁盘初始化异常问题分析》
《安装CDSW数据磁盘初始化异常问题分析》
《重庆某项目生产集群扩容问题总结及复盘》
《如何为CDH集群配置机架感知》
《HDFS运行Balancer失败及问题解决办法》
《如何为服务器硬盘配置RAID或JBOD模式》
《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》
《如何使用Sentry为包含特殊字符的用户组授权》
《如何为Hadoop集群服务器绑定双万兆网卡》
《如何使用Shell脚本判断HDFS文件/目录是否存在》
《由MasterProcWals状态日志过多导致的HBase Master重启失败问题》
《聊聊个人对安装部署CDH集群前置准备的理解》
《CDH集群安装YARN无法正常启动及解决办法》
《LDAP用户组信息异常导致Sentry授权失效问题分析》
《HDFS Federation(联邦)简介》
《如何禁止Namenode格式化》
《如何通过CM为HDFS启用Federation》
《如何通过CM禁用Federation》
《回顾·基于Impala平台打造交互查询系统》
《Spark Streaming VS Flink》
《30PB数据1年内迁移到Spark,eBay的经验有何可借鉴之处?》
《潘国庆:如何实现端对端的 exactly once?》
《Spark2.4的新功能》
《杭州造云记》
《首发 | OceanBase 2.0 重磅发布,全面降低金融业务向分布式架构转型的技术风险》
《Cloudera与Hortonworks合并》
《两大数据平台Cloudera和Hortonworks宣布合并,计划创建首个企业数据云》
《重磅!Cloudera、Hortonworks 合并 !免费的好日子不多了》
《大新闻!Elasticsearch上市!》
《大数据凉了?No,流式计算浪潮才刚刚开始!》
《YARN 资源调度那些事儿》
《SparkSQL 在有赞的实践》
《Flink 在有赞实时计算的实践》
《有赞大数据平台安全建设实践》
《人工智障 2 : 你看到的AI与智能无关》
《Spark Streaming 在数据平台日志解析功能的应用》
《HBase 写吞吐场景资源消耗量化分析及优化》
《Druid 在有赞的实践》
《HBase 读流程解析与优化的最佳实践》
《Flume 在有赞大数据的实践》
《Druid Segment Balance 及其代价计算函数分析》
《浅析 Spark Shuffle 内存使用》
《重磅 | Apache Spark 社区期待的 Delta Lake 开源了》
《解读2018:13家开源框架谁能统一流计算?》
《从Storm到Flink,有赞五年实时计算效率提升实践》
《0643-转载-余利华:网易大数据平台架构实践分享》
《【生活现场】从洗袜子到hbase存储原理解析》
《OLAP 分析已死?真的真的么?!》
《DataX在有赞大数据平台的实践》
《我是如何成为Apache Kudu committer & PMC的?》
《Zeppelin: 让大数据插上机器学习的翅膀》
《你为什么还在用存储过程?》
《你是一直认为 count(1) 比 count(*) 效率高么?》
《从这个角度,我终于理解为什么需要Kafka这样的东西了!》
《干货 | 每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用》
《Apache Druid 0.15.0版本发布》
《Cloudera对开源的承诺》
《Cloudera独家回应:Hadoop到底怎么了?》
《微博基于ClickHouse灵活监控百亿流量下的业务指标》
《史上最全-mysql迁移到clickhouse的5种办法》
《SQL on Hadoop在快手大数据平台的实践与优化》
《YuniKorn:一个通用的资源调度程序》
《HDFS Router-based Federation》
《Hive在DB-Engine的排名已经超过Teradata》
《独家|手把手教你赋能Jupyter Notebooks!(附代码)》
《快手 HBase 在千亿级用户特征数据分析中的应用与实践》
《Hadoop 对象存储 Ozone》
《Kafka异地双活深度讲解 - Mirrormaker V2》
《Apache Submarine》
《Impala查询卡顿分析案例》
《如何对CDH集群中的Impala打印线程堆栈》
《Delta Lake - 数据湖的数据可靠性》
《Impala元数据简介》
《一步一步理解Impala query profile(一)》
《一步一步理解Impala query profile(二)》
《一步一步理解 Impala query profile(三)》
《HBase Bulkload 实践探讨》
15.其他
0018- 《大数据售前的中年危机》
0059- 《工程师的一天》
0106- 《总用户数破1000,后台数据公布》
0179- 《Fayson给大家拜年》
0221- 《冲上云霄》
0228- 《Cloudera去年第四季度以及全年财报》
0259- 《如何在DELL R730服务器上使用U盘安装linux操作系统》
0366- 《周年庆》
《简单说一下ClickHouse》
0453- 《Java收费,Hadoop怎么办?》
0462- 《【简报】CDH和HDP的合并提前终止反垄断法的等待期》
0484- 《0484-Cloudera和Hortonworks合并后面临的选择》
0503- 《Cloudera与Hortonworks合并完成》
0511- 《0511-正式合并完成后Cloudera推出新的大数据平台CDP》
0513- 《0513-开源软件如何统治世界》
0516- 《融资数千万的小象科技了解一下》
《0522-Confluent获D轮融资1.25亿,估值25亿》
《Fayson给大家拜年》
《新年》
《Hadoop已死,Hadoop万岁》
《Cloudera PS招贤纳士:4名 Solutions Consultant/ Architect》