参照尚硅谷课程kafaka相关文档写出,做增强记忆之用。
概述
Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue) , 主要应用于
大数据实时处理领域。
基础架构
1)Producer: 消息生产者,就是向 kafka broker 发消息的客户端;
2)Consumer: 消息消费者,向 kafka broker 取消息的客户端;
3)Consumer Group(CG): 消费者组,由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。
4)Broker:一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker可以容纳多个topic。
5)Topic:可以理解为一个队列,生产者和消费者面向的都是一个 topic;
6)Partition:为了实现扩展性,一个非常大的 topic 可以分布到多个 broker(即服务器)上,一个 topic 可以分为多个 partition,每个 partition 是一个有序的队列;
7)Replication:副本,为保证集群中的某个节点发生故障时,该节点上的 partition 数据不丢失,且 kafka 仍然能够继续工作,kafka 提供了副本机制,一个 topic 的每个分区都有若干个副本,一个 leader 和若干个 follower。
8)leader:每个分区多个副本的“主”,生产者发送数据的对象,以及消费者消费数据的对象都是 leader。
9)follower:每个分区多个副本中的“从”,实时从 leader 中同步数据,保持和 leader 数据的同步。leader 发生故障时,某个 follower 会成为新的 follower。
安装部署
- 准备三台安装有zookeeper的服务器
- 解压安装kafka安装包
- 在kafka目录下新建data文件夹
#存放kafka运行时产生的文件 mkdir data
- 修改配置文件
输入以下内容vi server.properties
#broker 的全局唯一编号,不能重复 broker.id=0 #删除 topic 功能打开 delete.topic.enable=true #处理网络请求的线程数量 num.network.threads=3 #用来处理磁盘 IO 的现成数量 num.io.threads=8 #发送套接字的缓冲区大小 socket.send.buffer.bytes=102400 #接收套接字的缓冲区大小 socket.receive.buffer.bytes=102400 #请求套接字的缓冲区大小 socket.request.max.bytes=104857600 #kafka 运行日志存放的路径 log.dirs=/opt/module/kafka/data #topic 在当前 broker 上的分区个数 num.partitions=1 #用来恢复和清理 data 下数据的线程数量 num.recovery.threads.per.data.dir=1 #segment 文件保留的最长时间,超时将被删除 log.retention.hours=168 #配置连接 Zookeeper 集群地址 zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181
- 配置环境变量
sudo vi /etc/profile
#KAFKA_HOME export KAFKA_HOME=/opt/module/kafka export PATH=$PATH:$KAFKA_HOME/bin
source /etc/profile
- 分发安装包
- 在其他服务器上修改配置文件server.properties中的 broker.id=1、broker.id=2(注:broker.id 不得重复)
- 启动集群
# -daemon 后台启动 # 指定配置文件 bin/kafka-server-start.sh -daemon config/server.properties
- 关闭集群
bin/kafka-server-stop.sh stop
命令行操作
- 查看当前服务器中的所有 topic
bin/kafka-topics.sh --zookeeper hadoop102:2181 --list ``
- 创建 topic
# --topic 定义 topic 名 --replication-factor 定义副本数 --partitions 定义分区数 bin/kafka-topics.sh --zookeeper hadoop102:2181 --create --replication-factor 3 --partitions 1 --topic first
- 查看某个topic的详情
bin/kafka-topics.sh --zookeeper hadoop102:2181 --describe --topic first
- 删除topic
# 需要 server.properties 中设置 delete.topic.enable=true 否则只是标记删除。 bin/kafka-topics.sh --zookeeper hadoop102:2181 --delete --topic first
- 修改分区数
bin/kafka-topics.sh --zookeeper hadoop102:2181 --alter --topic first --partitions 6
- 发送消息
bin/kafka-console-producer.sh --broker-list hadoop102:9092 --topic first
- 消费消息
#旧的方式 bin/kafka-console-consumer.sh --zookeeper hadoop102:2181 --topic first #新的方式 bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first # --from-beginning:会把主题中以往所有的数据都读取出来 bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first --from-beginning