- 实验目的
- 了解Flume的基本功能
- 掌握Flume的使用方法,学会按要求编写相关配置文件
- 实验平台
- 操作系统:windows 10
- Flume版本:1.11.0
- Kafka版本:2.4.0
- MySQL版本:8.0
- Hadoop版本:3.1.3
- JDK版本:17.0.2→1.8.0
- 实验步骤
- Kafka生产者生产消息
- 启动zookeeper和kafka服务
.\bin\windows\zookeeper-server-start.bat .\config\zookeeper.properties
.\bin\windows\kafka-server-start.bat .\config\server1.properties
- 创建一个新主题flumetopic
.\bin\windows\kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic flumetopic
- flume采集信息并将信息发送到HDFS
- 创建flume的配置文件k2h.conf
写入内容如下:
agent.sources = kafka-source #指定数据源类型为Kafka agent.channels = memory-channel #指定通道类型为内存通道 agent.sinks = hdfs-sink #指定输出插件类型为HDFS # Kafka input configuration #指定数据源类型为Kafka,使用Flume自带的KafkaSource插件 agent.sources.kafka-source.type = org.apache.flume.source.kafka.KafkaSource agent.sources.kafka-source.kafka.bootstrap.servers = localhost:9092 #指定Kafka集群的地址和端口号 agent.sources.kafka-source.kafka.topics = flumetopic #指定从哪个Kafka主题中读取数据 agent.sources.kafka-source.batchSize = 1000 agent.sources.kafka-source.batchDurationMillis = 2000 |