Flink 应用 - 悦读

《Big Data 流处理框架 Flink》有介绍开源的分布式流处理框架 Apache Flink 基本特点。Flink 应用是指使用 Apache Flink 编写并运行的数据处理程序，Flink 应用主要用于处理大规模的数据流，执行复杂的数据转换、聚合和分析任务。

Flink 应用的特点

实时流处理 (Stream Processing)：
Flink 以事件驱动的方式处理数据流，支持毫秒级延迟。
可处理无界数据流（持续不断到达的实时数据）。
批量处理 (Batch Processing)：
Flink 也可以处理有限的数据集，将其视为特殊的流。
分布式和高吞吐：
Flink 应用以分布式方式运行，能处理 PB 级别的数据。
支持高并发和低延迟。
状态管理：
Flink 提供强大的状态管理功能，支持有状态流计算。
支持精确一次（exactly-once）的处理语义。
容错机制：
通过检查点（Checkpoint）和保存点（Savepoint）实现应用的容错和恢复。
多种数据源与接收器支持：
支持 Kafka、HDFS、Elasticsearch、JDBC、S3 等多种数据源和目标。

Flink 应用的组成

Flink 应用通常由以下几个关键部分组成，构建和运行一个 Flink 应用时，这些组件共同协作：

数据源（Source）

数据源是 Flink 应用的起点，用于从外部系统中读取数据，例如：
消息队列：Amazon SQS、Kafka、RabbitMQ 等
数据库：MySQL、PostgreSQL 等
文件系统：HDFS、S3、本地文件系统
实时数据流：Socket、API 等
Flink 提供了多种内置的连接器和自定义数据源接口，可以扩展支持其他数据源。

数据流处理逻辑（Processing Logic）

核心处理逻辑决定了如何对数据进行变换和计算，常见的操作包括：

转换（Transformation）：
map：一对一的映射操作。
flatMap：一对多的映射操作。
filter：筛选符合条件的数据。
keyBy：对流进行分区（按键分组）。
窗口（Windowing）：
定义基于时间或事件的窗口（滚动窗口、滑动窗口、会话窗口）。
聚合（Aggregation）：
对数据进行统计计算，例如计数、求和、平均等。
状态管理（State Management）：
维护有状态的计算，用于跟踪中间结果或上下文。

数据目的地（Sink）

数据目的地是 Flink 应用的终点，用于将处理结果输出到目标系统，例如：
消息队列：Kafka、RabbitMQ
数据库：MySQL、Elasticsearch、Amazon DynamoDB
存储系统：HDFS、S3、本地文件
实时分析系统：Redis、Cassandra
类似于数据源，Flink 提供了许多内置的 Sink 连接器。

运行时配置（Runtime Configuration）

Flink 应用需要通过配置来控制运行时的行为：
并行度（Parallelism）：控制任务在集群中的并发执行程度。
检查点（Checkpointing）：开启容错功能，定期保存状态。
重启策略（Restart Strategy）：定义失败后应用的重启逻辑。
资源管理：控制内存、CPU 的使用。
任务分布：配置任务的 Slot 和 Operator Chain。

状态（State）

Flink 提供强大的状态管理，支持两种类型：
键控状态（Keyed State）：与分区数据相关联，常用于有状态计算。
算子状态（Operator State）：与任务实例相关联，常用于处理非分区数据的场景。
状态支持持久化存储（如 RocksDB），并与检查点机制配合实现容错。

连接器（Connectors）

用于与外部系统交互的模块，负责数据的输入和输出，常见的连接器包括：
Kafka、ElasticSearch、HDFS、Cassandra、JDBC 等。

部署模式（Deployment Mode）

Flink 应用可以部署在不同的环境中：
Standalone 模式：Flink 集群独立运行。
YARN 模式：与 Hadoop 集成。
Kubernetes 模式：容器化部署，适合云原生场景。
Local 模式：单机运行，适合开发和调试。

监控与调试（Monitoring & Debugging）

Flink 提供了 Web UI 和 REST API，用于监控任务运行状态。
可以查看任务拓扑、指标、延迟、吞吐量等信息，支持日志追踪和故障分析。

检查点与快照（Checkpoint & Savepoint）

Checkpoint：定期保存应用的状态，用于容错。
Savepoint：手动触发的状态快照，用于升级或迁移任务。

这些部分构成了 Flink 应用的完整生态，从数据输入到数据输出、从开发到部署和运行。

Flink 应用示例

以下是一个完整的 Flink 应用示例，从 Amazon SQS 读取数据，执行 ETL（数据清洗、转换等操作），并将结果写入 Amazon DynamoDB：

前置条件

安装 Flink 集群或本地开发环境。
配置 AWS 凭证，确保对 SQS 和 DynamoDB 的访问权限。
确保 SQS 队列和 DynamoDB 表已创建。

依赖库

确保在项目中引入以下依赖（以 Maven 为例）：

<dependencies>
    <!-- Flink Core -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-streaming-java_2.12</artifactId>
        <version>1.17.0</version>
    </dependency>

    <!-- AWS SDK -->
    <dependency>
        <groupId>software.amazon.awssdk</groupId>
        <artifactId>sqs</artifactId>
        <version>2.20.16</version>
    </dependency>
    <dependency>
        <groupId>software.amazon.awssdk</groupId>
        <artifactId>dynamodb</artifactId>
        <version>2.20.16</version>
    </dependency>
</dependencies>

代码实现

代码主流程

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kinesis.FlinkKinesisConsumer;
import software.amazon.awssdk.services.dynamodb.DynamoDbClient;
import software.amazon.awssdk.services.dynamodb.model.PutItemRequest;
import software.amazon.awssdk.services.dynamodb.model.PutItemResponse;
import software.amazon.awssdk.services.sqs.SqsClient;
import software.amazon.awssdk.services.sqs.model.ReceiveMessageRequest;

import java.util.HashMap;
import java.util.Map;

public class FlinkSQSToDynamoDB {
    public static void main(String[] args) throws Exception {
        // 1. 创建 Flink 执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 2. 定义 SQS 队列 URL 和配置
        String sqsQueueUrl = "https://sqs.<region>.amazonaws.com/<account-id>/<queue-name>";
        SqsClient sqsClient = SqsClient.builder().build();

        // 3. 从 SQS 队列读取数据
        DataStream<String> rawStream = env.addSource(new SQSSourceFunction(sqsClient, sqsQueueUrl));

        // 4. 数据转换逻辑（ETL）
        DataStream<Map<String, String>> transformedStream = rawStream
                .map((MapFunction<String, Map<String, String>>) message -> {
                    // 假设消息是 JSON 格式，解析并转换为键值对
                    Map<String, String> transformed = new HashMap<>();
                    transformed.put("id", extractField(message, "id"));
                    transformed.put("name", extractField(message, "name").toUpperCase());
                    transformed.put("timestamp", String.valueOf(System.currentTimeMillis()));
                    return transformed;
                });

        // 5. 将转换后的数据写入 DynamoDB
        transformedStream.addSink(new DynamoDBSink());

        // 6. 启动任务
        env.execute("Flink SQS to DynamoDB ETL");
    }

    // 提取字段（简单 JSON 解析示例）
    private static String extractField(String json, String field) {
        // 简单的 JSON 解析，可以使用库如 Jackson 或 Gson
        int start = json.indexOf("\"" + field + "\":\"") + field.length() + 3;
        int end = json.indexOf("\"", start);
        return json.substring(start, end);
    }
}

自定义 SQS Source

import org.apache.flink.streaming.api.functions.source.SourceFunction;
import software.amazon.awssdk.services.sqs.SqsClient;
import software.amazon.awssdk.services.sqs.model.ReceiveMessageRequest;
import software.amazon.awssdk.services.sqs.model.Message;

import java.util.List;

public class SQSSourceFunction implements SourceFunction<String> {
    private final SqsClient sqsClient;
    private final String sqsQueueUrl;
    private volatile boolean isRunning = true;

    public SQSSourceFunction(SqsClient sqsClient, String sqsQueueUrl) {
        this.sqsClient = sqsClient;
        this.sqsQueueUrl = sqsQueueUrl;
    }

    @Override
    public void run(SourceContext<String> ctx) throws Exception {
        while (isRunning) {
            ReceiveMessageRequest request = ReceiveMessageRequest.builder()
                    .queueUrl(sqsQueueUrl)
                    .maxNumberOfMessages(10)
                    .build();
            List<Message> messages = sqsClient.receiveMessage(request).messages();
            for (Message message : messages) {
                ctx.collect(message.body());
            }
            Thread.sleep(1000); // 控制读取频率
        }
    }

    @Override
    public void cancel() {
        isRunning = false;
    }
}

自定义 DynamoDB Sink

import org.apache.flink.streaming.api.functions.sink.SinkFunction;
import software.amazon.awssdk.services.dynamodb.DynamoDbClient;
import software.amazon.awssdk.services.dynamodb.model.PutItemRequest;
import software.amazon.awssdk.services.dynamodb.model.AttributeValue;

import java.util.Map;

public class DynamoDBSink implements SinkFunction<Map<String, String>> {
    private final DynamoDbClient dynamoDbClient;
    private final String tableName;

    public DynamoDBSink() {
        this.dynamoDbClient = DynamoDbClient.builder().build();
        this.tableName = "YourDynamoDBTable";
    }

    @Override
    public void invoke(Map<String, String> value, Context context) {
        PutItemRequest request = PutItemRequest.builder()
                .tableName(tableName)
                .item(convertToDynamoDBItem(value))
                .build();
        dynamoDbClient.putItem(request);
    }

    private Map<String, AttributeValue> convertToDynamoDBItem(Map<String, String> data) {
        Map<String, AttributeValue> item = new HashMap<>();
        data.forEach((key, value) -> item.put(key, AttributeValue.builder().s(value).build()));
        return item;
    }
}

运行与调试

编译与打包：将项目打包为 JAR 文件。
提交任务：将 JAR 文件提交到 Flink 集群运行。
监控任务：通过 Flink 的 Web UI 查看任务运行状态。

扩展

错误处理：为 SQS Source 和 DynamoDB Sink 增加异常处理和重试机制。
性能优化：使用批量写入 DynamoDB（batchWriteItem）。
状态管理：添加状态用于去重或处理幂等性问题。