在Flink流式程序设计中,经常需要与外部系统进行交互,很多时候外部系统的性能会成为任务整体吞吐的瓶颈,通常的解决方案会通过提高任务并发度增加对外部系统并发访问,如此会带来Flink额外的资源管理负载以及整体cpu利用率不高的问题。
对于Flink与外部存储交互的场景,可以通过Flink 异步IO和单并发度多线程的机制提高任务吞吐能力,而不需要提高任务并发度从而提升整体资源利用率。
一 Flink异步IO
对于Flink程序,通常的交互实现为同步请求,即发送一个请求,直到收到响应,继续处理,很多情况下这种等待占据了函数的绝大多数时间,当外部系统出现性能瓶颈会大幅降低任务的吞吐能力。Flink提供了异步IO机制,可以实现发送请求以后,不用等待结果返回继续发送下一个请求,对于查询结果是异步返回的,返回结果之后会自动进入下一个算子的计算,从而避免外部系统性能对整个计算任务的影响,可以提高整体吞吐和资源利用率。
示例代码:
public class AsyncHbase extends RichAsyncFunction<String, String> {
private transient HbaseClient client;
private transient ExecutorService executorService;
@Override
public void asyncInvoke(String input, ResultFuture<String> resultFuture) throws Exception {
try {
executorService.submit(() -> {
// submit query
ObjectMapper mapper=new ObjectMapper();
String imei = null;
try {
imei = (String)mapper.readValue(input, HashMap.class).get("user_id");
} catch (IOException e) {
e.printStackTrace();
}
String user = client.query(imei);
//System.out.println("----------"+user);
resultFuture.complete(Collections.singletonList(user));
});
} catch (Exception e) {
//log.error("get from redis fail", e);
throw new RuntimeException("get from mysql fail", e);
}
}
@Override
public void open(Configuration parameters) throws Exception {
super.open(parameters);
client = new HbaseClient();
client.init("hdp_teu_dpd:hdp_teu_dpd_flink_iotest");
//线程池大小
executorService = Executors.newFixedThreadPool(30);
}
//异步客户端
@Override
public void close() throws Exception {
super.close();
executorService.shutdown();
}
}
public class HbaseClient {
private static Configuration conf =null;
private static final String ZKconnect="10.162