1.如果遇到ZK宕机,通过HTable和Connection两种连接方式获取数据,在实现原理和故障恢复上有何异同?
通过new HTable方式,则每次方法调用都会建立新的连接,而且会从zk获取表的元数据,会导致将业务的并发传导到zookeeper服务,会对全局所有依赖zookeeper服务的节点存在一定的影响。可通过HTablePool等方式进行处理。对于Connection,一般就是初始化一次,就可在每个线程中调用conn.getTable方式获取表对象。即使连接的zookeeper节点异常,也会自动进行切换。但在大规模的请求处理下,建议以数组的方式初始化多个Connection对象,然后随机选择Connection进行通信。
2 在查询HBase时,如何配置hbase-site.xml可保证单次查询在5000内返回结果或异常信息?
对于scan操作,操作超时、rpc超时都是从一个scan具体的rpc调用开始,持续配置时间后没有获取到数据被认定为超时。超时时间取决于hbase.client.scanner.timeout.period
相关的配置值一般要遵循:
hbase.client.pause<hbase.rpc.timeout<hbase.client.scanner.timeout.period
配置hbase.client.retries.number
多次会增加正确获取数据的概率,只要一次rpc调用正确,所有累计超时会重置为0
若scan操作时间不超过5000ms,则也不可低于3000ms
实际客户端配置:
hbase.client.retries.n