Bootstrap

HIVE中连接条件不能使用LIKE模糊匹配的解决办法

在使用hive的中需要多表关联的时候,想使用模糊匹配的like进行模糊匹配的时候,执行代码如下所示:

SELECT * FROM TABLE1 A

LEFT JOIN

TABLE2 B

ON A.XX LIKE CONCAT('%' , B.YY , '%')

这段代码在DB2 中是可以顺利执行的,但是在hive就是会报错,原因就是hive中不能很好的处理非等值连接,但是hive中也提供了别的处理方式,来达到在连接时使用模糊匹配的效果。

hive中提供了一个locate()的函数;

locate函数的用法如下:

locate(string substr, string str[, int pos])

函数内第一个参数是子串,第二个是我们的整个字符串,具体的解释如下:

查找字符串str中的pos位置后字符串substr第一次出现的位置,若为找到,则返回0。

hive> select locate('a','abcd'), locate('b', 'abcd'), locate('f', 'abcd')
结果:  1  2  0

我们知道locate函数的用法后,就可以使用locate函数来弥补hive中不能使用连接条件的地方;

SELECT * FROM TABLE1 A

LEFT JOIN

TABLE2 B

ON  1=1

WHERE LOCATE(B.YY,A.XX)>0;

来实现模糊匹配的效果。

;