在使用hive的中需要多表关联的时候,想使用模糊匹配的like进行模糊匹配的时候,执行代码如下所示:
SELECT * FROM TABLE1 A
LEFT JOIN
TABLE2 B
ON A.XX LIKE CONCAT('%' , B.YY , '%')
这段代码在DB2 中是可以顺利执行的,但是在hive就是会报错,原因就是hive中不能很好的处理非等值连接,但是hive中也提供了别的处理方式,来达到在连接时使用模糊匹配的效果。
hive中提供了一个locate()的函数;
locate函数的用法如下:
locate(string substr, string str[, int pos])
函数内第一个参数是子串,第二个是我们的整个字符串,具体的解释如下:
查找字符串str中的pos位置后字符串substr第一次出现的位置,若为找到,则返回0。
hive> select locate('a','abcd'), locate('b', 'abcd'), locate('f', 'abcd')
结果: 1 2 0
我们知道locate函数的用法后,就可以使用locate函数来弥补hive中不能使用连接条件的地方;
SELECT * FROM TABLE1 A
LEFT JOIN
TABLE2 B
ON 1=1
WHERE LOCATE(B.YY,A.XX)>0;
来实现模糊匹配的效果。