0%

使用python来操作hive(通过pyhs2和HiveServer2)

HiveServer2为客户端在远程执行hive查询提供了接口,通过Thrift RPC来实现,还提供了多用户并发和认证功能。目前使用python的用户可以通过pyhs2这个模块来连接HiveServer2,实现查询和取回结果的操作。

pyhs2的项目托管在github之上,地址为https://github.com/BradRuderman/pyhs2
可通过以下方式来安装:

easy_install pyhs2

如果安装不成功,可以尝试先安装以下的组件:

yum install cyrus-sasl-plain
yum install cyrus-sasl-devel

以下为一段测试用的代码,pyhs2提供了基本的功能,查询输出的结果为list,做点每天的定时任务用这个来写脚本还是很方便的:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# hive util with hive server2

"""
@author:knktc
@create:2014-04-08 16:55
"""

__author__ = 'knktc'
__version__ = '0.1'

import pyhs2

class HiveClient:
def __init__(self, db_host, user, password, database, port=10000, authMechanism="PLAIN"):
"""
create connection to hive server2
"""
self.conn = pyhs2.connect(host=db_host,
port=port,
authMechanism=authMechanism,
user=user,
password=password,
database=database,
)

def query(self, sql):
"""
query
"""
with self.conn.cursor() as cursor:
cursor.execute(sql)
return cursor.fetch()

def close(self):
"""
close connection
"""
self.conn.close()


def main():
"""
main process
@rtype:
@return:
@note:

"""
hive_client = HiveClient(db_host='hiveserver2.hadoop', port=10000, user='hdfs', password='mypass',
database='test_log', authMechanism='PLAIN')
result = hive_client.query('select * from t_test limit 10')
print result
hive_client.close()


if __name__ == '__main__':
main()
如果我的文字帮到了您,那么可不可以请我喝罐可乐?