hadoop

Cloudera Manager配置hiveserver2使用udf

hiveserver2为hive的调用提供了很多的便利,但遗憾的是hiveserver2并没有提供什么便利的方法来直接使用我们编写的udf,对此如果使用hiveserver2来调用udf前,我们需要先进行一些配置。本文中的配置方法适合于使用CDH4的用户。

在Mapreduce streaming中使用python第三方库

在使用streaming模式来运行自己编写的python mapreduce程序时,如果python脚本中包含有第三方的库,则会发现mr任务会运行失败,查看日志时通常会发现错误发生在程序无法找和import这个第三方库。此时需要在执行mr任务的命令行中进行一下小的调整,才可以解决问题。