0%

在使用streaming模式来运行自己编写的python mapreduce程序时,如果python脚本中包含有第三方的库,则会发现mr任务会运行失败,查看日志时通常会发现错误发生在程序无法找和import这个第三方库。此时需要在执行mr任务的命令行中进行一下小的调整,才可以解决问题。

阅读全文 »

我不会写C,但是得用到C写的东西。比如最近的一个测试任务中,需要使用python来调用一个so,很自然就要使用ctypes模块。但是在测试的过程中,发现不定期会出现segmentation fault的情况,此时调用so的python脚本也会退出。这种段错误,python无法使用try来捕获,一旦发生,直接就会让python程序崩溃。由于源程序的崩溃只是随机的发生,找不到什么固定的规律,为了测试该问题,我只好自己在网上找点资料来写个测试的so文件,每次都产生segmentation fault的情况,以测试好的解决方案。

阅读全文 »

pssh(parallel-ssh)是linux系统管理员比较熟悉的一款并行ssh工具,很好用,但是却需要提前在各个服务器上配置好密钥认证访问。我本身不是很喜欢这种操作,对此我对这个项目进行了一些修改,让这个工具支持保存在管理机中的密码列表。

阅读全文 »

我最近写个每天自动加密文件的shell脚本时才发现,平时在命令行下直接可用的gpg加密语句放到脚本中,再加入到crontab中定时执行可能会失败。研究了下才发现,想在crontab中调用gpg加密还需要两个额外的参数才可以。

阅读全文 »

hive中无法像postgresql和mysql一样使用in 和 not in 语句,类似的功能实现需要借助left join。

阅读全文 »

很简陋的一个脚本,用于在linux下测试本机的网卡流量。使用时先修改配置,然后执行就可以了。
脚本中有两个配置项: eth_name=eth2 wait_time=100 第一个配置项为设置需要检查的网卡号。第二个配置项用于设置测试的时间,以秒为单位,由于脚本的执行也需要时间,所以wait_time设置的越长误差就越小。 以下是脚本全文:

阅读全文 »

在linux系统上部署程序,免不了要和crontab定时任务打交到。实际环境中我常遇到crontab失效的问题,在这里总结一下,方便以后查找吧。

阅读全文 »

我的博客挂了似乎已经有一个月了,原因是空间到期,zz同学早就告诉了我要进行数据迁移,我却懒得去做,于是挂就挂吧,挂了一个月。
现在发现用github的pages功能可以轻松搭建blog,还有hexo这么给力的框架来实现静态的blog,文章内容还可以直接用markdown来写,甚爽。于是赶紧搭建了一个,以证明自己的存在吧。
所以,Hello Hexo!

Welcome to Hexo! This is your very first post. Check documentation to learn how to use.