Oozie 负责hadoop的job工作流调度,调度Hive\pig\MapReduce等任务
用户行为分析研究现状
用户行为,主要是指用户使用浏览器,系统或者app后,会在后台留下一些信息,比如浏览信息,点击信息,客户来源信息,浏览器版本,系统版本,打开关闭信息,购买信息等等。用户行为分析就是通过分析上面的那些浏览点击等信息来挖掘用户的一些使用习惯是和用户的行为统计。结合这些结果做一些营销活动[12]。通过对用户行为进行深入分析和挖掘,可以是企业更加懂得用户的喜好,给用户提供更好的服务,同时对于企业也能够更好的改善营销策略,精确锁定用户群体,从而提高网站的转化率,增加用户的黏性,减少用户流失,增加企业收入。
国内外企业对于用户行为分析都进行了深入研究,希望通过研究用户的使用习惯,改进营销手段,亚马逊通过研究用户的购买规律,通过基于物品和用户做协同过滤,依靠协同过滤计算人与人之间。物与物之间的相似度[13-14]。能够给亚马逊用户提供个人定制化的购物体验。国内阿里巴巴对于用户分析也是进行深入研究,其基于大数据云平台hadoop开发的数据魔方和淘宝指数,帮助天猫店主分析用户的购物行为和浏览行为,帮助店主更加深刻的理解用户需求。图1.2就是阿里巴巴的大数据云平台整体框架图[15]。主要分为数据源,计算层,存储层和数据展示层。数据源来自于淘宝,天猫的购买日志和业务日志;使用1500节点搭建的hadoop集群调用40000个job处理1.5PB数据,生成20T数据存放在MyFox数据库集群;应用层数据魔方和淘宝指数读取数据库中的结果进行数据展示。
接下来查阅了北京交通大学郝增勇和其团队[16]的研究。他们研究基于hadoop框架下开发用户行为分析系统,该系统基于Libnids网络安全包和hadoop框架开发,实现数据抓取和分布式存储,对TCP/IP进行重组,编写Maoreduce程序分析用户在应用层的HTTP网络活动,分析用户的搜索关键词分布、购物行为、用户留言和网站点击行为四个维度。但是该文章只是使用最简单的HDFS和MapReduce编程,对于hadoop其它框架技术都没有使用,该文章的研究层次较低,同时分析的维度也太少了,对用户的行为并不能很好的把握。
北京邮电大学任思颖[17]对用户行为进行研究。该文对用户的HTTP和DNS报文进行数据分析。原始数据通过程序解析并存放在HBase中,分别使用MapReduce或者Hive进行用户数据分析,统计用户的流量,按天计算和按月计算用户流量,统计后并对结果做出可视化扩展。该文很好的运用了Hive+MapReduce进行分析,跟上文一样,深入研究的层次较低,研究维度低,并没有很好的挖掘出用户的真实需求。
进入web2.0时代,人与人之间的交流越来越多的从网络中进行传达,微博作为一个重要的交流工具,能够连接人与人,人与媒体,人与名人。2012年每天产生1亿微博信息,2013年每天有1.2亿微博活跃用户,2014年每月产生微博28亿条,每日新增微博数据约为2000GB,在微博中,每一句话不超过140字,包含了图片、表情符号、特殊符号等,有用信息及其稀疏,如何从大数据量的稀疏信息中提取有效、有价值、有意义的数据成为近年的研究热点,而对于中文数据分析中遇到的分词困难、分词准确性、数据大等问题也都有相关学者进行研究。