博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Hadoop in China 2011] 人人网:基于Hadoop的SNS统计和聚类推荐
阅读量:6714 次
发布时间:2019-06-25

本文共 961 字,大约阅读时间需要 3 分钟。

http://storage.it168.com/a2011/1203/1283/000001283190.shtml

 

据人人网的工程师介绍,人人网现在一共2.2亿用户,平均每个用户有大约190个好友,月均40亿的照片访问量。尽管相比于中国最大的即时通讯公司 腾讯,其用户量还有一定差距,但人人网却具有举足轻重的优势。例如有一成的付费用户,平均每天有五成用户使用人人网,并且八成用户在人人网留下了真实资 料。

人人网:基于Hadoop的SNS统计和聚类推荐

人人网高级技术经理白伯纯

   人人网的白伯纯工程师认为,现在的互联网已经发展到了web 2.0时代,其与web 1.0相比,最大不同在于,每个用户都具有唯一标识,而这将给人人网带来巨大的机遇。用户每天都在产生内容,如果能够对其内容进行分析处理,并推送相应的 内容给他,那么就能对用户产生黏性。

人人网:基于Hadoop的SNS统计和聚类推荐

  上图显示的是人人网结构化数据产生的拓扑图,其中的每个点代表一个用户,用户与用户之间通过内容联系起来。

人人网:基于Hadoop的SNS统计和聚类推荐

  用户产生的内容会通过用户的转发而维系起来,而在这些用户中,通常有一些用户的内容会受到其他大量用户的肯定。而人人网要做的就是通过对内容的分析计算,找出这个“意见领袖”。上图中所示的红点即为“意见领袖”。

人人网:基于Hadoop的SNS统计和聚类推荐

  不同群体的用户可以通过内容维系起来。

人人网:基于Hadoop的SNS统计和聚类推荐

  最后,人人网的工程师给我们分析了人人网统计平台和聚类推荐的架构图,这跟我们介绍了Facebook公司的实时海量数据处理平台有共通之处。据透露,人人网的这个平台一共有200台,采用的是Hadoop 0.21.0版本,每天大概要处理4000以上的任务,经常使用的数据量为700TB,其总共的数据量约为1.2PB,其中涉及的工具包括Hive、HBase以及Streaming。在另外的一个30台组成的集群中,采用的是Hadoop 0.20.3版本,在这个集群中,只使用了HBase。

人人网:基于Hadoop的SNS统计和聚类推荐

  人人网整个统计平台的体系架构如上图所示。因为各个部门工程师对于各种技术的熟练程度不一,所以形成了以BI、Hive和M/R三种统计图形的统计效果,而人人网的各个子平台也呈现出以一种离散状态,但这些都通过Hadoop这个平台又集中地整合到一起。

转载于:https://www.cnblogs.com/licheng/archive/2011/12/05/2276400.html

你可能感兴趣的文章
java21:捕鱼达人
查看>>
Zabbix 服务端搭建
查看>>
Java - 一个单例
查看>>
学习JAVA 持续更新
查看>>
Spring propertyConfigurer类
查看>>
Linux系统分析工具之uptime,top(一)
查看>>
EIGRP之DUAL(扩散更新算法)
查看>>
cacti自定义数据收集脚本,创建Data Templates和Graph Templates
查看>>
对你同样重要的非技术贴,一封有效的求职信的具体写法
查看>>
在路由器里插入和删除ACL
查看>>
我的友情链接
查看>>
OpenStack从入门到放弃
查看>>
戴尔和EMC已经成为正式的竞争对手
查看>>
6425C-Lab12 管理DC(1)
查看>>
RocketMQ调研笔记
查看>>
maven 注册 jar
查看>>
高并发写入mysql的设计
查看>>
成长点滴:我不知道该说些什么?
查看>>
linux之使用man查看命令手册
查看>>
IT管理员如何保证你的内网安全?
查看>>