Skip to content

Latest commit

 

History

History
20 lines (14 loc) · 819 Bytes

File metadata and controls

20 lines (14 loc) · 819 Bytes

假设微博的数据格式如下所示 数据分为三个字段,字段之间用##分割开

topic(话题) | 微博内容 | 这条微博的阅读量 |

数据格式样例:

十九大##习近平在参加党的十九大贵州省代表团讨论时强调:全党全国各族人民万众一心,开拓进取,把新时代中国特色社会主义推向前进##1000000

  • topic:十九大
  • 微博内容:习近平在参加党的十九大贵州省代表团讨论时强调:全党全国各族人民万众一心,开拓进取,把新时代中国特色社会主义推向前进
  • 阅读量: 1000000

实现思路:

MapReduce二次排序

推广:

类似在海量数据中求TopK的场景