一个计算机技术爱好者与学习者

0%

Hadoop单词计数

1. 前言

《在Ubuntu16.04上安装Hadoop》一文中,搭建好了hadoop平台。
接下来,我们参照慕课网Kit_Ren的《Hadoop大数据平台架构与实践——基础篇》教程,跑一下单词计数程序。

要求:计算文件中出现每个单词的频数,输入结果按照字母顺序进行排序。
输入:

1
2
3
hello world bye world
hello hadoop bye hadoop
bye hadoop hello hadoop

输出:

1
2
3
4
bye     3
hello 3
hadoop 4
world 2

2. MapReduce过程


3. 编译打包和运行

1、上传 WordCount.java 文件到hadoop所在机器

2、编译java文件

1
javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar WordCount.java

3、打包三个.class文件为一个jar文件

1
jar -cvf wordcount.jar *.class

4、新建两个文件,file1和file2,内容分别为:

1
2
3
hello world bye world
hello hadoop bye hadoop
bye hadoop hello hadoop
1
2
hello world bye world
system hello hadoop

5、把file1和file2放到hdfs中

1
2
hadoop fs -mkdir wordcount_input
hadoop fs -put file* wordcount_input/

6、执行jar包

1
hadoop jar wordcount.jar WordCount wordcount_input wordcount_output

7、查看结果

1
hadoop fs -ls wordcount_output`,`hadoop fs -cat wordcount_output/part-r-00000

  • 本文作者: 好好学习的郝
  • 原文链接: https://www.voidking.com/dev-hadoop-wordcount/
  • 版权声明: 本文采用 BY-NC-SA 许可协议,转载请注明出处!源站会即时更新知识点并修正错误,欢迎访问~
  • 微信公众号同步更新,欢迎关注~