Tag: 字数

Java MapReduce按日期计算

我是Hadoop的新手,我正在尝试做一个MapReduce程序,按日期计算最大前两个出版物(按月分组)。 所以我的意见是这样的: 2017-06-01 , A, B, A, C, B, E, F 2017-06-02 , Q, B, Q, F, K, E, F 2017-06-03 , A, B, A, R, T, E, E 2017-07-01 , A, B, A, C, B, E, F 2017-07-05 , A, B, A, G, B, G, G 所以,我正在考虑这个MapReducer程序的结果,如: 2017-06, A:4, E:4 2017-07, A:4, B:4 public […]

在Java中确定文件总字数的最佳方法是什么?

在Java中查找文本文件中单词总数的最佳方法是什么? 我认为Perl是最好的找到这样的东西。 如果这是真的那么从Java中调用Perl函数将是最好的? 在这样的条件下你会做什么? 还有更好的想法?

如何计算文本文件中的单词,java 8样式

我正在尝试执行一项任务,首先计算目录中的文件数,然后在每个文件中给出一个字数。 我得到的文件数量还不错,但是我很难转换一些代码,我的教师从一个频率计数到更简单的字数的类中给了我。 此外,我似乎无法找到正确的代码来查看每个文件来计算单词(我试图找到“通用”而不是特定的东西,但我试图使用特定的文本文件测试程序) 。 这是预期的输出: Count 11 files: word length: 1 ==> 80 word length: 2 ==> 321 word length: 3 ==> 643 但是,这是输出的内容: primes.txt but are sometimes sense refrigerator make haiku dont they funny word length: 1 ==> {but=1, are=1, sometimes=1, sense=1, refrigerator=1, make=1, haiku=1, dont=1, they=1, funny=1} ….. Count 11 files: 我正在使用两个类:WordCount和FileCatch8 字数: […]

Hadoop 1.2.1 – 多节点集群 – 对于Wordcount程序,Reducer阶段是否挂起?

我的问题可能听起来多余,但早期问题的解决方案都是临时性的。 很少有人尝试但没有运气。 实际上,我正在研究hadoop-1.2.1(在ubuntu 14上),最初我有单节点设置,在那里我成功运行了WordCount程序。 然后我根据本教程添加了一个节点。 它成功启动,没有任何错误,但现在当我运行相同的WordCount程序时,它处于还原阶段。 我查看了任务跟踪器日志,它们如下所示: – INFO org.apache.hadoop.mapred.TaskTracker: LaunchTaskAction (registerTask): attempt_201509110037_0001_m_000002_0 task’s state:UNASSIGNED INFO org.apache.hadoop.mapred.TaskTracker: Trying to launch : attempt_201509110037_0001_m_000002_0 which needs 1 slots INFO org.apache.hadoop.mapred.TaskTracker: In TaskLauncher, current free slots : 2 and trying to launch attempt_201509110037_0001_m_000002_0 which needs 1 slots INFO org.apache.hadoop.mapred.JobLocalizer: Initializing user hadoopuser on this TT. INFO org.apache.hadoop.mapred.JvmManager: In […]

我们如何动态分配和增长数组

我正在研究一个项目,但我不能使用任何现有的java数据结构(即ArraysList,树等) 我只能使用数组。 因此,我需要使用新内存动态更新数组。 我正在读取文本文件,并为arrays内存预先分配100: String [] wordList; int wordCount = 0; int occurrence = 1; int arraySize = 100; wordList = new String[arraySize]; while ((strLine = br.readLine()) != null) { // Store the content into an array Scanner s = new Scanner(strLine); while(s.hasNext()) { wordList[wordCount] = s.next(); wordCount++; } } 现在这适用于100个以下列表项。 br.readline是遍历文本文件每一行的缓冲读取器。 我有它然后将每个单词存储到列表中然后递增我的索引(wordCount)。 但是,一旦我有一个包含超过100个项目的文本文件,我就会收到分配错误。 如何动态更新此arrays(从而重新发明轮子)? […]