Tag: 字数

Java MapReduce按日期计算: 我是Hadoop的新手，我正在尝试做一个MapReduce程序，按日期计算最大前两个出版物（按月分组）。所以我的意见是这样的： 2017-06-01 , A, B, A, C, B, E, F 2017-06-02 , Q, B, Q, F, K, E, F 2017-06-03 , A, B, A, R, T, E, E 2017-07-01 , A, B, A, C, B, E, F 2017-07-05 , A, B, A, G, B, G, G 所以，我正在考虑这个MapReducer程序的结果，如： 2017-06, A:4, E:4 2017-07, A:4, B:4 public […]

在Java中确定文件总字数的最佳方法是什么？: 在Java中查找文本文件中单词总数的最佳方法是什么？我认为Perl是最好的找到这样的东西。如果这是真的那么从Java中调用Perl函数将是最好的？在这样的条件下你会做什么？还有更好的想法？

如何计算文本文件中的单词，java 8样式: 我正在尝试执行一项任务，首先计算目录中的文件数，然后在每个文件中给出一个字数。我得到的文件数量还不错，但是我很难转换一些代码，我的教师从一个频率计数到更简单的字数的类中给了我。此外，我似乎无法找到正确的代码来查看每个文件来计算单词（我试图找到“通用”而不是特定的东西，但我试图使用特定的文本文件测试程序）。这是预期的输出： Count 11 files: word length: 1 ==> 80 word length: 2 ==> 321 word length: 3 ==> 643 但是，这是输出的内容： primes.txt but are sometimes sense refrigerator make haiku dont they funny word length: 1 ==> {but=1, are=1, sometimes=1, sense=1, refrigerator=1, make=1, haiku=1, dont=1, they=1, funny=1} ….. Count 11 files: 我正在使用两个类：WordCount和FileCatch8 字数： […]

Hadoop 1.2.1 – 多节点集群 – 对于Wordcount程序，Reducer阶段是否挂起？: 我的问题可能听起来多余，但早期问题的解决方案都是临时性的。很少有人尝试但没有运气。实际上，我正在研究hadoop-1.2.1（在ubuntu 14上），最初我有单节点设置，在那里我成功运行了WordCount程序。然后我根据本教程添加了一个节点。它成功启动，没有任何错误，但现在当我运行相同的WordCount程序时，它处于还原阶段。我查看了任务跟踪器日志，它们如下所示： – INFO org.apache.hadoop.mapred.TaskTracker: LaunchTaskAction (registerTask): attempt_201509110037_0001_m_000002_0 task’s state:UNASSIGNED INFO org.apache.hadoop.mapred.TaskTracker: Trying to launch : attempt_201509110037_0001_m_000002_0 which needs 1 slots INFO org.apache.hadoop.mapred.TaskTracker: In TaskLauncher, current free slots : 2 and trying to launch attempt_201509110037_0001_m_000002_0 which needs 1 slots INFO org.apache.hadoop.mapred.JobLocalizer: Initializing user hadoopuser on this TT. INFO org.apache.hadoop.mapred.JvmManager: In […]

我们如何动态分配和增长数组: 我正在研究一个项目，但我不能使用任何现有的java数据结构（即ArraysList，树等）我只能使用数组。因此，我需要使用新内存动态更新数组。我正在读取文本文件，并为arrays内存预先分配100： String [] wordList; int wordCount = 0; int occurrence = 1; int arraySize = 100; wordList = new String[arraySize]; while ((strLine = br.readLine()) != null) { // Store the content into an array Scanner s = new Scanner(strLine); while(s.hasNext()) { wordList[wordCount] = s.next(); wordCount++; } } 现在这适用于100个以下列表项。 br.readline是遍历文本文件每一行的缓冲读取器。我有它然后将每个单词存储到列表中然后递增我的索引（wordCount）。但是，一旦我有一个包含超过100个项目的文本文件，我就会收到分配错误。如何动态更新此arrays（从而重新发明轮子）？ […]