用spark分析日志文件？

我编写了程序来分析日志，其目的是过滤/打印日志中的错误语句

String master = "local[*]"; String inputFilePath = "C:/test.log"; SparkConf conf = new SparkConf().setAppName(App.class.getName()) .setMaster(master); JavaSparkContext context = new JavaSparkContext(conf); JavaRDD stringRDD = context.textFile(inputFilePath); stringRDD.filter(text -> text.contains("ERROR")) .collect().forEach(result -> System.out.println(result));

但是日志文件正在由不同的进程连续写入。这是时间线示例

在T1，日志文件中存在10行
在T2（5秒后），再加入5行
在T3（5秒后），再加入7行

现在我的程序应该在5秒后读取文件并仅从新添加的行打印错误语句。我是否应该手动生成每隔5秒钟继续读取的线程，或者是否有更好的火花方式？

更新： –

基于谷歌我尝试下面但没有帮助

 SparkConf conf = new SparkConf().setAppName(App.class.getName()) .setMaster(master); //JavaSparkContext context = new JavaSparkContext(conf); JavaStreamingContext streamingContext = new JavaStreamingContext(conf, Durations.seconds(10)); JavaDStream stringRDD = streamingContext.textFileStream(inputFilePath); stringRDD.filter(text -> text.contains("ERROR")).foreachRDD(result -> System.out.println(result));

用spark分析日志文件？

Spark序列化和Java序列化有什么区别？

当从Java应用程序连接到Spark Standalone时，为什么抛出“无法调用已停止的SparkContext上的方法”？

Spark流式传输DStream RDD以获取文件名

使用saveAsTextFile的Spark NullPointerException

无法连接到spark master：InvalidClassException：org.apache.spark.rpc.RpcEndpointRef; 本地类不兼容

如何使用apache spark的MLlib的线性回归？

Spark：从具有不同内存/核心配置的单个JVM作业同时启动

Spark 1.5.1，Cassandra Connector 1.5.0-M2，Cassandra 2.1，Scala 2.10，NoSuchMethodError番石榴依赖

Apache Spark中的矩阵乘法

Spark中的并发作业执行