如何将数据从服务器放到Kinesis Stream

我是Kinesis的新手。读出我发现的文档，我可以创建Kinesis Stream来从Producer获取数据。然后使用KCL将从Stream读取此数据以进一步处理。我理解如何通过实现IRecordProcessor来编写KCL应用程序。

然而，关于如何将数据放在Kinesis流上的第一阶段仍然不清楚。我们是否有一些确实需要实现的AWS API。

场景：我有一台服务器，可以从文件夹中的各种来源连续获取数据。每个文件夹都包含文本文件，其行包含用于分析工作的必需属性。我必须将所有这些数据推送到Kinesis Stream。

我需要一些代码，如下面的类putData方法将用于Kinesis流中

public class Put { AmazonKinesisClient kinesisClient; Put() { String accessKey = "My Access Key here" ; String secretKey = "My Secret Key here" ; AWSCredentials credentials = new BasicAWSCredentials(accessKey, secretKey); kinesisClient = new AmazonKinesisClient(credentials); kinesisClient.setEndpoint("kinesis.us-east-1.amazonaws.com", "kinesis", "us-east-1"); System.out.println("starting the Put Application"); } public void putData(String fileContent,String session) throws Exception { final String myStreamName = "ClickStream"; PutRecordRequest putRecordRequest = new PutRecordRequest(); putRecordRequest.setStreamName(myStreamName); String putData = fileContent; putRecordRequest.setData(ByteBuffer.wrap(putData.getBytes())); putRecordRequest.setPartitionKey("session"+session); PutRecordResult putRecordResult = kinesisClient.putRecord(putRecordRequest); System.out.println("Successfully putrecord, partition key : " + putRecordRequest.getPartitionKey() + ", ShardID : " + putRecordResult.getShardId()); System.out.println(fileContent); System.out.println("Sequence Number: "+putRecordResult.getSequenceNumber()); System.out.println("Data has been PUT successfully"); } }

但是，从服务器的源文件夹中读取文件，然后我应该使用什么设计来调用putData来获取Kinesis流上的记录。我是否需要无限循环并读取所有文件然后执行此操作或一些框架，这将更好地执行此操作，同时考虑容错，单点故障全部。任何帮助将不胜感激。

简而言之：我需要一种更好的技术将定期生成的数据放到Kinesis Stream中，数据会定期生成到服务器。谢谢

所以看来你已经在使用… http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/kinesis/AmazonKinesisClient.html

您想要的具体方法如下。

您需要流名称，记录和流密钥。 http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/kinesis/model/PutRecordResult.html

但似乎你有这一切？

然后，您需要一个运行程序，始终跟踪您的服务器日志文件，当有新行时，它将推送它。

但是您的数据只会持续24小时。然后，您需要一个工作程序来使用数据并将其放在其他AWS资源中。

如果要拖尾一些文件，请尝试Fluentd。 http://www.fluentd.org/

亚马逊Kinesis有一个非常好的插件。 https://github.com/awslabs/aws-fluent-plugin-kinesis

您可以使用Amazon kinesis代理监视一组文件，并且可以将数据流式传输到kinesis。

http://docs.aws.amazon.com/streams/latest/dev/writing-with-agents.html