Raw Live Packets的NSL KDDfunction?

我想使用pcap和wincap提取原始数据。 由于我将对使用NSLKDD数据集训练的神经网络进行测试,我想知道如何从原始数据中获取这41个属性?或者即使不可能,也可以获得src_bytes,dst host_same_srv_rate等function,来自pcap的原始实时捕获数据包的diff_srv_rate,count,dst_host_serror_rate,wrong_fragment?

1999 KDD杯数据存在缺陷,不应再使用了

即便是这种“清理”版本(NSL KDD)也不现实

此外,他们所做的许多“清理工作”并不明智。 真实数据重复,这些记录的频率很重要。 通过删除重复项,您可以将数据偏向更罕见的观察结果。 你不能盲目地“仅仅因为”,或者更糟糕的是:减少数据集的大小。

然而,最大的问题仍然是:

KDD99在任何方面都不现实

即使在1999年也不现实,但自那时起互联网发生了很大的变化。

将此数据集用于机器学习是不合理的。 其中的攻击最好通过简单的数据包检测防火墙规则来检测。 这些攻击很容易理解,在现代路由器上,很多情况下都应该提供适当的探测器 – 高效率,100%检测率和0%误报率。 它们是无所不在的,自1998年左右以来, 这些攻击几乎不存在

如果您想要真正的攻击,请查找SQL注入等。 但这些不会出现在pcap文件中,但KDDCup’99function的大部分未记录的方式都是从这个…

停止使用此数据集。

说真的,这是无用的数据。 标记,大,经常使用,但没用

如果有人想要尝试KDD ’99function,尽管数据集的声誉不好,我创建了一个名为kdd99extractor的工具,用于从实时流量或.pcap文件中提取KDDfunction的子集。

该工具是作为一个大学项目的一部分创建的。 我还没有找到KDD ’99function的详细文档,因此与原始KDD相比,结果值可能略有不同。 README中提到了一些使用的来源。 此外,实施还没有完成。 例如,未实现处理有效载荷的内容特征。

它可以在我的github存储库中找到 。

我似乎迟到了回复。 但是,正如其他人已经回答的那样,KDD99数据集已经过时了。

我不知道NSL-KDD数据集的用处。 但是,有几件事:

  • 从网络流量中获取信息时,您可以做的最好的事情是获取统计信息(基于内容的信息通常是加密的)。 您可以做的是创建自己的数据集来描述您想要视为“正常”的行为。 然后,训练神经网络以检测与“正常”行为的偏差。
  • 要小心,即使“正常”行为的定义也会随着网络和网络的变化而变化。

您可以查看这项工作,我参与其中,除了采用原始KDD的统计function外,还可以从真实的网络环境中获取其他function。

该软件正在申请中,可免费用于学术目的! 这里有两个出版物链接:

  1. http://link.springer.com/chapter/10.1007/978-94-007-6818-5_30
  2. http://www.iaeng.org/publication/WCECS2012/WCECS2012_pp30-35.pdf

谢谢!