Raw Live Packets的NSL KDDfunction?
我想使用pcap和wincap提取原始数据。 由于我将对使用NSLKDD数据集训练的神经网络进行测试,我想知道如何从原始数据中获取这41个属性?或者即使不可能,也可以获得src_bytes,dst host_same_srv_rate等function,来自pcap的原始实时捕获数据包的diff_srv_rate,count,dst_host_serror_rate,wrong_fragment?
1999 KDD杯数据存在缺陷,不应再使用了
即便是这种“清理”版本(NSL KDD)也不现实 。
此外,他们所做的许多“清理工作”并不明智。 真实数据有重复,这些记录的频率很重要。 通过删除重复项,您可以将数据偏向更罕见的观察结果。 你不能盲目地“仅仅因为”,或者更糟糕的是:减少数据集的大小。
然而,最大的问题仍然是:
KDD99在任何方面都不现实
即使在1999年也不现实,但自那时起互联网发生了很大的变化。
将此数据集用于机器学习是不合理的。 其中的攻击最好通过简单的数据包检测防火墙规则来检测。 这些攻击很容易理解,在现代路由器上,很多情况下都应该提供适当的探测器 – 高效率,100%检测率和0%误报率。 它们是无所不在的,自1998年左右以来, 这些攻击几乎不存在 。
如果您想要真正的攻击,请查找SQL注入等。 但这些不会出现在pcap文件中,但KDDCup’99function的大部分未记录的方式都是从这个…
停止使用此数据集。
说真的,这是无用的数据。 标记,大,经常使用,但没用 。
如果有人想要尝试KDD ’99function,尽管数据集的声誉不好,我创建了一个名为kdd99extractor的工具,用于从实时流量或.pcap文件中提取KDDfunction的子集。
该工具是作为一个大学项目的一部分创建的。 我还没有找到KDD ’99function的详细文档,因此与原始KDD相比,结果值可能略有不同。 README中提到了一些使用的来源。 此外,实施还没有完成。 例如,未实现处理有效载荷的内容特征。
它可以在我的github存储库中找到 。
我似乎迟到了回复。 但是,正如其他人已经回答的那样,KDD99数据集已经过时了。
我不知道NSL-KDD数据集的用处。 但是,有几件事:
- 从网络流量中获取信息时,您可以做的最好的事情是获取统计信息(基于内容的信息通常是加密的)。 您可以做的是创建自己的数据集来描述您想要视为“正常”的行为。 然后,训练神经网络以检测与“正常”行为的偏差。
- 要小心,即使“正常”行为的定义也会随着网络和网络的变化而变化。
您可以查看这项工作,我参与其中,除了采用原始KDD的统计function外,还可以从真实的网络环境中获取其他function。
该软件正在申请中,可免费用于学术目的! 这里有两个出版物链接:
- http://link.springer.com/chapter/10.1007/978-94-007-6818-5_30
- http://www.iaeng.org/publication/WCECS2012/WCECS2012_pp30-35.pdf
谢谢!