首页 理论教育在KDDCUP99数据集上的实验结果优化方案

在KDDCUP99数据集上的实验结果优化方案

【摘要】:KDDCUP99数据集是网络访问数据记录集[117],它包含了若干个数据集,本书选用的是corrected.gz。每个记录有42个属性,前41个是访问特征属性,最后一个属性是记录的类别标识。从corrected中按比例分别选择两类记录来构造若干子集,其中攻击记录所占比例均小于10%,以使其为特异记录。分别在30+300、50+500、100+1000、200+2000、300+3000共5个子集上分别运行PecuFind算法程序和CpecuFind算法程序。很明显,Cpecu Find发现攻击记录的能力强于Pecu Find。表3.330+300和50+500上的实验结果比较

KDDCUP99数据集是网络访问数据记录集[117],它包含了若干个数据集,本书选用的是corrected.gz。其中的记录有两大类:正常访问记录和网络攻击记录,而网络攻击的记录又分为若干小类,在本实验中将只按两大类来区分记录。每个记录有42个属性,前41个是访问特征属性,最后一个属性是记录的类别标识。实验中可以选择前41个属性来计算特异因子。从corrected中按比例分别选择两类记录来构造若干子集,其中攻击记录所占比例均小于10%,以使其为特异记录。用“攻击记录数+正常记录数”来表示这些子集的记录规模,如“30+300”表示整个子集有330个记录,其中30个攻击记录,300个正常记录。分别在30+300、50+500、100+1000、200+2000、300+3000共5个子集上分别运行PecuFind算法程序和CpecuFind算法程序。在CpecuFind中,λ=10%,k=2。两个算法在30+300和50+500上的运行结果中,RPF值排序在前10%和15%的记录包含的攻击记录数显示于表3.3。很明显,Cpecu Find发现攻击记录的能力强于Pecu Find。

表3.3 30+300和50+500上的实验结果比较