文件名称:实验结果分析-pytorch实现的手写数字mnist识别功能完整示例
文件大小:906KB
文件格式:PDF
更新时间:2024-07-05 13:29:29
高维数据
3.1 实验描述 这一节我们将对本文提出的方法进行实验分析,选用几 个 UCI 中的典型高维数据集,其中 German,Innosphere 和 Sonar 为两类问题数据集,Segment 为多类问题数据集。方 法的性能评价指标选用正确率(Precision),召回率(Recall)和 F-measure,其中 F-measure 是一个综合考虑正确率和召回率 的测试性能评价指标。样本数据具体描述如表 1 所示。 表 1 实验数据集描述 名称 样本数量 维数 类别 German 1000 24 2 Segment 2310 19 7 Ionosphere 351 34 2 Sonar 208 60 2 实验使用了 FGPLVM 的 MATLAB 工具箱,在 WEKA[8] 平台上通过 LIBSVM[9]完成 10 折交叉验证分类。具体实验 中,将数据转换为 LIBSVM 对应的输入格式,并进行归一 化处理,将每个属性缩放到[0 1]。为了验证本文方法的有效 性,FGPLVM 使用了默认的参数设置:FITC 逼近,SCG 优 化器;LIBSVM 也没有对参数进行优化配置,而是直接使用 缺省的参数配置, 具体如下:C-SVC;RBF 核函数;C=1; gamma=1/k(k 为维数数量)。 3.2 实验结果分析 实验结果如表 2 所示,其中样本维数用 D 表示,在方 法 1 和方法 2 中代表降维后的样本维数。分类正确率是常用 的算法评价标准,相关实验结果如表 2 所示,其中分类正确 率用 P 表示。方法 1 直接使用 GPLVM 进行降维,方法 2 中 采用阶梯跳跃式进行样本的反馈迭代降维。从表中可以看 出,通过 GPLVM 对样本的平滑概率映射,两种方法在一定 表 2 分类正确率 SVM 方法 1 方法 2 数据集 D P D P D P German Segment Ionosphere Sonar 24 19 34 60 0.72 0.654 0. 934 0.659 14 14 17 30 0.756 0.956 0.954 0.534 14 14 17 30 0.758 0.961 0.946 0.764 程度上均提高了实验的分类正确率,同时有效的降低了数据 样本的维数。 方法 2 将样本的维数降低了 50%左右,分类正确率较 直接使用 SVM 进行分类也大有提高,其中 German 提高了 3.8 个百分点,Segment 提高了 30.7 个百分点,效果 为明 显,Ionosphere和 Sonar 的分类正确率分别提高了 1.2和 10.6 个百分点。将方法 2 获得的 优维数设置到方法 1 上,进行 数据降维分类。利用获得的实验结果同直接使用 SVM 分类 器进行比较,German、Segment 和 Ionosphere 三个数据集的 分类正确率有所提高,但在 Sonar 数据集上直接利用 GPLVM 将数据降到 30 维,获得的正确率不仅没有提高, 反而比直接使用 SVM 分类器降低了 12.5个百分点。另外,通 过表 2 的对比可以看出,除了 Ionosphere 数据集上直接使用 GPLVM 进行数据降维获得的正确率比方法 2 高出 0.8 个百 分点,其他三个数据集的准确率均低于方法 2。说明了在多数 数据集上直接利用方法 1 就可以获得较好的分类正确率,但方 法 2 更为准确可靠,能够更加有效地滤除噪声特征的影响。 实验选取的 Segment 数据集具有 7 个类别,在 Segment 数据集上进一步实验,以比较分析实验获得的正确率、召回 率和 F-measure 三个评价标准上面的表现。将两种方法的实 验结果进行比较分析,方法 2 正确率的提高主要体现在 cement 和 grass 两个类别的分类上,召回率和 F-measure 在 7 个类别上均有显著的提高,进一步验证了本文方法的有效 性,表 3 给出了详细的对比结果。表中 P 表示正确率,R 表 示召回率。 表 3 多类问题详细分类结果 SVM 方法 2 类别 P R F-measure P R F-measure brickface sky foliage cement window path grass 0.996 1 0.953 0.343 0.959 1 0.481 0.73 0.512 0.548 0.842 0.57 0.67 0.703 0.843 0.677 0.696 0.488 0.715 0.802 0.571 0.997 1 0.884 0.96 0.902 0.988 1 0.982 1 0.948 0.945 0.861 1 0.991 0.989 1 0.915 0.953 0.981 0.994 0.995 4 结论 本文研究了将高斯过程潜变量模型同支持向量机相结 合实现高维数据分类的方法。GPLVM 是新型的非线性降维 方法,利用其保持原数据空间样本距离的特性,提出了一种 新的阶梯跳跃式降维方法。降维过程中对输入数据进行迭代 动态调整,支持向量机分类器的结果作为模型的性能评价标 准。在 UCI 数据集的实验中,可以看出本文方法能有效的 降低样本数据维数,同时提高分类精度。跟直接利用 GPLVM 降维操作比较起来,阶梯跳跃方法在保证分类正确率的前提 下,表现的更为稳定,能够更为有效的滤除噪声特征的影响。 提高分类速度,将算法进一步应用到大规模数据集上以及研 究新的维数搜索方法,将是本文下一步研究的工作。 (下转第 2955 页)