matlab实现垃圾邮件分类代码-Spam-Email-Classification:在CVX库上应用SVM识别垃圾邮件

时间:2021-06-11 12:46:27
【文件属性】:
文件名称:matlab实现垃圾邮件分类代码-Spam-Email-Classification:在CVX库上应用SVM识别垃圾邮件
文件大小:2.34MB
文件格式:ZIP
更新时间:2021-06-11 12:46:27
系统开源 matlab实现垃圾邮件分类代码垃圾邮件分类 该项目旨在将垃圾邮件和非垃圾邮件从 . 学习目标是熟悉MATLAB上的CVX工具箱,从头开始编码SVM优化问题。 需要在 MATLAB 上运行代码。 然而,工作可以分为三个步骤—— 1. Feature Extraction 2. Email Classification 3. Parameter Tuning 下面简要说明这些步骤。 但是,请参阅详细说明。 1.特征提取 调用函数 该数据库包含 6,050 封电子邮件,垃圾邮件比率为 30%。 首先,使用 rename.m 代码将所有电子邮件重命名为 .txt 文件。 在所有文件都可以访问后,为每封电子邮件提取一个特征向量,而特征标签为 1 代表垃圾邮件,0 代表非垃圾邮件。 对于此任务,每封电子邮件都会调用 processEmail.m。 然后,它会按照问题描述中给出的规范化程序截取调用 porterStemmer.m 的电子邮件中的单词。 然后将每个词干词与 vocabList.txt 文件中的字典词进行比较。 字典里有1899个字。 初始特征向量是一列零。 如果字典中的单词出现在电子
【文件预览】:
Spam-Email-Classification-master
----Main_Soft_Margin.m(3KB)
----Cross_Validation_Poly_Kernel.m(2KB)
----Cross_Validation_Soft_Margin.m(2KB)
----easy_ham_features.mat(216KB)
----getVocabList.m(761B)
----renaming_txt.m(397B)
----easy_ham_2_features.mat(134KB)
----readFile.m(407B)
----spam_2_features.mat(157KB)
----vocab.txt(20KB)
----Spam Email Classification Project.pdf(1.25MB)
----hard_ham_features.mat(47KB)
----Main_Gauss_Kernel.m(3KB)
----SVM_Model_Test.m(2KB)
----spam_features.mat(56KB)
----processEmail.m(2KB)
----Cross_Validation_Gauss_Kernel.m(2KB)
----email_dataset.m(1KB)
----Main_Poly_Kernel.m(3KB)
----porterStemmer.m(10KB)
----README.md(3KB)
----email_representation.m(974B)
----feature_extraction.m(177B)
----All_email_features.mat(603KB)

网友评论