【文件属性】:
文件名称:matlab实现垃圾邮件分类代码-Spam-Email-Classification:在CVX库上应用SVM识别垃圾邮件
文件大小:2.34MB
文件格式:ZIP
更新时间:2021-06-11 12:46:27
系统开源
matlab实现垃圾邮件分类代码垃圾邮件分类
该项目旨在将垃圾邮件和非垃圾邮件从
.
学习目标是熟悉MATLAB上的CVX工具箱,从头开始编码SVM优化问题。
需要在
MATLAB
上运行代码。
然而,工作可以分为三个步骤——
1.
Feature
Extraction
2.
Email
Classification
3.
Parameter
Tuning
下面简要说明这些步骤。
但是,请参阅详细说明。
1.特征提取
调用函数
该数据库包含
6,050
封电子邮件,垃圾邮件比率为
30%。
首先,使用
rename.m
代码将所有电子邮件重命名为
.txt
文件。
在所有文件都可以访问后,为每封电子邮件提取一个特征向量,而特征标签为
1
代表垃圾邮件,0
代表非垃圾邮件。
对于此任务,每封电子邮件都会调用
processEmail.m。
然后,它会按照问题描述中给出的规范化程序截取调用
porterStemmer.m
的电子邮件中的单词。
然后将每个词干词与
vocabList.txt
文件中的字典词进行比较。
字典里有1899个字。
初始特征向量是一列零。
如果字典中的单词出现在电子
【文件预览】:
Spam-Email-Classification-master
----Main_Soft_Margin.m(3KB)
----Cross_Validation_Poly_Kernel.m(2KB)
----Cross_Validation_Soft_Margin.m(2KB)
----easy_ham_features.mat(216KB)
----getVocabList.m(761B)
----renaming_txt.m(397B)
----easy_ham_2_features.mat(134KB)
----readFile.m(407B)
----spam_2_features.mat(157KB)
----vocab.txt(20KB)
----Spam Email Classification Project.pdf(1.25MB)
----hard_ham_features.mat(47KB)
----Main_Gauss_Kernel.m(3KB)
----SVM_Model_Test.m(2KB)
----spam_features.mat(56KB)
----processEmail.m(2KB)
----Cross_Validation_Gauss_Kernel.m(2KB)
----email_dataset.m(1KB)
----Main_Poly_Kernel.m(3KB)
----porterStemmer.m(10KB)
----README.md(3KB)
----email_representation.m(974B)
----feature_extraction.m(177B)
----All_email_features.mat(603KB)