• 我的订阅
  • 科技

常见电子邮件分类算法的性能分析

类别:科技 发布时间:2024-08-26 09:59:00 来源:大江网-信息日报

樊攀 太原理工大学计算机科学与技术学院(大数据学院)

摘要:文本分类是机器学习领域的重要应用之一,旨在将文本数据自动划分为预定义的类别。在文本分类任务中,常用的机器学习算法包括朴素贝叶斯、支持向量机(SVM)、决策树和神经网络等。这些算法通过对文本进行特征提取(如TF-IDF、词嵌入等),将文本转化为数值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的应用。

关键词:TF-IDF;决策树;多层神经网络;朴素贝叶斯

一、研究的目的与内容

(一)目的和要求

使用多种机器学习算法来进行文本分类学习,以实现准确区分垃圾邮件和普通邮件。

(二)研究内容

已经给出了数据集,用留出法划分好训练集和测试集后再使用sklearn中的朴素贝叶斯算法、决策树算法、多层神经网络算法进行模型训练和测试,得到使用各个方法的模型学习曲线,比较各个方法的优缺点和适用范围。

二、总体方案

(一)算法实现的具体方案

引用机器学习所需要的库,通过库调用其中的机器学习算法。对数据集先进行解压缩,解压缩完成后还要对数据进行处理,遍历part1到part10文件夹,根据文件名中是否含有sp来给出是否是垃圾邮件的标签。处理完数据集后使用sklearn中的留出法选取数据,集中20%的数据作为测试集,其余的作为训练集,之后分别使用sklearn中的朴素贝叶斯算法、决策树算法、多层神经网络算法来进行训练和预测,最后输出各种学习算法的计算精度、F1值、查全率等指标进行对比。

(二)代码描述

首先引用sklearn等现有包中的各种方法,包括朴素贝叶斯算法、决策树算法、多层神经网络算法等,将各种方法的随机参数设置为相同数值,以避免数据不同对方法性能评定所造成的影响,同时保证了实验的可重复性和可验证性,最后调用相关方法,用列联表列出三个方法,在测试集上分别对应查全率、查准率、F1值等指标以及三种方法各自对应的学习曲线,以便对三种方法的优势和不足进行评定。

(三)运行结果

常见电子邮件分类算法的性能分析

图1.朴素贝叶斯学习曲线

图1为朴素贝叶斯算法学习曲线,红色线代表测试集(学习过程中)的准确率(Score),绿色线代表该模型在测试集上的准确率,线两侧的半透明带的宽度代表方差(方差越小,模型稳定性越好,泛化性能越好)。从图1可看出,随着训练量(Train examples)的增大,训练集正确率下降,测试集正确率上升,最后稳定在0.84左右,准确率一般,但方差较小,具有较强的抗过拟合能力。

常见电子邮件分类算法的性能分析

图2.决策树

图2为决策树学习曲线,红色线代表测试集(学习过程中)的准确率(Score),绿色线代表该模型在测试集上的准确率,线两侧的半透明带的宽度代表方差(方差越小,模型稳定性越好,泛化性能越好)。从图2可看出,随着训练量(Train examples)的增大,训练集正确率基本不变,测试集正确率上升,最后稳定在0.96左右,准确率高,但方差较大,存在过拟合风险大的不足。

常见电子邮件分类算法的性能分析

图3.多层神经网络学习曲线

图3为朴素贝叶斯算法学习曲线,红色线代表测试集(学习过程中)的准确率(Score),绿色线代表该模型在测试集上的准确率,线两侧的半透明带的宽度代表方差(方差越小,模型稳定性越好,泛化性能越好)。从图3可看出,随着训练量(Train examples)的增大,训练集正确率基本不变,测试集正确率上升,最后稳定在0.98左右,准确率极高,且方差较小,兼顾了准确率高以及抗过拟合能力强的优点。

(四)结论

在使用TF-IDF方法进行特征向量化后,通过对比朴素贝叶斯算法、决策树算法和多层神经网络算法的学习曲线可得出以下结论:

1.朴素贝叶斯算法准确率不高,但不易出现过拟合的情况且算法简单,运行时间短,对硬件配置要求不高,适合于训练量较少或硬件条件有限的情况下使用。

2.决策树算法准确率较高,但相比于另外两种算法,存在方差大、容易过拟合的缺陷,对计算机硬件有一定要求,适合于不存在过拟合风险的问题中,如车牌识别、颜色识别等单一识别问题,不适合于文字识别。

3.多层神经网络算法兼顾了极高准确率与极低过拟合风险两大优点,是三种方法中表现最优的,但计算量大,对计算机硬件要求高,适合于高精度分类问题。

三、遇到的问题及解决方案

(一)问题

1.文件路径错误。如果DATA_DIR变量中的路径不正确,或者子目录和文件结构不符合预期,将会导致文件无法被正确读取。

2.文本分词和停用词。对于英文文本,可能需要考虑分词和停用词的问题,假设处理的是英文邮件,可能需要添加相应的处理步骤。

3.参数调整。每个分类器都有许多参数可以调整,需要通过实验来确定最佳的参数设置。

(二)解决

1.正确调试代码中有关遍历目录的部分,保证不漏。

2.增加辨别语言部分的功能,通过对字母文字占比这一指标判定中英文,对于英文以空格、逗号等作为分隔符。

3.通过查阅以往实验数据,确定最佳参数组合范围,随后逐一调试。

四、体会

明确的目标和数据结构:代码的目标是处理邮件数据集,并使用不同的分类器进行训练和评估。首先,需要确保你理解数据集的结构和格式,以及你希望从数据集中提取什么信息。在上述例子中,邮件文本被读取并转换为TF-IDF特征向量,这是文本分类中常见的预处理步骤。

预处理的重要性:文本数据通常需要预处理才能被机器学习模型有效使用。在上述例子中,使用了TfidfVectorizer来将文本转换为数值特征向量。预处理步骤还包括忽略读取文件时可能出现的编码错误,这可通过errors='ignore'参数实现。

模型选择和参数调整:选择了三种不同的分类器(朴素贝叶斯、决策树和多层神经网络)来比较它们的性能。每种分类器都有其独特的优点和适用场景。此外,对于多层神经网络(MLP),调整了隐藏层的大小、迭代次数、正则化强度等参数,以优化模型的性能。

评估的重要性:在训练模型后,使用测试集来评估模型的性能是至关重要的。这有助于了解模型在未见过数据上的表现,并可以指导进一步的模型选择和参数调整。在上述例子中,使用了准确率、分类报告和F1分数等评估指标。

迭代和改进:机器学习是一个迭代的过程,可能需要多次尝试不同的模型和参数设置才能找到最佳解决方案。此外,还可以考虑使用更复杂的特征提取方法、集成学习方法或其他技术来进一步提高性能。

参考文献:

[1]韩雪.贝叶斯优化在垃圾邮件过滤中的应用研究.徐州工程学院学报(自然科学版),2023 (02)

[2]高秀艳,颜笑.基于Python语言和朴素贝叶斯算法的中文文本情感分类器设计与实现.科技传播,2024 ,16 (12).

[3]居银银.基于决策树和最佳特征选择的神经网络钓鱼网站检测研究.安徽大学硕士论文,2020年第07期.

[4]王鹿.基于贝叶斯分类的垃圾邮件过滤技术研究.上海工程技术大学硕士论文,2021年第04期.

[5]冯军军,李力.机器学习在垃圾邮件过滤中的实现.电脑知识与技术,2021 ,17 (08).

作者简介:

樊攀,男,2004年10月生,安徽临泉人,太原理工大学计算机科学与技术学院(大数据学院),研究方向:人工智能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-26 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

中国科学院在分组加密算法的差分密码分析方面取得进展
...ock),使用对称密钥对每组分别加密或解密,广泛应用于电子邮件加密、银行交易转账等多个领域。作为极其重要的加密协议组成
2023-12-04 11:46:00
呼叫中心线路简介
...业可以考虑提供多样化的通信方式,如电话、在线聊天、电子邮件等。这样可以确保客户能够以自己喜欢和方便的方式与企业进行沟通。4.实施智能化呼叫路由智能化呼叫路由是一种通过算法和数
2024-06-14 23:03:00
储能之光,因你璀璨,弘正“职”等你来
....(C/C++/QT)软件开发工程师2.嵌入式软件开发工程师3.大数据算法工程师4.大数据开发工程师5.Java开发工程师6
2024-03-21 11:30:00
这个618,你买了什么电子产品? | 钛短评第35期
...次共带来五项升级,包括基于芯片算力和自研的空间感知算法、EIS电子防抖算法。XREAL Beam实现了“AR空间屏”
2023-06-20 10:00:00
武汉一亿游网络科技有限公司 建立高效的客服团队 实施数据分析
...和技术支持的重要来源。建立反馈渠道,例如在线表单、电子邮件或社交媒体,以便用户能够方便地提供意见、建议或报告问题。同时,及时响应用户反馈,并采取行动解决问题,以显示对用户的关
2023-07-05 20:52:00
四款简单实用、功能强大的文件防泄密软件
...ionforDLP功能特点:它整合了全面的数据保护策略,覆盖了电子邮件、Web、云存储等多种通信渠道。该软件通过集成的数据分类、策略管理和监控功能,帮助企业实现数据安全合规性
2024-09-22 04:29:00
...hatGPT Enterprise,它可以执行与ChatGPT相同的任务,例如编写电子邮件、起草文稿和调试计算机代码
2023-08-30 14:12:00
苹果手机如何关闭监听、监控?
...功能,它可以通过这些app收集你的信息,包括ID、姓名、电子邮件、资产等,从而对你投放定向广告、监测你的当前状态,向数据代理商共享你的信息。三、使用蝙蝠 在苹果商店/应用市
2024-04-13 00:41:00
安全与智能双加持,Coremail XT6解锁高效办公密码
...ail可提供第三方反病毒引擎,支持双引擎同时高效运行在电子邮件系统前端。同时采用最先进的safe-browsing引擎技术对钓鱼邮件进行过滤
2025-04-22 17:45:00
更多关于科技的资讯:
技术赋能与文化活化双轮驱动— 沉浸式交互动漫人工智能创作高研班精彩不断
当数字技术遇上传统文化,会碰撞出怎样的创作火花?截至11月30日,国家艺术基金2025年度资助的“沉浸式交互动漫人工智能创作高级人才培养”项目
2025-12-09 12:34:00
以创新叩响未来之门:“凯叔讲故事”荣获第五届未来视听创新大赛优秀奖
以创新叩响未来之门:“凯叔讲故事”荣获第五届未来视听创新大赛优秀奖近日,第五届未来视听创新大赛获奖名单在京正式揭晓。在这场由国家广播电视总局
2025-12-09 13:04:00
科技创新铸就发展引擎 东风汽车自主动力技术再攀新高峰
2025年岁末,中国汽车产业科技创新版图再添浓墨重彩的一笔。12月8日,东风汽车自研全新马赫1.5T混动发动机凭借48
2025-12-09 13:34:00
乌江榨菜登顶山姆“双榜第一”,终端销售额突破千万元大关
近日,『乌江x山姆』双拼组合装乌江爽脆涪陵榨菜在山姆会员商店交出亮眼成绩单。这款10月22日在全国上市的新品,仅用一个月时间便荣登山姆会员店新品热度榜TOP1与酱菜类热度榜TOP1
2025-12-09 13:34:00
聚焦健博会|17 项专利加持!长春本土 “康复黑科技”设备 “走进寻常百姓家”
9日,在2025长春国际医药健康产业博览会现场,展厅内人流如织,聚焦“医学、医药、医疗、医养”的展馆内,带来智能康复设备的吉林省微渺医疗科技有限公司
2025-12-09 13:47:00
租赁市场价格“退烧” 租个人形机器人从每天两万元降至数千元
人形机器人在活动现场“上岗”。 (受访者 供图)人形机器人在展会现场“接待”。(厦门日报记者 杨霞瑜 摄) 厦门网讯 (厦门日报记者 杨霞瑜)有机器人在学校运动会上岗当纪律员
2025-12-09 08:57:00
钉钉安全护航:祝贺“国产GPU第一股”摩尔线程成功上市
12月5日,钉钉客户摩尔线程智能科技(北京)股份有限公司(以下简称“摩尔线程”)正式在上海证券交易所科创板挂牌上市,成为“国产GPU第一股”
2025-12-09 09:53:00
RGB-MiniLED 电视哪款值得入手?重点关注这几点
面对市场上各式各样的RGB-MiniLED电视,如何挑选一台真正适合自己、能提升生活品质的型号?如果你正在纠结“哪款值得入手”
2025-12-09 10:05:00
RGB-MiniLED 电视选哪款?一文读懂RGB-MiniLED为何成为高端首选
当电视行业步入以RGB-MiniLED为关键词的高画质竞赛,甄别技术的真伪与深度成为选购第一步。真正的RGB-MiniLED
2025-12-09 10:01:00
炎黄盈动重磅发布企业级AI平台,全面加速企业AI价值落地
随着AI技术的飞速发展,企业正面临从技术试点到全面应用的关键转折点。技术加速:Gartner报告显示,当前AI智能体和AI就绪型数据发展最快
2025-12-08 11:12:00
路边放一台南迪售货机,打造全时段消费新主张
还在为寻找稳定、低风险的增收渠道而烦恼吗?将一台南迪自动售货机放置在路边,它不仅是24小时不休的“金牌销售”,更是能创造被动收入的坚实资产
2025-12-08 13:35:00
人人租亮相2025中国企业家博鳌论坛平行论坛-创新探索、生态共筑
十年博鳌潮海阔,百舸争流共进发。12月2日至5日,2025企业家博鳌论坛系列活动在海南博鳌举办。围绕“链接全球,引领未来
2025-12-08 13:39:00
鲁网12月8日讯在制造业转型升级与企业全球化布局的双重浪潮中,科技型小微企业正成为激活新质生产力的重要引擎。近日,兴业银行济南分行精准对接企业需求
2025-12-08 14:14:00
布鲁可携丰富产品矩阵首次亮相巴西圣保罗动漫展览会,圣斗士星矢系列新品全球首发
12 月 4 日至 7 日,巴西圣保罗动漫展览会(Comic Con Experience)正式举行,作为世界领先的以漫画
2025-12-08 14:56:00
廊坊开发区新增一家省级工业设计中心
河北新闻网讯(杨自立)近日,河北省工业和信息化厅公示2026年河北省工业设计拟支持项目名单,廊坊华安汽车装备有限公司工业设计中心成功入选省级工业设计中心
2025-12-08 15:00:00