首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
文本分类被广泛地应用到搜索引擎、自动文摘、文本过滤、词义消歧、文档组织和网页层次分类等多个领域。文中介绍了经典的文本分类算法和新出现的文本分类模型,最后对今后的发展进行了展望。  相似文献   

2.
为了实现对大量的网络信息的正确分类以便使用户迅速获取所需信息,提出一种新的网页内容分类算法,该算法将遗传算法(GA)与支持向量机(SVM)结合起来,利用遗传算法良好的寻优能力优化SVM的分类性能。在由新闻网页文本构成的数据集上的仿真实验结果表明,GA和SVM融合的算法能够有效提高SVM的分类性能,新算法的分类正确率相比基本的SVM有非常显著的提高。由此证明,提出的基于GA的SVM改进算法是有效的,能够用于对大量网络信息的分类问题中。  相似文献   

3.
王月娥 《科技资讯》2023,(21):204-207
旨在研究数字化图书馆智能化分类方法,以期能够提升图书馆馆内资源利用效率。文中介绍了国内外数字化图书馆的分类方法,分析了机器学习、文本挖掘技术以及基于用户兴趣的智能化分类方法的应用。最后通过两个案例的分析,总结出智能化分类方法可以提高数字化图书馆馆内的资源利用效率,是未来图书馆建设的重要发展方向。  相似文献   

4.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

5.
为了实现网络信息审计系统中的实时网页分类,提出了一种基于Dempster-Shafer证据理论的分类新方法.其基本思路是:不进行IP分片包重组,直接将网页地址特征和分片数据包作为分类的证据,计算各个证据对类的支持度,然后利用Dempster证据组合规则将各种证据提供的信息进行不断地在线融合判决,并最终给出网页的分类结果.当已有证据可以对网页进行有效分类时,对后续数据包不再做进一步处理.实验结果表明,所提方法的查准率大于83%,查全率大于90%,在分类性能和运行时间上均优于已有的基于分片的模糊K最近邻分类算法.  相似文献   

6.
7.
基于机器学习的文本分类方法综述   总被引:1,自引:0,他引:1  
文本分类是信息检索与数据挖掘领域的核心技术,是机器学习领域新的研究热点。本文对现有的基于机器学习的文本分类方法进行了详细的介绍,分析了各种方法的优缺点,并阐述了文本分类方法未来的发展趋势。  相似文献   

8.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

9.
网页分类是使用机器学习算法实现网页类别的自动标注。提出了一种基于SVM的日文网页分类方法,针对日文的特点,设计日文词素词典与规则库,并以此为基础进行日文分词和特征表示,然后使用互信息度进行特征选择,最后应用SVM来构造分类超平面,对日文网页进行分类。最后通过实验进行了验证。  相似文献   

10.
基于Web内容挖掘的论坛发贴分类推荐技术   总被引:1,自引:0,他引:1  
随着Internet基础结构的不断扩大和其所含信息的持续增长,Internet用户感觉越来越容易在WWW服务中"资源迷向".目前提高用户使用效率的方法有页面预取技术、站点动态重构技术和Web个性化推荐技术等.因为网站的页面内容才是用户真正感兴趣的,本文应用了一种基于Web内容挖掘的文本分类技术来实现论坛中贴子的分类推荐...  相似文献   

11.
为了提高党政机关公文办理的自动化、科学化程度,尝试将业已成熟的汉语多类文本分类技术应用于机关公文办理系统中,并加入专家评估和反馈模块,使该系统具备"渐进式学习"的能力,将公文办理的经验积累在数据库中,不断提高输出结果的准确度.经过实验证实了文本分类技术在党政机关公文办理中的应用价值.  相似文献   

12.
计算文本相似度阈值的方法   总被引:8,自引:0,他引:8  
基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。  相似文献   

13.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

14.
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.  相似文献   

15.
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。  相似文献   

16.
将Web文本分类技术和Web使用记录挖掘技术应用于网站信息管理中,实现了网站对站内Web文本的快速自动分类以及对站内不同用户显示个性化布局的功能,显著提高了网站管理中处理大量信息的效率,增强了网站的个性化特征.  相似文献   

17.
搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器.  相似文献   

18.
随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点.Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识.本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高.最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号