首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对电子商务网络消费的文本信息挖掘问题,构建了一个基于多属性决策理论的挖掘方法.首先设置指标集合和方案集合,进而根据这2个集合生成决策矩阵,再根据分项属性指标的归一化处理、权重配置,最终形成基于决策判断的文本挖掘.实验结果表明,LG品牌电视在显示属性方面更优,SONY品牌电视具有综合优势,长虹品牌电视也有自己的优势所在.  相似文献   

2.
为更好地解决大数据集多实例、多属性、多分类给数据挖掘带来的困难,构建了一种基于CS约简和FGR决策的挖掘方法,首先寻找原始数据集合的核心实例,根据核心实例去除数据集合中的冗余,再采用FGR决策完成分类挖掘任务,通过与两种典型方法的比较实验发现,所构建的方法可以有效地压缩数据集合规模、精简挖掘过程的规则,以较高的效率完成准确的挖掘分类.  相似文献   

3.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

4.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

5.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

6.
针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域...  相似文献   

7.
基于LSI和Rough集的文本分类研究   总被引:2,自引:0,他引:2  
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

8.
传统线上文本挖掘方法在克服相似性干扰时,需要加入大量约束条件,降低了挖掘准确率。为此,本文提出基于LDA模型和语义网络的线上文本挖掘方法。采用滤波处理法对线上文本信息进行滤波处理,获得线上文本的抗干扰向量,提取线上文本信息的频谱特征。利用语义网络构建线上文本的语义网络挖掘模型,计算线上文本挖掘信息的相似度。基于LDA模型对获取的线上文本阈值进行分类,得到线上文本挖掘权值,将挖掘到的关系词带入到概念属性内,实现线上文本的挖掘。实验结果表明,基于LDA模型和语义网络的线上文本挖掘方法不仅可以提高挖掘精度,还具有更强的收敛性。  相似文献   

9.
在总结常用特征集合的基础上,根据微博文本的特点以及特征选取原则,选取了适合微博文本体裁分析的特征集合,这些特征能典型的反应微博文本和其他文本形式的区别.还分别对不同的文本体裁进行特征值的统计,并将统计结果在不同的文本体裁之间进行了深入的对比分析,并从体裁的角度分析出不同文本体裁的特征值差别的原因.并从体裁特征的角度说明微博文本是一种新的体裁文本.  相似文献   

10.
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

11.
Internet的高速增长同时带动了信息的高速增长,这些信息基本是以文本形式保存的。文本信息的特点是无结构,即便有也是极其有限的结构。文本相似性是文本挖掘研究的一个重点也是一个难点。从文本特征得到文本相似性信息是本文的主要研究方向。本文采用了PHP+MYSQL的开发环境对文本相似性的计算过程进行了模拟。计算过程采用的是余弦相似度和Jaccard相似度这两种基于向量内积的方法。在实验过程中通过对文本特征的操作来判断文本之间是否相似,另外还实现了将文本转化为简单的字符串集合进行比较来判断文本是否相似的方法。  相似文献   

12.
在文本分类中,当两个多属性类别发生属性重叠时,采用传统的文本分类算法m acro F1值仅为45%左右.为了提高文本分类算法的m acro F1值,提出了基于结果修剪的方法.在该方法中,分类器由多个子分类器组成.每个子分类器对应于类别中的一个属性;在每一个阶段中,每一个子分类器将不属于该属性的文本剔出.当所有子分类器运行结束后,留下的文本即属于该分类的文本.实验数据表明,基于结果修剪的文本分类方法在解决属性重叠问题时能够将m acro F1值提高到65%左右.  相似文献   

13.
张晖  张艳 《科技信息》2007,(30):87-87
基于Web的文本挖掘是文本挖掘的一个重要的组成部分,本文对文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论。  相似文献   

14.
为满足用户对某一主题下科技政策扩散关系挖掘的分析需求,构建了科技政策扩散识别模型。通过从科技政策文本中提取组织结构相似性特征、语义结构相似性特征、关键词承继性特征及基于Doc2vec的文本相似性特征,实现多个特征的一体化处理;提出了基于识别模型评分的科技政策文本距离计算方法,根据政策间的文本距离与扩散概率的关系,寻找使扩散关系成立的最大文本距离,并将扩散经验值融入识别模型中,实现检索过程中科技政策扩散对和扩散集的自动计算和输出。实验结果表明,所构建的科技政策扩散识别框架能有效地提取出扩散集合。  相似文献   

15.
通过分析低压电器的故障,提出一种基于粗糙集理论的故障诊断方法。根据故障历史样本,确定样本的条件属性集合和相应决策属性集合。对条件属性集合进行约简,实现不确定数据的简化,得到相应的规则集合,并将其应用于低压电器常见故障的诊断。  相似文献   

16.
文本挖掘技术研究   总被引:28,自引:0,他引:28  
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.  相似文献   

17.
针对传统情感分析方法对微博短文本应用效果不佳的问题,提出将文本情感特征与深度学习模型融合的微博情感分析新机制.通过词向量计算文本的语义特征,结合基于表情字符的情感特征,利用卷积神经网络挖掘特征集合与情感标签间的深层次关联,训练情感分类器.实验结果表明,相比基于词典的机器学习模型,该机制将情感分析准确率与F度量分别相对提升21.29%和19.20%.该机制结合语义和情感特征,利用卷积神经网络的抽象特征提取能力,改善微博短文本的情感分析精度.  相似文献   

18.
文本分类是机器学习重要任务之一,如何对文本信息进行有效分类组织,对用户查找并获取有用信息具有重要作用.针对新闻文本分析,提出了一种基于集合运算特征提取及Stacking策略的新闻多分类方法,该方法基于集合运算的方法来提取文本特征,采用Stacking策略,使用SVM以及贝叶斯方法来对文本进行分类.与典型同类方法对比,在...  相似文献   

19.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

20.
为了进一步改进邻域分类器的分类机制,提升分类性能,提出Dempster-Shafer(D-S)证据理论驱动的邻域粗糙分类方法.首先,采用邻域决策错误率作为属性重要性的指标研究基于邻域决策错误率的属性约简方法,通过删除冗余属性,为分类学习提供重要的属性集合;其次,改变传统多数投票机制,将D-S证据理论引入邻域样本的信息融...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号