期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《科技信息》2008,(29)

随着计算机技术的发展,各个领域的信息层出不穷,使得文本分类显得十分重要。针对当前文本分类存在的不足,提出了基于本体的文本自动分类方法。该方法将文本自动分类技术与本体技术相结合,并提出只从提取每段首尾句中提取特征词的方法,提高了文本自动分类的效率。相似文献

2.

基于知网语义相似度计算的特征降维方法研究 总被引：9，自引：1，他引：8

唐歆瑜乐文忠李志成李军义《科学技术与工程》2006,6(21):3442-3446

针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能. 相似文献

3.

基于改进分类模型的文本分类系统实现 总被引：1，自引：0，他引：1

吕佳《重庆师范大学学报(自然科学版)》2009,26(2):79-83

提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的. 相似文献

4.

一种大规模Web文本的分类方法

王海艳曹攀《南京邮电大学学报(自然科学版)》2016,(4):60-67

文中针对大规模Web文本信息的结构与内容特征提出一种高效的Web文本分类方法。该方法主要包含3个模块:(1)针对Web长文本提出一种基于复杂网络的特征选择方法,网络中的节点对应于文本中的词条,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于k NN的SVM决策树分类方法,将支持向量机与k最近邻相结合,并构建决策树实现层次化分类;(3)对于短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。相似文献

5.

挖掘重要项集的关联文本分类 总被引：1，自引：0，他引：1

蔡金凤白清源《南京大学学报(自然科学版)》2011,(5):544-550

针对在关联规则分类算法的构造分类器阶段中只考虑特征词是否存在,忽略了文本特征权重的问题,基于关联规则的文本分类方法（ARC-BC）的基础上提出一种可以提高关联文本分类准确率的ISARC（ItemSet Significance-based ARC）算法.该算法利用特征项权重定义了k-项集重要度,通过挖掘重要项集来产生关... 相似文献

6.

基于多重假设检验市长公开电话文本的自动分类

郝立柱赵世舜郝立丽《吉林大学学报(理学版)》2008,46(6):1101-1104

提出一种基于多重假设检验的特征加权朴素贝叶斯分类算法, 该算法通过特征选择方法得到多个特征词集合, 再按多重假设检验错误率为每个特征词集合配以不同的权重系数并参与到分类器的构建中. 该方法已经应用到市长公开电话的文本分类中, 通过构建的3个特征加权朴素贝叶斯分类器实现了投诉文本的计算机自动分类, 且相对传统方法提高了分类器的效率和精度. 相似文献

7.

基于词向量嵌入特征扩展的学术报告分类

薛峰许剑东夏帅王东《合肥工业大学学报(自然科学版)》2019,42(11)

学术报告讲座的标题属于典型的超短文本,其固有的特征稀疏问题使得在利用传统的文本分类方法对其分类时效果不佳。为解决上述问题,文章基于词向量嵌入技术,对学术报告标题进行特征词扩展。通过控制特征扩展幅度和设置词间相似度阈值,使扩展的特征词与标题特征词的内容相关,并从词性角度进一步考虑词语相似性,过滤无关特征词。实验结果表明,该方法能够有效地提高对学术报告标题短文本的分类效果。相似文献

8.

基于规范文本的特征词提取技术研究

孙翔潘廷勇李祥秋赵永超崔曙光《太原科技》2012,(3):61-63

文本特征词提取是一种提炼文本重要信息的实用技术,同时也为文本聚类、自动分类、信息抽取等相关课题提供了技术支持。在规范文本上,利用文本篇章结构的特征,以此为基础设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,并对比分析了各种位置因子对系统的贡献度。相似文献

9.

基于特征词匹配的政策文本分类算法研究与实现

王丽鹏张鹏云和志强《河北省科学院学报》2017,34(3):1-6

在基于特征词遍历匹配的文本分类算法中,字符串匹配算法的选取及相似度阈值控制对文本分类结果起着决定性的作用。针对三种常用的字符串匹配算法做了分析及对比实验,选取了最适合政策文本分类的一种字符串匹配算法。并通过研究政策文本具有的特征提出了一种基于特征词加权的相似度阈值计算方法,经实验证明相似度阈值符合分类要求。相似文献

10.

基于人工标引的中文学术期刊文献自动分类算法 总被引：3，自引：0，他引：3

王洪贾惠波徐端颐《清华大学学报(自然科学版)》2002,42(6):787-790

为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率相似文献

11.

基于NDF和优化的ID3的特征选择方法

朱颢东钟勇《暨南大学学报(自然科学与医学版)》2010,31(1)

特征选择是文本分类中一个重要的课题.首先给出了一个新型文档频,然后把属性依赖度引入ID3并提出了一个基于优化ID3的属性约简算法,紧接着以此为基础,提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果证明该特征选择方法是有效的. 相似文献

12.

一种改进型TF-IDF文本聚类方法

张蕾姜宇孙莉《吉林大学学报(理学版)》2021,59(5):1199-1204

针对传统词频逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率. 相似文献

13.

基于TF-IDF与word2vec的台词文本分类研究

下载免费PDF全文

但宇豪黄继风杨琳高海《上海师范大学学报(自然科学版)》2020,49(1):89-95

为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 相似文献

14.

一种基于改进信息增益特征选择的最大熵模型文本分类方法

何明《西南师范大学学报(自然科学版)》2019,44(3):113-118

针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的. 相似文献

15.

带专业词库的特征选择

刘晓志黄厚宽尚文倩《北京交通大学学报(自然科学版)》2006,30(2):97-100

在经典特征选择算法的基础上,提出一种带专业词库的特征选择方法.在训练分类模型的时候,适当加重属于专业词汇的特征的权重.这种方法能够有效地避免特征选择时误删有用的低频词,因此,适合用于短文本的分类(电子邮件等).实验结果表明,本方法在抽取特征维数较少时,分类准确率提高约3%. 相似文献

16.

基于向量空间模型的中文网页主题特征项抽取

代宽赵辉韩冬宋天勇《吉林大学学报(信息科学版)》2014,32(1):88-94

为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。相似文献

17.

基于DF算法改进的文本聚类特征选择算法

樊东辉王治和陈建华许虎寅《甘肃联合大学学报(自然科学版)》2012,(1):51-54

通过研究文本特征选取中权重的计算问题,提出了一种利用特征词的熵函数加权的权值的计算方法,不但考察了特征词的文档频数,而且考察了它们在文档中出现的次数,使选出的特征子集更具有较好的代表性.实验表明,改进后的算法对聚类结果有了一定的改进. 相似文献

18.

基于特征域词频的邮件过滤方法的研究 总被引：1，自引：0，他引：1

刘慧马军雷景生连莉《山东大学学报(理学版)》2006,41(3):50-53

出了根据邮件特征域信息和特征词频进行垃圾邮件过滤的新方法，并介绍在该方法中的文本特征选取、特征词典构造以及基于TF的权值计算等相关技术，以及改进的文本相似度计算概率模型.实验表明该方法在邮件过滤的查全率、查准率等几个性能评价指标上，比传统的Rocchio方法有了明显改善. 相似文献

19.

结合ODF和辨识集的特征选择

朱颢东周姝钟勇《重庆邮电大学学报(自然科学版)》2010,22(1):94-98

在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率. 相似文献

20.

基于改进的向量空间模型的自动文本分类

任美睿郭龙江李金宝《哈尔滨商业大学学报(自然科学版)》2006,22(1):77-80

研究了基于向量空间模型的自动文本分类方法,提出了位置权和词的位置区分度的概念,给出了一个带有位置信息的词权重计算方法,并给出了基于该方法的文本分类算法.实验结果表明,该方法是有效的,提高了文本分类的精度. 相似文献