期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

耿焕同陈少军《安徽师范大学学报(自然科学版)》2005,28(1):27-30

提出了一种利用传统向量空间模型VSM(Vector Space Model)和词共现概念共同表示文档特征的新方法,并将该方法应用于基于平面划分的中文文本聚类中.通过实验,表明基于传统VSM和词共现概念的文本聚类方法与传统的单纯基于相似文献

2.

阚洳沂唐雁《西南师范大学学报(自然科学版)》2008,33(2):119-122

在分析现有关键字提取算法的基础上,提出了一个基于词语网络的英文文档关键字提取算法,采用节点删除指标度量节点(词语)重要性.所提取的关键字不仅包括高频单词和短语,而且包括文档中的重要但出现频率不高的单词和短语.对比实验结果证明了该算法的有效性. 相似文献

3.

基于最大熵的文本分类算法的改进

贺兴时杨成成《西安石油大学学报(自然科学版)》2009,24(6)

基于最大熵模型的文本分类算法对不同测试文档的训练结果相差较大.利用Boosting机制改进基于最大熵模型的分类算法,以提高该分类算法的稳定性.实验结果表明,该改进方法可以有效改善基于最大熵模型分类算法的稳定性,且分类精度也有一定的提高. 相似文献

4.

结构化P2P网络中关键字搜索算法

黄庆凤李之棠陆垂伟《华中科技大学学报(自然科学版)》2008,36(12):16-19

为了解决分布式哈希表(DHT)不支持模糊匹配和查找延迟长等问题,提出使用改进的超立方体互连圈结构建立逻辑的关键字搜索层.对于给定的文档和描述该文档的关键字集合,使用反向文档索引(IDF)技术选择文档的重要关键字,并映射到环标号,将描述文档的关键字集映射到立方体标号,有效地提取了关键字对于文档的重要性信息,并通过构造生成树来实施搜索操作.实验结果表明,与使用超立方体结构作为关键字搜索层的算法相比,该算法在查询关键字较少时,具有更好的性能. 相似文献

5.

结合受控词汇表的生物基因本体标注与分类

崔舒宁朱丹军冯博琴昂正全《西安交通大学学报》2008,42(2):171-174

通过研究有关基因的生物学文献特征,提出了一种能对生物基因文献进行自动标注与分类的方法.在 K 最邻近算法的基础上,采用了 Chi-Square 特征选择方案,并且在加权算法中突出了Chi-Square 的选择特点.另外,采用文档逻辑分块法,将额外的生物受控词汇表中的信息所形成的向量直接引入到了分类算法中,以提高分类和标注的效果.实验表明,所提算法优于常用的单词频率/逆文档频率加权方法,其在文本检索大会(TREC)数据集上的分类、标注效果分别比 TREC 公布的最好结果提高了3.14%和4.12%. 相似文献

6.

基于Apriori算法的车辆检测相似重复记录消除方法

安相璧杜艾永李树珉《天津大学学报(自然科学与工程技术版)》2010,(7)

为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似记录.在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值. 相似文献

7.

基于民歌歌词的情感分类研究与实现概述

张婷曹晖《西北民族学院学报》2018,(3):81-84

民歌的情感分类问题,是民歌研究工作中的一个重要环节.根据民歌歌词特点,采用情感词典匹配方法与机器学习分类算法相结合,先构建民歌语料库,再利用VSM将文档映射为特征向量,最后应用支持向量机(SVM)进行情感分类. 相似文献

8.

基于共现词语的特征选取在文本分类中的研究

张楠丁华福《科技资讯》2006,(35):131-132

在文本分类中,分别选用了共现词语和单一词语作为文本的特征,并在向量空间模型和最邻近法中分别进行了测试,证明了用共现词语作为特征对文本分类是非常有效的. 相似文献

9.

基于预训练模型和图神经网络的藏文文本分类研究

胥桂仙刘兰寅张廷董玉双《东北师大学报(自然科学版)》2023,(1):52-64

在少数民族语言信息处理领域，由于文本分类标注数据的稀缺，相关研究工作进展缓慢.为了充分利用有限的标注数据，更有效地挖掘出文本之间的关系，本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层，得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验，分类准确率达到73.51%,远优于其他基线模型；同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明，该文提出的模型能够结合预训练词向量和图神经网络的优势，显著提高藏文文本分类的准确率. 相似文献

10.

基于频繁2-项集的贝叶斯分类器

王东熊世桓向程冠靳宁《兰州理工大学学报》2013,39(4):99-104

针对NB分类方法中过于严格的独立性假设,应用频繁2-项集为分类测度,通过放宽独立性假设达到改善分类性能的目的.在训练阶段使用类似Apriori关联规则发现算法挖掘并建立频繁2-项集库,当测试新文档时,文档特征通过竞争搭配生成基于测试文档的频繁2-项集序列,优先选择类词频率和置信度综合评分最高的频繁2-项集进入概率估算过程,并用频繁2-项集的综合评分置换NB的单项特征概率估计.在不同数据集的实验中显示,基于频繁2-项集的贝叶斯分类器(TIB)的分类精度整体上好于NB分类器,是一种有效的分类方法. 相似文献