首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于量化同义词关系的改进特征词提取方法   总被引:1,自引:0,他引:1  
提出一种基于量化同义词关系的改进的TF-IDF文本特征词提取方法.该方法将在同一文本中出现的某个词的同义词做为一个集合,在传统TF-IDF方法计算的词语权重的基础上对同义词集合中的词语及其相关词进行权重调整,通过相似度对同义词集合中的词语进行了合并加权.实验证明该方法对文本中的同义词及其相关词进行了有效处理,提高了文本特征词提取的准确性.  相似文献   

2.
关键词在自然语言处理的各个领域有着十分重要的意义.对于中文自然语言处理,一词多义和多词一义问题始终是困扰研究人员的一个重大难题.传统的一些基于统计的方法,诸如KEA只是机械地统计了词频,而没有考虑词之间的关系.文中提出了一种基于同义词的中文关键词提取方法SKEA,并建立一阶隐马尔可夫模型进行词义消歧,将文本从稀疏的词空间映射到语义空间,从而实现了文本的降维.同时改进了KEA的位置权重公式,并提出新的关键词特征选取项.最后对SKEA方法和KEA方法进行比较实验,证明SKEA是一种更优秀的中文关键词提取方法.  相似文献   

3.
科技文献资料之间的相似度计算可以帮助人们从中挖掘更多的科学知识。但是科技文献资料中的复杂的同义词关系却明显地影响了相似度的准确性。尤其在计算生物医学科技资料时其准确度常常受到领域专业词汇的影响而降低。因此本文提出了一种基于TF-IDF方法结合生物医学同义词的文本相似度计算方法。该方法首先识别生物医学专业词汇及其同义词关系并建立同义词库,之后根据同义词权重规则修改TF-IDF中更能体现文本特征的权重值,最后计算文本的相似度。实验表明该方法有效提高了生物医学文本相似度计算的稳定性和准确度,是一种相较于传统TF-IDF更为有效的文本相似性计算法。  相似文献   

4.
一种改进的基于同义词替换的中文文本信息隐藏方法   总被引:2,自引:0,他引:2  
通过深入分析当前针对中文的基于同义词替换的自然语言信息隐藏算法,发现由于存在大量不完全可替换的同义词词组,经过同义词替换后可能会破坏句子的语义一致性,针对这一缺点,提出了一种改进的基于同义词替换的中文文本信息隐藏算法,该算法利用知网对同义词词组进行分类,对于不完全可替换的同义词词组,通过依存句法分析来获取同义词的上下文搭配词语,根据搭配词语判断是否进行替换,实验结果表明,该算法能有效地排除错误的同义词替换,替换的准确率达到89.1%。  相似文献   

5.
特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.  相似文献   

6.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

7.
基于同义词词林的词语相似度计算方法   总被引:6,自引:0,他引:6  
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于“知网”的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。  相似文献   

8.
将经典的PageRank算法和汉明距离相似度算法结合,提出一种新的网页排序方法。通过结合汉明距离(Hamming distance)相似度算法,计算检索词和网页文本相似度,提高搜索查准率;在增加检索词的同义词的搜索过程中,通过改进汉明距离相似度算法,提高搜索查全率。实验结果表明,该方法与PageRank算法相比,拥有了更好的效果。  相似文献   

9.
英语吸收了大量的词汇,因此,存在各种各样的同义词,,了解各种同义词可以使我们清楚在某一上下文中该使用哪个词语,,各同义词之间是否可替换,它们之间有何区别,这样,语言的使用者可更有效地表达自己,使得交流更成功。  相似文献   

10.
多策略同义词获取方法研究   总被引:1,自引:0,他引:1  
提出一种多策略同义词获取方法, 一方面利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词, 另一方面根据百度百科信息框(Bdbk)中特征词和汉典网(Zdic)中HTML标记获取同义词, 同时采用DIPRE自动获取模式的方法, 从百度百科文本中发现置信度较高的模式和同义关系。实验结果表明, 所提方法在NLP&CC 2012同义词评测数据集中取得较好结果。利用该方法, 以《现代汉语语法信息词典》名词部分为目标, 构建一部同义词词典并进行人工校对, 为《现代汉语语法信息词典》构建较为完善的语义关系体系做出尝试。  相似文献   

11.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

12.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

13.
基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信息并提升文本分类效果,提出了一种结合词性信息的中文文本分类方法,其能够方便地从词语及其词性中学习隐式特征信息。利用开源数据并设计一系列对比实验用于验证方法的有效性。实验结果表明,结合词性信息的基于注意力机制的双向LSTM模型,在中文文本分类方面的分类效果优于常见的一些算法。因此识别文本的类别不仅与词语语义信息高度相关,而且与词语的词性信息有很大关系。  相似文献   

14.
针对汉语自动分词后词条的特征信息缺失的问题,本文提出把整个分词过程分解为三个子过程,以词串为分词单位对文本进行分词:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的特征信息更丰富,改善了文本特征选择的效果,提高了文本分类性能。  相似文献   

15.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

16.
词切分是像汉语这类非拉丁语言的一个特有问题,并且由于汉语组词中普遍存在着岐义性和语境依赖性,这一问题也是一个尚未得到彻底解决的难题。本文通过仔细分析汉语分词岐义的规律,将追求整体最优效果的松驰算法引入到汉语自动分词的排岐研究中。借助于语词之间搭配关系等上下文约束条件以及词频、字频等统计数据,构造了一种汉语分词排岐的新方法。实验结果表明,这种方法在切分精度和切分速度上都取得了较好的效果,为解决汉语自动分词难题提供了一种新途径。  相似文献   

17.
现代汉语中有些词是以修辞方式造出的,它们形象生动,在表达词汇概念意义的同时,更鲜明地表达出词汇的色彩意义,增强了语言的抒情性和表意性,能给人留下深刻印象,是汉字表意体系的很好体现。如何有效规范这些词在结构、语义、语用方面的问题,使它们更好地被人们理解、接受,是我们要深入研究的。同时,我们看到,修辞不仅是一种提高语言表达效果的手段,也是一种重要的造词方式,是与词汇系统的发展相适应的。  相似文献   

18.
一种基于词共现图的文档主题词自动抽取方法   总被引:11,自引:0,他引:11  
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题.  相似文献   

19.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

20.
可及性是认识主体达到某一指称对象的难易程度。英汉指称形式存在共性,也有以下显著差异:英语中的代词和汉语中的零代词具有相同的可及性,而且汉语中处于主题位置上的代词和指示词语也具有高可及性;英语中的指示代词主要出现在中距离篇章语境中,是中可及性标示语,汉语中的中可及性标示语通常由宾语位置上的代词和指示词语充当;英汉语中,专有名词和有定描述语尽管同属于低可及性标示语,但仍存在差异。上述各方面差异,给英汉互译造成障碍,可通过分析其异质性表现来探索互译策略。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号