共查询到20条相似文献,搜索用时 15 毫秒
1.
基于同义词词林的中文文本主题词提取 总被引:3,自引:0,他引:3
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本 相似文献
2.
特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度. 相似文献
3.
基于同义词词林的词语相似度计算方法 总被引:6,自引:0,他引:6
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于“知网”的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。 相似文献
4.
基于量化同义词关系的改进特征词提取方法 总被引:1,自引:0,他引:1
提出一种基于量化同义词关系的改进的TF-IDF文本特征词提取方法.该方法将在同一文本中出现的某个词的同义词做为一个集合,在传统TF-IDF方法计算的词语权重的基础上对同义词集合中的词语及其相关词进行权重调整,通过相似度对同义词集合中的词语进行了合并加权.实验证明该方法对文本中的同义词及其相关词进行了有效处理,提高了文本特征词提取的准确性. 相似文献
5.
袁晓峰 《成都大学学报(自然科学版)》2012,31(4):367-369
考虑到文档中出现频率较高的词语能够体现文档的主题,设计了一种中文文档主题抽取算法.该算法首先对目标文档进行预处理,然后计算文档中每个词语的出现频率,用出现频率最高的几个词语作为文档的主题.其中,将词语间的相关度作为计算出现频率的参考因素.词语相关度的计算是基于中文知识库《知网》的方法.实验证明,本算法具有较高的准确性. 相似文献
6.
一种改进的基于同义词替换的中文文本信息隐藏方法 总被引:2,自引:0,他引:2
通过深入分析当前针对中文的基于同义词替换的自然语言信息隐藏算法,发现由于存在大量不完全可替换的同义词词组,经过同义词替换后可能会破坏句子的语义一致性,针对这一缺点,提出了一种改进的基于同义词替换的中文文本信息隐藏算法,该算法利用知网对同义词词组进行分类,对于不完全可替换的同义词词组,通过依存句法分析来获取同义词的上下文搭配词语,根据搭配词语判断是否进行替换,实验结果表明,该算法能有效地排除错误的同义词替换,替换的准确率达到89.1%。 相似文献
7.
在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。 相似文献
8.
基于《知网》的词语相似度计算研究 总被引:2,自引:0,他引:2
袁晓峰 《成都大学学报(自然科学版)》2011,30(4):339-341
词语之间相似度的计算通常有基于统计和基于世界知识2种方法.中文词语相似度的计算,可以通过计算义原的相似度进而计算词语的相似度,在此基础之上深入分析《知网》的义原层次体系,提出了一种将义原在层次体系树上的深度和区域密度2个因素添加到义原相似度计算中的方法.通过实验发现,考虑义原在层次体系树上的深度和区域密度得到的结果比不考虑这2个因素得到结果更符合实际. 相似文献
9.
袁晓峰 《成都大学学报(自然科学版)》2014,33(3):251-253
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率. 相似文献
10.
知网(英文名称HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,本论文以知网中的知识词典为资源,以两篇真实文本为示例,研究基于知网的文本标注,以探讨知网知识在中文信息处理中的作用。 相似文献
11.
《云南大学学报(自然科学版)》2011,33(Z2):33-36
以中国知网2005年1月到2009年12月的网络传播统计为基础,定量分析了《地震研究》期刊的网络传播情况,为期刊的进一步发展提供依据和建议. 相似文献
12.
基于决策树的关键短语抽取 总被引:1,自引:0,他引:1
针对关键短语抽取工作可以转化为某种分类问题,利用决策树构造分类器解决关键短语的抽取。统计分析表明,将文档中词的词频因子、首位置和词性作为决策树分类特征,并考虑词在文档中出现的位置信息,对词的特征值进行一定的调整,采用Bagging重采样技术进一步提高了决策树的抽取性能,使其完全匹配和部分匹配的F_检测率分别达到21.50%和54.49%。 相似文献
13.
袁晓峰 《辽宁大学学报(自然科学版)》2011,38(4):358-361
词语之间相似度的计算广泛应用于信息检索、文本主题抽取、文本分类、机器翻译等研究领域.词语之间的相似度的计算通常有两方法,基于统计的方法和基于世界知识的方法.对于中文的词语相似度计算,有人提出一种利用《知网》计算词语相似度的方法,该方法通过计算《知网》义原的相似度进而计算词语的相似度,但是该方法在计算义原相似度时没有考虑义原在层次体系树上的深度以及区域密度.在此基础之上深入研究《知网》的义原层次体系,将义原在层次体系树上的深度和区域密度两个因素添加到义原相似度计算中.最后,实现了该计算方法并得到实验结果,将实验结果与改进前的计算方法的结果比较,发现考虑义原在层次体系树上的深度和区域密度得到的结果比不考虑这两个因素得到结果更符合实际. 相似文献
14.
本文首先从网页文档中抽取出关键词建立用户模型,然后从语义的角度出发,基于"知网"进行词语相似度计算,进而判定搜索引擎返回的网页与用户模型的相似度从而达到过滤信息的目的。实验表明,系统比传统的利用向量空间模型进行信息过滤具有更好的精度。 相似文献
15.
基于统计的中文关键短语自动抽取 总被引:1,自引:0,他引:1
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为Ⅳ元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure25%;TOP10精确率17.10%,召回率44.50%,F-measure30.80%。 相似文献
16.
赵岩 《大庆师范学院学报》2008,28(1):91-94
《左传》中共有名词性军事同义词20组,计66个词。研究名词性军事同义词应注意区分上下位词与同义词,注意古今认知范畴的不同,注意区分通假字、古今字、方言词与同义词等问题。 相似文献
17.
在藏语单句的层面上,通过时长参数的统计分析,对韵律词和韵律短语两层韵律单元的时长特征进行了研究.研究结果确定了藏语韵律词和韵律短语的基本大小,韵律词为4±2个音节,韵律短语为6±3个音节;藏语韵律单元的总体时长分布差异较大,但不同韵律单元的时长伸缩幅度差异较小.藏语韵律单元的时长分布类型以尾长型为主;韵律单元边界处普遍具有边界前音节延长,边界后音节缩短现象的特征. 相似文献
18.
基于知网的关系网络的构建 总被引:1,自引:0,他引:1
为了更好地利用知网中的语义关系,提出了一种将知网中的各种隐含关系形式化表示的方法.该方法通过仔细分析知网中关系标知符、动态角色以及例句所描述的各种语义关系,以概念、特征、关系为基础,构建了一基于知网的关系网络.利用该关系网络,既可以高效地查找到词语的概念与概念之间的语义关系,也可以查找到概念的属性之间的语义关系.给出了该方法的实现算法,并用实例说明了该方法的优点. 相似文献
19.
《花间集》是我国文学史上第一部文人词总集,共收录了晚唐五代18位词人的500首词作。《花间集》中有大量的描写妇女身体发肤、容貌情态的词语,姑且名之为体貌词。就形式来说,《花间集》体貌词包括词、短语两类。依据短语层次的不同,体貌短语可以分为简单短语和复杂短语两种类型,又可以从结构类型、文学修辞等角度进行研究分析。 相似文献
20.
田美娥 《西安石油大学学报(自然科学版)》2010,25(6)
依据中国知网"中国学术期刊评价统计分析平台"提供的数据,对《西安石油大学学报(自然科学版)》的网络传播情况进行定量分析,为其今后的发展提供理论依据.2005—2009年《西安石油大学学报(自然科学版)》的总下载量为255238次,总体呈逐年递增趋势.主要读者群在中国大陆高校,在同类石油高校受到关注.从学科传播情况看,工程科技Ⅰ辑、基础科学及信息科技3个一级学科的下载量占总下载量的95.92%,浏览量占总浏览量的95.65%.从二级学科看,石油天然气工业、地质学、计算机软件及计算机应用下载量和浏览量所占比重较大. 相似文献