首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
中文停用词表的自动选取   总被引:11,自引:0,他引:11  
通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理.  相似文献   

2.
为解决禁毒情报分析中缺乏对文本信息处理和利用的有效手段的问题,提供一种基于禁毒情报相似度计算的中文文本算法。结合禁毒领域的业务需求,对禁毒情报相似度进行计算分析;对统计分词方法进行改进,首先分词后进行停用词处理,然后用户可以自定义词典的同时自定义词性,最后通过正则表达式提取案发时间等信息。还手动扩充了用户词典,加入了物品库,地址库等,分词的结果有了很高的提升;用涉毒案件作为实例计算相似度,证明了本算法的可用性,符合预期的效果,这为禁毒情报线索、警情及案事件等各类线索的碰撞、多点聚焦以便及时发现有价值的涉毒线索从而达到提前预警的目的建立了基础。  相似文献   

3.
基于语音信号短时平稳性以及语音信号和噪声的统计模型,提出了一种语音信号有声/无声的检测方法。该方法可对所有语音短时帧更新噪声参数的估值,因而提高了检测的准确性,根据噪声参数以及语音和噪声的统计特性定义了似然比,确定了有声/无声的判别准则,研究了判别阈值、平滑因子等参数以及缓变非平稳背景噪声对检测结果的影响。实验结果表明,即使背景噪声具有缓变特性,利用该方法仍可得到良好的检测结果。对不同的应用,在检测过程中判别阈值的选取应结合平滑因子进行必要的优化。  相似文献   

4.
大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。  相似文献   

5.
言语风格统计学试说   总被引:1,自引:0,他引:1  
一现代语言学发展中的卓越成就之一,就是在信息时代里,把数理统计的方法引入传统的语言学学科领域,用现代化的手段电子计算机进行概率统计研究,从而开拓出一片新的视野,了解了旧时代语言学所不能观察  相似文献   

6.
本文采用语料库语言学方法对《孙子兵法》的林戊荪英译本和John Minford英译本进行对比分析,利用语料库检索分析软件wordsmith对两个英译本的类符、形符和高频词汇等基本数据进行统计和量化分析,了解中外译者在翻译过程中对词汇广度和难度选择上的不同,以期对军事院校选取英译本教材提供借鉴意义。  相似文献   

7.
刘香 《科技信息》2010,(36):142-142
本文对近五年(2005-2009)国内语言学视角下的翻译研究进行了统计和调查,并追溯了各语言学流派在翻译研究中的引入,试图厘清语言学视角下翻译研究的焦点,现状及未来走向。  相似文献   

8.
作为语言学与计算机科学结合的产物,计算语言学主要是指利用计算工具、手段和方法所进行的语言研究,通常可以从两个不同的角度来看待.第一个是语言学家的,可以称之为广义的计算语言学,主要是指语言学家在从事语言学及各分支领域的研究工作中,引入了计算工具、手段和方法.比如采用计算机来对研究材料和数据进行分析、统计,对语言现象和规律进行计算机模拟、实验,以及将计算机用作语言知识(辅助)发现的工具等等都是属于这方面的研究.很明显,由于采用了先进的计算工具和手段,这样的研究无疑对促进语言学及各分支领域的研究发展起着不可低估的重要作用.  相似文献   

9.
在分析对联创作规则的基础上,结合计算语言学相关知识,采用HMM模型进行语料库训练,得出相关的概率统计信息;使用N-gram模型进行联语预测,实现了对联自动应答系统.结果表明,系统在一定程度上可以进行对联辅助创作.  相似文献   

10.
超素数法长周期伪随机数发生器的应用算法   总被引:4,自引:0,他引:4  
在超素数用于生成伪随机数的基础上,结合素数性质以及算法技巧,给出一种优选乘子的超素数伪随机数法和一种更长周期的伪随机数生成方法,这两种方法都有更理想的统计性能。超素数方法的周期是M-1,而长周期方法的周期为M(M-1)。统计结果表明,新方法具有良好的统计特性,文中一并给出了计算方法和数值示例。  相似文献   

11.
针对消费者网上购物时选择商品的用户体验不足等问题,设计了产品评论情感倾向性分类系统。系统首先对评论进行了分词,然后根据停用词表去停用词,分别采用CHI、IG进行特征选择,最后比较了使用不同的特征选择算法对文本情感分类结果产生的影响。系统采用了Java Web相关技术实现了可视化,并对产品评论的分类过程进行了展示。实验结果表明,有效的特征选择方法有助于提升推荐系统的性能。  相似文献   

12.
传统的互信息特征选择方法受边缘概率的影响较大, 可能产生稀有词的概率评估分高于常用词的评估分, 从而导致倾向于选择低频词条的现象。为此,在分析了几种传统的特征提取方法基础上, 通过引入分散度及平均词频两个参数, 将互信息方法与特征的词频相关联, 从而使互信息的分类更加准确。实验结果表明, 该方法使分类效果更好。  相似文献   

13.
有效的交通组织是成功举办各类大型活动的关键因素之一,而地面公交的组织是大型活动交通组织的一项重要内容。本文运用VISSIM和Legion微观交通仿真软件的功能,以北京奥运会工人体育馆的地面公交组织为案例进行了仿真研究。通过仿真分析,发现了观众到达站台的时间过于集中和公交车辆进出站相互干扰的问题,提出了适当增加观众的步行距离,扩建公交站台的改进措施。通过对改进措施的仿真,结果表明,本文提出的改进措施可以有效的提高公交车辆的运行效率和行人交通的服务水平。  相似文献   

14.
网络信息过滤中的固定文章集表达方法   总被引:11,自引:0,他引:11  
为解决在信息过滤(inform ation filtering)中表达用户的信息需求困难的问题,提出了一种新方法——固定文章集法(fixed docum entset, F D S)。在这种方法中,用户可以通过评价一些专门选择的文章来表达自己的信息需求。这避免了用户选择关键词的困难,扩大了用户信息需求表达的空间,同时可以应用于处理多语种信息过滤和社会化过滤问题。选择固定文章集使用选择文章基因法(selectdocum ent'sgene, S D G),实验证明, S D G 的性能较其它方法有明显优势  相似文献   

15.
论述了学术论文中关键词的含义、作用和选取方法,指出了关键词标引中的常见问题。  相似文献   

16.
联系查询旨在查找不同实体之间的相互联系.目前,联系查询并不能快速准确找到实体间的真正联系.为解决此问题,提出了基于混合文档频率(mDF)的关系查询新方法,主要包括:(1) 分析传统联系查询的不足;(2) 提出基于mDF的联系查询算法,有效提升了真正连接词的排序;(3) 做了翔实的实验,表明新的联系查询方法在最坏情况下较传统词权度量方法在连接词质量上平均提高了18.78%,在停止词删除时准确性提高了19.2%.  相似文献   

17.
英语词汇的缺乏、难以有效地牢记英语生词,对于学生来说,一直都是一个难题,这也进一步影响了他们的英语学习,成为英语学习的一大障碍。在公共英语教学过程中,词汇教学占有重要地位。教师应该了解学生的词汇学习现状,多种教学策略并用,借鉴先进的理论,使用恰当的教学方法,帮助学生提高词汇学习效率及词汇习得效果,从而提高学生的语言运用能力。  相似文献   

18.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

19.
基于目标语统计的译文选择的研究   总被引:1,自引:0,他引:1  
译文选择是词义消歧研究在机器翻译中的分支.本文介绍了基于目标语统计的译文选择的原理,并以英汉机器翻译中汉语译文的选择为例,详细讨论了基于目标语统计的方法的实现.通过对词典译文的处理得到统计数据.为适应实用化系统的要求,统计数据进行压缩,并采用特殊的检索算法.提出了多项式级的逐步渗透译文选择算法,实验结果表明,该算法可以将译文选择正确率提高10%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号