首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于多种知识的盲文翻译的研究   总被引:1,自引:0,他引:1  
盲文到汉字的转换研究 ,分为盲文到拼音和拼音到汉字的转换研究。论文通过引入音码表 ,很好地解决了盲文到拼音转换中的歧义问题。对于拼音到汉字的转换 ,采用Markov模型 ,使用平滑算法解决此模型中的数据稀疏问题 ,并且对通常使用的字级别二元模型的平滑算法进行了改进以适应词级别二元模型。为每一个拼音句子建立一个拼音到汉字转换多部图 ,并在此转换多部图中使用 Viterbi算法搜索一条具有最大似然度的汉语句子 ,或使用 N - Best算法搜索具有头 N大似然度的 N个汉语句子。同时研究了从 1选到 N选的转换判据 ,以进行自动的 N - Best转换。实验表明 ,盲文到汉字转换系统的转换正确率为 94.38% ,若剔除专有名词 ,转换正确率还可上升 2个百分点。对 N - Best搜索算法的测试表明 5选正确率比 1选正确率提高了 3个百分点  相似文献   

2.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

3.
词类标注是自然语言理解中的的一个关键问题,是句法分析和语义分析的基础.本文分析了汉语的多类词现象.提出了在基于神经网络的词类标注方法的基础上,根据汉语的语法结构增加了规则的排歧处理阶段,增加了上下文词类信息的处理能力.实验表明:在原有神经网络方法的基础上,利用规则的方法进行修正,可以提高词性标注的正确率.  相似文献   

4.
针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.  相似文献   

5.
描述基于统计机器翻译的汉语到维吾尔语的一对一词对齐系统。系统进程分为两个模块:预处理和词字对齐。预处理过程,包括中文文本预处理和维吾尔语文本预处理过程:首先将维吾尔语通过专用工具转换为拉丁维文,然后将拉丁维吾尔语中的特殊文字转换成无歧义的字符。词对齐的实现过程:首先使用IBM模型1,其次利用IBM模型2,构建出一个词对齐系统。实验表明,该系统实现的词对齐比GIZA++中实现的正确率可以提高2.6个百分点。  相似文献   

6.
论述了采用统计模型进行汉语韵律层次结构分析和韵律建模的思路,将韵律结构划分为3个基本层级:韵律词,韵律短语和韵律短语群,提出了一种新的基于统计的韵律结构模型。实验表明该模型对韵律词边界的预测准确率和召回率分别达90.37%和92.48%:对韵律短语边界的预测准确率和召回率分别达82.43%和85.59%。同时,描述了一个汉语连续语流语音合成的选音算法,它适用于基于大语料库的语音合成系统。由于同时考虑单音节、二字韵律词、三字韵律词和四字韵律词,从而降低了因拼接点不连续而造成的音质损失,提高了合成语音的自然度。  相似文献   

7.
基于最大熵模型,结合汉语自身的特点,设计了一个基于词和字特征的汉语词性自动标注系统,取得了较好的标注效果。  相似文献   

8.
基于概率频度的普通话韵律结构预测统计模型   总被引:1,自引:0,他引:1  
为进一步提高文语转换系统中韵律结构预测的准确度,提出了一个基于概率频度的统计模型的方法,预测韵律词和韵律短语边界两级韵律结构。该方法提取与韵律词和韵律短语边界有关的语言学特征(词性、语法词、长度和位置等),并进行样本训练计算各个特征的概率频度值,最终分别建立韵律词和韵律短语的统计模型。实验结果表明:统计模型的方法对于韵律词和韵律短语边界预测的正确率分别可达90.6%和84.6%,并与决策树算法和T ransform ation-based learn ing(TBL)转换规则学习算法比较,提高10%以上的正确率。  相似文献   

9.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

10.
采用分层语法规则的加权概念转移网络,并将语法规则和类似于统计语言模型中的概率分布结合起来,通过引入平滑的概念,为一些超出词典的OOV词和超出语法规则的词分配一个较小的概率,使模型具有较强的稳健性.实验结果表明:这种分层语法表示灵活、概念清晰、实现简单,可以较大地降低语言模型的混乱度;模型在概念级的预测性能可达到99%的正确率.用该语言模型为语音识别提供预测单元,可以提高识别率.  相似文献   

11.
国内外主流英文媒体在英译中国特色词语时,主要采取完全音译、音译加解释、完全直译、直译加解释或音译和直译加解释这些方法或策略。从外宣的角度讲,音译或直译加解释即解释性翻译的方法是外宣英译中国特色词语的有效方法。解释性翻译给"不折腾"的英译提供了方法上的启示。  相似文献   

12.
中文姓名识别是信息抽取的一个重要研究内容,同时也对自然语言处理的其他应用具有重要意义.本文针对中文姓名构成的一般规律和特点,提出了一种姓氏用字驱动的统计与规则相结合的混合中文姓名识别算法,该算法以姓氏用字为线索,通过对前后文中汉字串成词的可能性的评价来进行姓名识别.对所提出的算法用144 K文本进行了实验测试,验证了它的有效性.  相似文献   

13.
依据水语的语音信息,提出了与声母、韵母、音节相关的水书字音编码规则,在该规则的基础上讨论了水书字音输入过程中存在的歧义性问题,并提出了消除歧义的算法.分析了水书字音输入算法的基本思想和核心步骤,通过仿真试验验证了该方案的可靠性和有效性.  相似文献   

14.
为有效提高方块苗文的输入速度,提出一种方块苗文输入的音形编码新方法,并用上下文无关文法给出该方法的形式化定义.该方法是将方块苗文输入编码序列设计为“2个音码+2个形码”的4码形式,与文字本身读音无关.音码由方块苗文首构件和末构件的汉语拼音首字母决定,形码由方块苗文本身的末笔画名称和结构类型名称的汉语拼音首字母决定.测试实验结果表明,较之前期已实现的方法,该方法不但简单规范、易学易用,而且具有更低的重码率、更快的输入速度和更高的输入正确率.  相似文献   

15.
从闪米特文字家族和汉字文字家族,特别是东干语文字的演变过程来看,从表音文字演变成为表音文字以后不可逆转.汉语文字不能轻视汉语拼音的作用,不能漠视国家标准《汉语拼音正词法基本规则》。  相似文献   

16.
基于隐息学的信息安全方案   总被引:2,自引:0,他引:2  
为了保证中文信息传输过程的安全,构造了一种新的信息隐藏加密方案。该方案将传统的密码设计理论与新兴的隐息学理论相结合,使用较短的加密密钥与简单的加密和隐藏算法。利用信息论的方法证明了该方案是安全的。方案实现原理简单,同时由于采用简单的查表与替换,实现效率可以提高数倍。有助于有限计算能力的用户确保中文信息传输过程的安全保密。  相似文献   

17.
针对2013年CCF自然语言处理与中文计算会议(NLP&CC2013)中文微博实体链接的任务, 使用CCF提供的新浪微博数据作为训练和测试数据, 利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工具, 提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法, 提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的消歧方法。在2013年CCF 中文微博实体链接评测任务中正确结果的准确率为0.8838, 在10 个参赛队伍中名列第3位。表明该方法有效并可以适应文本中的噪声。  相似文献   

18.
题名是读者进行数据检索的主要途径。分析了中文图书题名著录易出错的原因,提出了避免出现著录错误的方法。  相似文献   

19.
目前决策树中很多分类算法例如ID3/C4.5/C5.0等都依赖于离散的属性值,并且希望将它们的值域划分到一个有限区间。利用统计学法则,提出一种新的连续属性值的划分方法;该方法通过统计学法则来发现精准的合并区间。另外在此基础上,为提高决策树算法分类学习性能,提出一种启发式的划分算法来获得理想的划分结果.在UCI真实数据集上进行仿真实验.结果表明获得了一个比较高的分类学习精度、与常见的划分算法比较起来有很好的分类学习能力。  相似文献   

20.
Generally, text proofreading consists of two procedures, finding the wrongly used words and then presenting the correct forms. At present, most of the Chinese text proofreading focuses on finding the wrongly used words, but pays less attention to correcting these errors. In this paper, the Chinese text features are interpreted first and then a Chinese text proofreading method and its algorithm are introduced. In this algorithm, text features, including text statistical feature and language structure feature, are properly used. Here, correcting errors goes on at the same time with finding errors. Experimental results show that this method has a performance of detecting 75% of wrongly used Chinese words and correcting about 60% of them with the first candidates.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号