首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
带拼音纠错的汉语音字转换技术   总被引:3,自引:0,他引:3  
提出了一种基于统计和规则的混合方法来实现汉语音字转换。利用汉语的语法规则,在统计语言模型中采用了两种基于词和词性的混合语言模型。在实验中,将这两种混合语言模型与基于词的语言模型进行了比较。实验证明,在语言模型中引入词性后,提高了音字转换正确率。考虑了出现拼音错误时的音字转换问题,提出了一种拼音纠错方法来纠正错误。实验证明,当拼音正确率高于85%时,这种带纠错的音字转换方法可以提高音字转换正确率。  相似文献   

2.
普通话轻声字词规范刍议   总被引:1,自引:1,他引:0  
普通话以“北京语音”为标准音,而北京话里的轻声词相当多且具有不稳定性,这给其他方言区的人学习普通话带来很大困难,普通话轻声字词亟需规范。本文从普通话轻声字词规范的原则谈起,对《现代汉语词典》中单列轻声字和普通话轻声词的规范提出了建议。  相似文献   

3.
本文首先对声音的预处理及其信号特征的提取过程进行了简要介绍,然后提出了在孤立字词语音识别的一个新的算法,即新型的识别算法。通过此算法,系统可以在不降低系统识别精度的前提下,大大精简运算量,因此提高了识别系统整体的识别效率。实验证明,这种识别算法在基于模板的孤立字词语音识别中可以达到100%的识别精度,在基于非模板的孤立字词的语音识别中,其识别精度也可以达到90%以上,并且与传统的识别方法相比,缩短了训练时间,提高了识别速度。在孤立字词的语音识别中具有自己独到的优势。然后,枸建一个使用方便的语音识别系统,将本算法应用到实践当中来解决人们现实生活中遇到的各种问题.  相似文献   

4.
将分词看成是一个对汉字进行分类的过程,然后利用条件随机场(CRFs)模型对每个汉字进行标记,最后转换为相应的分词结果.在现有CRFs模型的基础上,从字的构词能力角度出发,探索了字位置概率特征,提出了基于字位置概率特征的条件随机场中文分词方法.实验表明,字位置概率特征的引入,使得结果F1值提高了3.5%,达到94.5%.  相似文献   

5.
《云南省博物馆馆藏契约文书整理与汇编》(第一卷)所录契约中有不少音借字。此次将对此套丛书第一卷中清代昆明契约文书的11条音借字进行考释,并从中古音韵和现代昆明方言角度进行方音印证,对今后这批契约文书的进一步校释有一定的借鉴价值,为近代昆明方音的研究也提供了新的材料。  相似文献   

6.
针对多输出MPRM(Mixed-Polarity Reed-Muller)电路的极性转换问题,提出了使用系数矩阵在字级表示多输出布尔函数及其MPRM,并给出了一种极性转换算法。实验结果表明,与位级表示相比,所提出的基于字级表示的极性转换算法可显著缩短多输出MPRM电路的极性转换时间。  相似文献   

7.
“方块布依字”是布依族民间流传的一种仿汉字的记音符号,主要通行于宗教职业者群体。布依族宗教经文手抄本中的用字和造字方法主要有四种,或用与布依语相同或相近的音来记录该语音,或根据布依语词义,用汉语方块字的字符重新造字,或用与布依语同义的词来记录,或直接用汉字本身来记录。“方块布依字”在布依族宗教典籍及传统文化的传承过程中具有重要的作用。  相似文献   

8.
平顶山方言古入声字中的韵母和声调正在向普通话靠拢,在这个过程中,人们选择的是"音类的类推替换",而非寻找"相似的音值"。不同的声母、韵母变异时间和特点都各不相同,韵母的变异明显先于声调,"调转韵必已转",外来音类和原有的音类在不同的层面构成叠置现象,变异的模式都属于普通话与方言两个不同的语音系统竞争之下的音类的突变。观察其演变的方向和规律对研究中原官话的演变具有重要意义。  相似文献   

9.
由于受普通话的影响,平顶山老派方言古入声字的调类分派以及一些特有的入声韵母在新派方言中正处在急剧演变之中。从社会语言学的角度看,在这场正在进行的演变过程中,声调的变异与入声韵母的演变都属于共同语与方言语音系统竞争之下的音类的突变。而入声韵母的演变体现了演变过程中不同的语音层次,是方言的一些语音形式在不同的时期与共同语竞争演变的结果。  相似文献   

10.
本文从现代语义学的观点出发,通过对汉语中带"化"字的词语进行词源、构词结构、搭配组合诸方面进行广泛而深入的探讨并适当分类,以揭示其语义的复杂性和多样性,提出并归纳其英译的特点、方法,以期提高汉语里大量存在并不断涌现的"化"字词语的翻译质量,实现"化"字词语翻译的时代同步性和准确性,以便外国读者易于接受。  相似文献   

11.
为了能够快速准确地提取出海量文本信息中的情感特征词,提出从情感词语集中通过人工筛选得到种子词并对其情感强度赋值,同时,以这些种子词为基准计算出情感词语集中其他词语的情感强度值,从而得到各特征词在词语级及句子级的倾向性贡献度值。然后,将特征词在词语级、句子级这2种不同粒度情况下计算出的情感倾向性贡献度值有机结合起来,构造出基于双粒度模型的中文情感特征词提取模型。该提取方法考虑了特征词在词语级和句子级2个方面的情感倾向,使最终提取出的情感词的准确率得到了提高。实验表明,只要有一个全面的情感词典系统和一组准确恰当的种子词,提出的方法可以获得良好的准确率和召回率。  相似文献   

12.
针对当前中文词嵌入模型无法较好地建模汉字字形结构的语义信息,提出了一种改进的中文词嵌入模型.该模型基于词、字和部件(五笔编码)等粒度进行联合学习,通过结合部件、字和词来构造词嵌入,使得该模型可以有效学习汉字字形结构所蕴含的语义信息,在一定程度上提升了中文词嵌入的质量.  相似文献   

13.
提出了一种基于改进位置成词概率的新词识别算法.该算法在位置成词概率的基础上,结合新词内部模式的特征提出了改进的位置成词概率,然后再综合互信息、邻接类别等统计量对新词进行识别.采用小说语料进行测试,实验结果表明该算法在一定程度上能有效提取新词.  相似文献   

14.
词义自动消歧概率模型   总被引:3,自引:2,他引:1  
提出了一种词义自动消歧概率模型·在词义自动消歧实验中,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响·目前该词义自动消歧系统已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能  相似文献   

15.
提出一种利用规则与统计相结合的方法用于英汉机译系统中以消解语义级歧义 ,建立了一种根据单词之间的词语搭配关系以消除歧义的模型。该模型利用英汉双语语料选择合理的词组语义 ,对有歧义的单词作出标注。在此基础上给出了语义消歧的学习算法 ,并建立了一套有效的提高召回率的消歧算法。算法在英汉机译系统中的实际应用使正确率提高了约 10 % ,效果显著。  相似文献   

16.
对数据库受限汉语自然语言查询语句进行分渊处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想足体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用.  相似文献   

17.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率.  相似文献   

18.
一种Hash高速分词算法   总被引:9,自引:2,他引:7       下载免费PDF全文
对于基于词的搜索引擎等中文处理系统,分词速度要求较高。设计了一种高效的中文电子词表的数据结构,它支持首字和词的Hash查找。提出了一种Hash高速分词算法,理论分析表明,其平均匹配次数低于1.08,优于目前的同类算法。  相似文献   

19.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文...  相似文献   

20.
基于目标语统计的译文选择的研究   总被引:1,自引:0,他引:1  
译文选择是词义消歧研究在机器翻译中的分支.本文介绍了基于目标语统计的译文选择的原理,并以英汉机器翻译中汉语译文的选择为例,详细讨论了基于目标语统计的方法的实现.通过对词典译文的处理得到统计数据.为适应实用化系统的要求,统计数据进行压缩,并采用特殊的检索算法.提出了多项式级的逐步渗透译文选择算法,实验结果表明,该算法可以将译文选择正确率提高10%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号