期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

许永林史晓东蔡骏《厦门大学学报(自然科学版)》2005,44(6):243-246

在语音识别系统中，Trigger模型作为语言模型的一种．用于描述长距离词与词之间的关系，然而以往的Trigger语言模型多是针对单个词的模型．本借鉴数据挖掘中关联规则发现的Apriori算法，利用效率比较高的FP-树算法产生多词Trigger对，由此构造多词Trigger对语言模型．这种模型能够更多地利用历史数据．弥补了传统N元法语言模型描述距离小于N的缺点．相似文献

2.

使用数据挖掘技术建立语言模型

陈勇《上海交通大学学报》2004,38(9):1590-1592

基于远距离依赖信息对于准确预测当前词的重要作用，文中利用一种改进的Apriori算法来建立一种特殊的Trigger pair语言模型．它能够准确、全面地反映较远历史中多个词对当前词的影响，利用该模型识别系统不仅能够预测当前词，而且能够对最终识别结果进行纠正．相似文献

3.

Skip-N蒙古文统计语言模型 总被引：1，自引：0，他引：1

侯宏旭刘群刘志文张国强《内蒙古大学学报(自然科学版)》2008,39(2):220-224

蒙古文具有典型的构词词缀的特点,一个词往往可以切分成词干和词缀等若干个部分.如果采用通常的N-gram语言模型很难描述词干、词缀等的长距离依赖关系.提出了一种利用长距离依赖的Skip-N语言模型,给出了相隔N个词的二元依赖关系.对这种方法进行了实现,并在一个基于实例的汉蒙机器翻译系统上进行了实验,实验证明Skip-N语言模型能够有效地提高汉蒙机器翻译的效果. 相似文献

4.

一种新的中文词自动聚类算法

孙静朱杰徐向华《上海交通大学学报》2003,37(Z1):139-142

基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好. 相似文献

5.

基于多种知识的盲文翻译的研究 总被引：1，自引：0，他引：1

江铭虎朱小燕夏莹谭刚包塔《清华大学学报(自然科学版)》2000,40(9):69-73

盲文到汉字的转换研究 ,分为盲文到拼音和拼音到汉字的转换研究。论文通过引入音码表 ,很好地解决了盲文到拼音转换中的歧义问题。对于拼音到汉字的转换 ,采用Markov模型 ,使用平滑算法解决此模型中的数据稀疏问题 ,并且对通常使用的字级别二元模型的平滑算法进行了改进以适应词级别二元模型。为每一个拼音句子建立一个拼音到汉字转换多部图 ,并在此转换多部图中使用 Viterbi算法搜索一条具有最大似然度的汉语句子 ,或使用 N - Best算法搜索具有头 N大似然度的 N个汉语句子。同时研究了从 1选到 N选的转换判据 ,以进行自动的 N - Best转换。实验表明 ,盲文到汉字转换系统的转换正确率为 94.38% ,若剔除专有名词 ,转换正确率还可上升 2个百分点。对 N - Best搜索算法的测试表明 5选正确率比 1选正确率提高了 3个百分点相似文献

6.

基于Language Model的地理信息检索模型(英文)

黎志升王煦法《中国科学技术大学学报》2010,40(2)

区别于传统的信息检索,地理信息检索通过一个查询范围词来限制用户的兴趣区域.目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果外.但是,词在地理空间的频率分布并不是均匀的,因此词在排序结果中的重要性应该随着查询范围的变化而有所改变.为此,提出了一种新的基于语言模型的地理信息查询模型,把查询范围引入到传统的语言模型中.在该模型中,引入了一个local model来描述查询词的地理分布特性.实验结果表明,新的检索模型优于TF-IDF与传统的语言模型. 相似文献

7.

基于POS-CBOW语言模型的相似词分析

下载免费PDF全文

阮冬茹潘洪岩高凯《河北科技大学学报》2015,36(5):532-538

相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。相似文献

8.

基于非线性尺度空间的航拍场景分类

《上海交通大学学报》2017,(10)

针对尺度不变特征变换(Scale Invariant Feature Transform,SIFT)算法在航拍场景分类中提取特征时,易造成边界模糊和细节丢失且无法描述颜色信息的问题,结合视觉词袋模型,提出了非线性尺度空间下融合颜色特征的新型颜色风式特征检测子(Color-KAZE,C-KAZE).通过KAZE构造非线性尺度空间来检测特征信息;对颜色模型(Hue,Saturation,Value,HSV)非等间隔量化获取颜色量化矩阵,进而生成C-KAZE特征描述子;利用视觉词袋和空间金字塔匹配模型融合多特征.实验表明,该算法相比SIFT算法在场景分类准确率方面提高了约8%.C-KAZE描述子增强了KAZE的特征描述能力,突破了SIFT算法特征描述单一、边缘细节模糊的局限性,显著提升了无人机航拍图像的分类效果. 相似文献

9.

面向汉维机器翻译的神经网络语言模型

李毓杨雅婷李晓米成刚董瑞《厦门大学学报(自然科学版)》2019,(2)

针对传统神经网络语言模型方法只关注词语之间关系或者词语内部信息而导致维吾尔语语言模型困惑度(PPL)过高的问题,提出了融入词素信息的维吾尔语神经网络语言模型.该方法在传统神经网络语言模型的基础上添加了词内结构建模层及合并层,利用双向长短时序记忆网络来捕捉词内结构信息,并与word2vec训练好的词向量相结合作为神经网络语言模型的输入;同时还采用重构N元语法(N-gram)语言模型的方式将神经网络模型应用到汉维统计机器翻译中.实验表明该模型的PPL降低了19.93,在汉维统计机器翻译任务中机器双语互译评估(BLEU)值提升了0.28个百分点. 相似文献

10.

基于主题模型的资源选择算法

《华南理工大学学报(自然科学版)》2017,(3)

在具有多个真实搜索引擎的联邦检索环境下,基于小文档的资源选择算法由于难以估计每个搜索引擎的真实网页数量,因此准确率较低.针对这个问题,文中提出了基于主题模型的资源库描述方法,利用LDA主体模型获取每个资源库的描述词;在此基础上提出新的资源选择算法,结合垂直领域权重和词向量计算资源库和查询请求之间的相关度,并根据相关度大小获取最终资源选择结果.实验结果表明,基于主题模型的资源选择算法能很好地提高资源选择效果,可有效应用于分布式搜索引擎的联邦检索环境. 相似文献