首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   8篇
  免费   0篇
  国内免费   3篇
综合类   11篇
  2019年   2篇
  2017年   1篇
  2016年   1篇
  2010年   2篇
  2007年   1篇
  2006年   1篇
  2005年   2篇
  2002年   1篇
排序方式: 共有11条查询结果,搜索用时 31 毫秒
1.
基于统计的中文关键短语自动抽取   总被引:1,自引:0,他引:1  
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为Ⅳ元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure25%;TOP10精确率17.10%,召回率44.50%,F-measure30.80%。  相似文献   
2.
为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题,以汉英音译为主要研究对象,运用统计与规则的理论思想,提出融合基于语音和字形的音译单元对齐方法,设计了4个实验,与传统方法进行对比。实验结果显示,该方法能够很好地提高机器音译的准确性。  相似文献   
3.
张泓毅 《韶关学院学报》2010,31(12):19-23,87
选择基于统计的开源Masaru语法检查器为研究对象,分析技术路线与功能特点,提出了增加3元4元模型方法,并在系统中实现了3元4元语言模型.实验结果表明,改进的语法检查器准确度达到了81%,与原系统相比提高了6个百分点.  相似文献   
4.
随着恶意代码的数量和种类增长,快速有效地检测恶意代码显得十分有必要,其中关键技术就是恶意代码特征提取.针对现有恶意代码字节码序列特征提取速度的不足,提出了一种GPU加速提取恶意代码字节码序列特征的方法.使用目前比较成熟的统一计算设备架构CUDA,将传统恶意代码字节码序列特征提取方法中字节码N-Gram特征的提取、TFIDF特征的计算等密集计算型任务移交给GPU进行并行计算.实验表明,针对不同样本文件大小的数据集,该方法均有2~4倍以上的速度提升,大幅提高恶意代码字节码序列特征提取的速度.  相似文献   
5.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   
6.
基于统计的自然语言处理模型采用统计方法进行自然语言建模,实际应用过程中可根据具体情况在多种模型中选择适当的模型,本文简要介绍了N-gram模型和最大熵模型,并给出了几种参数估计和数据平滑方法,为自然语言建模提供了一定的参考。  相似文献   
7.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   
8.
语音的网络搜索,不同于传统文字输入的搜索方式,它可应用于特定的环境场合,而且汉语语音搜索将是未来网络技术发展的重要方向.本文将从汉语语言模型建立和语音网络搜索两个主要方面,给出一种适合汉语的网络搜索方法.  相似文献   
9.
随着internet的发展,网上各种新词语的创建和发展也超过以往任何时候,新词语的自动识别一直是中信息处理中的一个热点研究课题,研究了网上新词语的自动识别技术,主要研究内容是利用初加工语料,采用分解策略将N元组候选词库的形成分为预处理、二元候选字段,三元候选字段、四元候选字段几个过程,降低了整体处理难度,提出了一种以规则剔除噪声词串和构词相结合的新词语的识别技术。  相似文献   
10.
机器翻译的研究是人工智能中自然语言理解部分的一个分支,而译文质量是机器翻译系统评估的核心问题.讨论了基于n-gram共现的机器翻译自动评测框架,介绍了BLEU、N IST两种自动评价方法,并针对其提出若干改进思路,旨在更好地实现机器翻译译文质量的自动评估,从而对机器翻译系统的开发和完善提供更好的指导和辅助.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号