首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 640 毫秒
1.
针对汉语自动分词后词条的特征信息缺失的问题,本文提出把整个分词过程分解为三个子过程,以词串为分词单位对文本进行分词:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的特征信息更丰富,改善了文本特征选择的效果,提高了文本分类性能。  相似文献   

2.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

3.
基于识别的粘连手写数字串切分系统   总被引:3,自引:0,他引:3  
为解决手写数字串中的粘连问题,提出了一种基于识别的粘连手写数字串切分系统。该系统通过外轮廓分析和投影分析,找出相应的候选切分线。利用候选切分线对数字串过切分,过切分后的每个子图像定义为一个片段,相邻的一个或多个片段的组合定义为一个集团。数字串的每个候选切分结果由一个或多个集团组成。对所有的候选切分结果建立一个概率模型,并使用单个数字识别器对所有集团进行识别。根据最大后验概率准则,选出最优的切分结果。在搜索最优切分结果时,使用剪枝算法,降低了算法的时间和空间复杂度,从而满足实时处理要求。利用从NISTSD19中收集到的样本进行实验,正确切分率高达97.72%。  相似文献   

4.
稀疏表示模型是通过将字典中的原子进行组合得到期望的结果.为了解决传统字典学习中所有图像块重建均使用同一个字典,从而忽略了最佳稀疏域的问题,提出来一种基于多字典和稀疏噪声编码的图像超分辨率重建算法.在字典训练时,利用图像的特征将它们合理地划分成若干个簇,每个聚类训练生成子字典对,利用最佳字典对进行重建.在求解稀疏系数阶段,引入稀疏编码噪声去除噪声的影响,利用图像非局部自相似性来获得原始图像稀疏编码系数的良好估计,然后将观测图像的稀疏编码系数集中到这些估计当中.实验表明,与ASDS算法和SSIM算法相比较,该算法有更好的重建结果,获得了更丰富的图像细节和更清晰的边缘.  相似文献   

5.
针对压缩感知中字典对信号稀疏表示能力不足的问题,文中提出了一种结合系数重用正交匹配追踪的自适应字典学习算法,该算法使用系数重用正交匹配追踪算法得到稀疏系数,在字典更新阶段引入上一次迭代过程的先验信息.首先对稀疏系数矩阵进行奇异值分解,再分别用前一次更新的字典对左奇异矩阵和用训练信号对右奇异矩阵进行变换,然后采用变换后的左、右奇异矩阵构造新矩阵,最后利用新矩阵进行字典训练.实验结果表明,采用文中算法得到的字典对图像具有更好的稀疏表示能力,提高了重构图像的质量.  相似文献   

6.
本文提出一种基于规则的德汉机器翻译词法分析算法。该算法既能有效地还原出各种变形单词的原形词,同时还能为系统中随后的句法分析机制提供有用的词类和各种语法特征信息。另一方面,通过特定词形变化的词类信息,可以只提取该变形单词的原形单词字典定义中词类信息与其相对应的字典词条定义,从而方便于对词的兼类分析处理。  相似文献   

7.
本文讨论了{1,…,n}的全排列的四种不同的算法,以及按字典顺序列举{1,2,…,n}的所有r-组合的算法,并对各个算法用C++语言进行编程加以实现。  相似文献   

8.
针对传统汉字切分方法中对粘连汉字和重叠汉字切分不准确的问题,提出了基于极小阈值和曲线拟合的垂直投影汉字切分算法.该算法在传统垂直投影法汉字切分的基础上结合极小阈值和曲线拟合进行切分,实验结果表明:相对于传统汉字切分方法,该算法对含有粘连和重叠现象的手写体汉字文本的切分是有效的,从而可使手写体汉字的切分准确率有较大的提高.  相似文献   

9.
为解决组合数生成算法复杂、效率低及空间占用率高等问题,提出一种基于格雷码与one-hot混合编码思想的组合数生成算法.算法融合了格雷码的编码可靠性和one-hot编码的离散特性及扩展性,采用非递归方式生成格雷码,基于one-hot编码思想存储格雷码.与基于字典序的常规组合数生成算法相比,本文提出算法的空间占用率仅为其1/n,同时具有更优的生成效率.  相似文献   

10.
针对如何对企业经验知识进行规范审阅的问题,结合Wiki平台的特征和隐性知识积累的形式,采用Okapi BM2500权重计算算法考虑用户与词条的相关度,运用改进的PageRank算法计算用户-词条关系网中用户的权威度,根据Cascade排序方式得到推荐专家列表,提出了基于隐性知识积累平台——MediaWiki的专家推荐方法.结合中国某大型造船厂的工艺经验知识,通过实验,验证了基于MediaWiki平台的专家推荐方法的有效性.  相似文献   

11.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

12.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.  相似文献   

13.
提出一种方法,用以实现自然语言理解系统的自动词汇扩展,以模拟人的词汇学习能力.该方法的基本要点是:(1)用语法制导切词实现生词的自动辨别;(2)用反复试探句法分析来确定生词的句法功能;(3)简化词典的词义表示形式,使词义隐含在知识库系统中.  相似文献   

14.
基于互信息改进算法的新词发现对中文分词系统改进   总被引:6,自引:0,他引:6  
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法--PMIk算法与少量基本规则相结合, 从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度, 可以根据需要指定)。基于257 MB的百度贴吧语料实验, 当PMIk方法的参数为10时, 结果精度达到97.39%, 比PMI方法提高28.79%, 实验结果表明, 该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典, 加载到汉语词法分析系统ICTCLAS中, 基于10 KB的百度贴吧语料实验, 比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%, 3.73%和5.91%。实验表明, 通过进行新词发现能有效改善分词系统对网络文本的处理效果。  相似文献   

15.
基于延迟决策和斜率的新词识别方法   总被引:1,自引:0,他引:1  
采用词典分词时会遇到未登录词的识别问题.本文提出一种新的中文新词识别方法,用于全文信息检索系统索引的建立.在索引切分过程中遇到无法切分字串时,暂存为未切分串,并生成统计信息.待未切分串达到一定数量时,再利用生成的统计信息结合斜率(加速度)的方法来切分暂存的未切分串.切分的结果可以进入索引,对于出现频率高的切分片段可以提取加入词典.  相似文献   

16.
一种Hash高速分词算法   总被引:9,自引:2,他引:7       下载免费PDF全文
对于基于词的搜索引擎等中文处理系统,分词速度要求较高。设计了一种高效的中文电子词表的数据结构,它支持首字和词的Hash查找。提出了一种Hash高速分词算法,理论分析表明,其平均匹配次数低于1.08,优于目前的同类算法。  相似文献   

17.
基于统计的无词典分词方法   总被引:17,自引:0,他引:17       下载免费PDF全文
通过分析词的结合模式,提出无词典分词模型,并对该模型进行实验测试。测试结果表明,无词典分词模型能够满足快速分词的要求。  相似文献   

18.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率.  相似文献   

19.
随着互联网和社会的飞速发展,新词不断涌现。识别和整理这些新词语,是中文信息处理中的一个重要研究课题。提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高了新词的召回率。并在此基础上分析新词内部模式,添加了垃圾串过滤机制。单字串过滤主要是运用垃圾词典的方法,多字词模式新词的确定是利用改进的互信息与独立成词概率结合的方法。由此,大幅度提高了新词识别的准确率。  相似文献   

20.
本文以维吾尔语拼写检查方法作为研究对象,提出以词典、形态分析、统计为基础的拼写检查方法。维吾尔语是黏着语言,富于形态变化,难以把单词的所有形态收录到词库里。因此,拼写检查时把词干提取方法与词典结合使用。为了保证词干和词缀连接的可靠性,建立基于统计的词干和词缀连接判断模型。上述的方法仅仅能处理词典中存在的单词。因此,在N元语法模型的基础上建立拼写查错模型,准确率为68.58%,一般词典能覆盖80%以上单词,结合统计方法后,差错准确率提高到93.6%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号