首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
词切分是像汉语这类非拉丁语言的一个特有问题,并且由于汉语组词中普遍存在着岐义性和语境依赖性,这一问题也是一个尚未得到彻底解决的难题。本文通过仔细分析汉语分词岐义的规律,将追求整体最优效果的松驰算法引入到汉语自动分词的排岐研究中。借助于语词之间搭配关系等上下文约束条件以及词频、字频等统计数据,构造了一种汉语分词排岐的新方法。实验结果表明,这种方法在切分精度和切分速度上都取得了较好的效果,为解决汉语自动分词难题提供了一种新途径。  相似文献   

2.
基于改进分水岭算法和Canny算子的医学图像分割   总被引:1,自引:0,他引:1  
针对分水岭算法存在的过分割问题和医学图像的特点,比较并选取了彩色分量图像梯度信息的最大值,达到提取图像有效边缘信息的目的,然后利用阈值分割方法消除无效梯度信息,并用分水岭算法处理所得到的梯度图,再结合Canny算子提取的物体边缘得到分割结果.实验结果表明:该方法能够有效消除局部极小值和噪声干扰,得到精确的分割结果.  相似文献   

3.
Keyword extraction is an important research topic of information retrieval. This paper gave the specification of keywords in Chinese news documents based on analyzing linguistic characteristics of news documents and then proposed a new keyword extraction method based on tf/idf with multi-strategies. The approach selected candidate keywords of uni-, hi- and tri-grams, and then defines the features according to their morphological characters and context information. Moreover, the paper proposed several strategies to amend the incomplete words gotten from the word segmentation and found unknown potential keywords in news documents. Experimental results show that our proposed method can significantly outperform the baseline method. We also applied it to retrospective event detection. Experimental results show that the accuracy and efficiency of news retrospective event detection can be significantly improved.  相似文献   

4.
方莹 《科技信息》2008,(18):49-50
关键字的上下文环境是自然语言处理的基础知识,其自动抽取是很多研究的基础和关键。本文主要研究了从百度搜索页面中提取出搜索关键字的文本信息,并将这些文本信息进行分词处理,最后基于去重算法将词语上下文去重的方法。算法的关键过程包括关键字的环境提取、文本分词和提取到的信息的入库三部分。  相似文献   

5.
A local and global context representation learning model for Chinese characters is designed and a Chinese word segmentation method based on character representations is proposed in this paper.First,the proposed Chinese character learning model uses the semantics of local context and global context to learn the representation of Chinese characters.Then,Chinese word segmentation model is built by a neural network,while the segmentation model is trained with the character representations as its input features.Finally,experimental results show that Chinese character representations can effectively learn the semantic information.Characters with similar semantics cluster together in the visualize space.Moreover,the proposed Chinese word segmentation model also achieves a pretty good improvement on precision,recall and f-measure.  相似文献   

6.
基于最长次长匹配的汉语自动分词   总被引:12,自引:1,他引:11  
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。  相似文献   

7.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.  相似文献   

8.
针对传统裂缝检测算法抗干扰能力弱,浅层裂缝易误判等问题,提出一种局部特征聚类联合区域增长的桥梁裂缝检测算法。首先,针对混凝土表皮脱落及渗水等干扰问题,采用Gauss-Frangi双重滤波对图像模糊化处理,退化噪声的特征信息,并增强图像中的线性结构。其次,针对常规算法无法识别弱特征的浅层裂缝问题,根据局部区域裂缝点间的空间相关性,提出基于网格聚类联合区域增长算法实现局部区域裂缝的动态分割。最后,针对分割图像中伪裂缝等顽固噪声,提出一种基于形状特征及结构相似性原理方法剔除噪声。实验表明,所提算法可检测出更多的裂缝细节信息,且保持较高的精确率,提高了裂缝图像分割质量。  相似文献   

9.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文...  相似文献   

10.
王巍 《中州大学学报》2007,24(1):120-122
汉语的自动分词是汉语语言处理的基础,本文讨论了汉语自动分词歧义问题的产生与分类,重点研究了交集型歧义字段的排歧策略,实现了一种基于Perl的汉语自动分词方法,在比较同种算法的VC 实现上,结果显示基于Perl的实现具有简洁和高效的优点。  相似文献   

11.
一种Hash高速分词算法   总被引:7,自引:2,他引:7  
对于基于词的搜索引擎等中文处理系统,分词速度要求较高。设计了一种高效的中文电子词表的数据结构,它支持首字和词的Hash查找。提出了一种Hash高速分词算法,理论分析表明,其平均匹配次数低于1.08,优于目前的同类算法。  相似文献   

12.
针对已有标记分水岭算法存在的过分割问题,提出一种基于边缘检测的溢水标记分水岭算法。首先,对遥感影像进行相位一致边缘检测,获取边缘信息。然后,基于获取的边缘信息进行区域增长,检测对象区域的微弱边界,并改善对象边界的位置精度。最后,利用提出的溢水模型生成新标记继续增长,直到得到最终分割结果。在卫星影像和航空影像数据集上的实验结果表明,所提出的算法有效地抑制了过分割现象,能够准确的提取对象区域。  相似文献   

13.
对数据库受限汉语自然语言查询语句进行分渊处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想足体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用.  相似文献   

14.
一种基于后缀数组的无词典分词方法   总被引:9,自引:3,他引:6  
提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、 高频词. 适用于对词条频度敏感、 对计算速度要求高的中文信息处理.  相似文献   

15.
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息, 在充分考虑维吾尔文单词间结合规则的前提下, 将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd), 度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分, 得到语义及结构完整的词串, 而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明, 该方法的切分准确率达到88.21%。  相似文献   

16.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

17.
消解中文三字长交集型分词歧义的算法   总被引:18,自引:0,他引:18  
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。  相似文献   

18.
结合灰度熵变换的PCNN小目标图像检测新方法   总被引:1,自引:0,他引:1  
为了自动地进行小目标图像分割检测,从含单一弱小目标图像的特征出发,提出了一种结合灰度熵变换的脉冲耦合神经网络(PCNN)小目标图像分割检测新方法. 该方法在对有随机噪声和复杂背景图像进行非线性灰度熵变换滤波的基础上,考虑灰度熵值灰度图在满足先验概率目标背景比条件下,选择包含单一小目标局部窗口作为处理图像区域,并在局部最小交叉熵判据下,进行改进型PCNN迭代分割检测处理. 实验结果表明,该方法不仅能可靠地检测出复杂背景及随机噪声干扰下弱小目标,并且在PCNN运行处理过程中,可自动地完成最佳分割检测.  相似文献   

19.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

20.
视频序列中运动目标的自动提取   总被引:4,自引:0,他引:4  
在利用Canny算法将空间边缘信息结合到基于变化的分割技术的基础上,提出在预处理阶段对视频序列的灰度图进行局部对比度增强处理,以增加前景物体与背景对比度的观点,解决了许多视频分割算法都存在的对比度较低带来分割困难的问题,并通过设计滤波器来滤除对比度增强之后引入的少量噪声;然后针对复杂背景的情况,利用随机信号的统计特性累计得到算法所需的背景,实现背景信息的自动获取;最后利用背景累积过程中分类讨论的观点,解决了物体停止运动时间较长时的分割丢失问题. 通过几个典型的MPEG-4测试序列进行实验,实验结果表明,该算法可以有效地将运动物体从视频序列中自动地分割出来.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号