共查询到19条相似文献,搜索用时 78 毫秒
1.
基于互信息改进算法的新词发现对中文分词系统改进 总被引:6,自引:0,他引:6
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法--PMIk算法与少量基本规则相结合, 从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度, 可以根据需要指定)。基于257 MB的百度贴吧语料实验, 当PMIk方法的参数为10时, 结果精度达到97.39%, 比PMI方法提高28.79%, 实验结果表明, 该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典, 加载到汉语词法分析系统ICTCLAS中, 基于10 KB的百度贴吧语料实验, 比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%, 3.73%和5.91%。实验表明, 通过进行新词发现能有效改善分词系统对网络文本的处理效果。 相似文献
2.
新词的有效识别是文本预处理过程中一项非常重要的任务,关系到分词效果的好坏.针对传统新词发现方法未考虑单字新词的识别,且忽略了上下文句法结构与语义信息对新词识别结果的影响,提出一种统计量计算结合相似性判断的网络新词发现算法.首先,基于字的粒度,依次计算单字词频、最大增强互信息和加权左右邻接熵,从左向右逐字扩展多字词,获得... 相似文献
3.
基于延迟决策和斜率的新词识别方法 总被引:1,自引:0,他引:1
采用词典分词时会遇到未登录词的识别问题.本文提出一种新的中文新词识别方法,用于全文信息检索系统索引的建立.在索引切分过程中遇到无法切分字串时,暂存为未切分串,并生成统计信息.待未切分串达到一定数量时,再利用生成的统计信息结合斜率(加速度)的方法来切分暂存的未切分串.切分的结果可以进入索引,对于出现频率高的切分片段可以提取加入词典. 相似文献
4.
《南京理工大学学报(自然科学版)》2021,45(1)
随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义。现有的中文分词技术应用在能源政策这一特定领域时,由于无法正确识别领域新词,往往很难取得令人满意的效果。针对新词发现这一问题,该文提出一种基于条件随机场(Conditional random field,CRF)和词向量的能源政策新词发现方法。利用无监督方法,在无需人工标注的情况下,提升CRF模型在特定领域的适应性。提出了种子词典的概念,通过关键词提取并辅以少量人工筛选和补充的方式,构建能源政策领域的种子词典。将种子词典和CRF模型标注结果相结合,并利用词向量筛选,完成领域新词的发现。在真实能源政策文本数据上的试验结果表明,该方法能够在较低人工成本的前提下,有效地实现能源政策领域的新词发现,进而提高中文分词在能源政策文本的表现。 相似文献
5.
该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新词特征,又可以成词。而且该方法充分利用现有背景生语料却无需分词等标注信息,不依赖词典、分词模型和规则,具有良好的扩展性。为了得到更好的发现效果,还讨论了各统计量阈值的选取策略和垃圾元素剔除策略。该方法在网络小说语料上验证了其有效性。 相似文献
6.
《西安交通大学学报》2015,(12)
针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合新词传播范围广、持续时间长的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高。 相似文献
7.
本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地位,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所做分析的基础上,研究了线程调度、页面爬取等策略和方法。然后选取了几种常见的网络蜘蛛算法进行比较,并综合应用试验法和归纳法研究它们的性能。 相似文献
8.
9.
国内网络英语新词研究概述 总被引:1,自引:0,他引:1
《科技信息》2008,(31)
本文集中介绍了近年来国内有关网络英语新词研究的现状以及发展趋势。国内网络英语新词的研究主要集中在对网络英语新词的介绍,新词构词特点、构词规律,以及这些新词语义特征等方面。 相似文献
10.
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。 相似文献
11.
12.
庞宁 《西南民族学院学报(自然科学版)》2014,(1):137-141
特征词提取是一项提炼整个web页面内容的实用技术,同时也为文本分类,信息抽取应用提供了技术支持.在web页面内容上,利用段落间语义关系划分出网页内容的篇章结构,并以此为基础使用网页的元数据和特殊标签,设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,最后,实验对比了各类位置因子对系统的贡献度.实验结果表明,改进方法的F1值比传统的TFIDF提取技术提高了15.5%,其中,位置因子中的标题,关键词和摘要因素对系统的贡献最大. 相似文献
13.
基于特征词的自动分词研究 总被引:3,自引:0,他引:3
拓展了特征词的范畴,提出了基于特征词的汉语自动分词方法,将特征词作为切分依据,采用“分而治之”的策略,以对单句或短语进行不断细分的方式来实现自动分词.由于处理单位的缩小降低了待分材料的分词复杂度,因此可以有效地提高切分的正确率. 相似文献
14.
为了快速准确地提取荧光原位杂交(FISH)图像中的荧光染色基因,提高临床医学上诊断病变的效率,针对FISH图像固有的模糊特征,提出了一种基于改进遗传算法的多维多阈值模糊自适应提取算法.首先根据灰度直方图的分布特性,提出相应的自适应窗宽选取算法,确定阈值搜索的范围;然后通过设计的模糊隶属度函数,将图像分割成若干不同的区域;最后采用最大模糊熵准则,并借助优化后的自适应遗传算法,寻找确保基因目标最大信息量的分割阈值.将分割结果与其他几种常用分割算法进行比较,并采用分类概率的数学测量方法定量分析,结果表明:在标准噪声干扰下,该算法的错误划分概率仅为0.042 1,可以更加准确和高效地对荧光基因进行提取. 相似文献
15.
聚类分析算法作为一种主要的Web使用挖掘技术,在个性化推荐系统中得到了广泛应用,然而面对Web动态性所引起的网页的更新以及用户行为方式的改变,已有的聚类算法并不能很好地解决这一问题。针对这一问题,本文以一种无向图的形式表示用户对网站的访问,提出一种可实时反映网站及用户行为变化情况的增量式页面聚类算法,并在页面聚类的基础上提出相应的推荐决策算法动态生成页面推荐。 相似文献
16.
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果. 相似文献
17.
杨一柳 《渤海大学学报(自然科学版)》2013,(3):320-322,327
准确挖掘网页中的信息对检索系统非常重要.提出了一种基于模板的网页信息抽取方法进行网页信息抽取.该方法采用网页抓取与数据模板技术实现了网页信息的自动发现与抽取.在Yahoo网站上的实验结果表明,该方法具有较好的检索效果. 相似文献
18.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性. 相似文献
19.
为提高识别率和识别效率,采用双门限过零率和短时能量作为端点检测的依据,提取Mel频率倒谱系数作为语音特征参数,并使用DTW算法进行模式匹配.由于传统DTW算法计算量大,所以采用局部路径约束和区域约束进行改进,并用Matlab对改进后的DTW算法进行了仿真.实验证明该算法对孤立词语音识别能够达到较好的识别结果. 相似文献