共查询到20条相似文献,搜索用时 250 毫秒
1.
随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。 相似文献
2.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文... 相似文献
3.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC /MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台. 相似文献
4.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率. 相似文献
5.
郭文龙 《齐齐哈尔大学学报(自然科学版)》2012,28(5)
数据清洗中,中文地址类信息对于重复记录的检测起着非常重要的作用。中文地址按照行政归属可划分为五级,通过组建地址信息数据库对中文地址进行匹配,提出基于地址树的中文地址分词技术,构建了中文地址的分词算法流程并设计了算法。 相似文献
6.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率. 相似文献
7.
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。 相似文献
8.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升. 相似文献
9.
10.
《广州大学学报(自然科学版)》2019,(5)
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果. 相似文献
11.
由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。 相似文献
12.
手写体信函地址汉字切分 总被引:3,自引:0,他引:3
目前多数汉字识别系统仍基于单个汉字的逐个识别,因此对字符进行有效的切分,是离线汉字识别的一项重要工作,根据汉字手段写体的特点,在方差最小原理基础下,提出多步切分算法(粗分-细分-合并)和穿越算法,首先根据字段间间隔,用最小距离聚类的方法,得到5组粗分结果,从中选出最接近理想的一种,用改变类间距离和穿越算法,对较宽的字段进行细分,最后将过细的分割部件合并成一个完整的字,对现场采集的3000封信函进行切分,单字正确率可达90.8%。 相似文献
13.
基于笔画分析和背景细化的粘连手写汉字切分 总被引:5,自引:0,他引:5
离线手写汉字的切分是识别的前提,其中粘连手写汉字的切分最为困难。提出一种基于笔画分析和背景细化的粘连手写汉字的切分新方法。对粘连字符图像作细化处理,检测端点、叉点和角点等特征点,根据特征点提取笔段。按笔段的长度、相互之间的位置关系以及投影信息确定切分点。细化粘连字符的背景图像,从切分点出发在细化的背景中选取分割路径,实现粘连手写汉字的切分。实验表明,本方法对于粘连手写汉字具有令人满意的切分效果。 相似文献
14.
基于统计规则的交集型歧义处理方法 总被引:1,自引:1,他引:0
中文分词是中文信息处理的基础, 歧义问题是中文分词的一个难点, 而交集型歧义问题占歧义问题的90%以上, 因此对交集型歧义问题的研究是中文分词研究的一个重点. 通过反复的实验和对实验结果的分析, 提出了5条规则, 并根据这5条规则给出了一种针对交集型歧义字段切分的算法, 实验结果表明, 基于该算法实现的分词系统DSfenci, 对于交集型歧义消解的准确率高于95.22%. 相似文献
15.
16.
中文语料库分词不一致的分类处理研究 总被引:5,自引:0,他引:5
大规模语料库中分词结果不一致现象影响着语料库分词质量.在对150万汉字熟语料进行了统计分析的基础上,我们定义了语料库中分词结果不一致的主要结构类型;采用规则的方法检验校对字串的分词不一致,在对150万汉字语料库的封闭测试中,正确率为86.94%. 相似文献
17.
刘峻 《西安联合大学学报》2012,(1):35-37
藏传佛教的密宗造像艺术以其独特的造像风格和艺术魅力在中国美术史及中国民间美术史中占有重要的一席。通过对藏传佛教密宗部造像艺术的系统、深入研究,我们可以发现它是在保留了古印度、喀什米尔、尼泊尔风格深刻影响的基础上与藏民族自身文化相互融合,最终形成民族美术样式。 相似文献
18.
为描述拥挤交通流中的排队现象,根据二流理论,提出了将交通流实际运行状态转化为二流运行状态的思想.利用流量守恒方程,建立了单车道路段当量排队长度模型,并在此基础上,推导出多车道路段平均当量排队长度模型.为验证模型的有效性,采用VISSIM软件设计了拥挤交通流的模拟方案.对比模型计算的当量排队长度与软件统计的实际排队长度发现:当量排队长度均大于实际排队长度;当量排队长度比较稳定,而实际排队长度有所波动.结果表明,当量排队长度模型能够定量地、更好地描述拥挤路段的交通流拥挤程度.该模型计算方法简单,便于工程实践,可以为城市交通控制系统优化等提供理论依据. 相似文献
19.
PC/104总线式多道脉冲幅度分析器的设计 总被引:2,自引:0,他引:2
介绍了PC/104嵌入式微机总线的结构和功能,并研制了总线式多道脉冲幅度分析器(MCA)。该MCA以PC/104嵌入式微机为控制核心,采用总线方式实现系统通信和数据传输,由于总线方式速度比较快,因此可实现现场实施采集和显示谱线。在硬件上全部采用高速低功耗CMOS器件,降低了整机功耗,体积小,重量轻,适合于野外现场工作。在软件上采用C语言与汇编语言混合编程,提高了信号处理速度。同时由于采用了单任务DOS操作系统,软件运行更稳定,操作更简单。通过现场测试,该仪器工作正常、可靠,适合野外工作。 相似文献
20.
结合热重分析仪的结构特点,研究了热重分析仪测定聚乙烯醇灰分的方法。研究表明:热重分析具有仪器性能稳定、自动化程度高的优点,显著缩短了分析时间,将测定时间由约8 h缩短为约30 min,提高了分析效率和工作效率。 相似文献