首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。  相似文献   

2.
为弥补传统的基于文本相似函数(如编辑距离、语音距离等)的方法在重复记录的识别方面的不足,对记录内部单个字段的语义以及字段之间的语义进行了研究;采用字段名与统计分析相结合的方法来识别字段内部的语义,采用语义规则库来识别字段之间的层次语义和依赖关系;将语义引入到优先队列算法中,提出了改进的优先队列法(IPQM),在计算记录之间的相似度时,显式考虑字段之间的层次语义关系,对不同的字段类型调用不同的相似度计算方法.同时将语义规则库引入到数据清理框架,在预处理阶段利用语义来处理等价类型错误,在处理阶段利用IPQM来计算记录之间的相似度.实验结果表明该框架提高了数据清理的质量,遗漏率低于7%,误判率不超过3%.  相似文献   

3.
在计算机无纸化考试中,自动评分的设计与实现是最重要也是最难的一个环节.编辑距离算法通过统计替换、删除、插入、交换操作来计算两文本间相似程度,应用到文本匹配类的自动评分中具有较高的信度.在分析默写题评分需求的基础上,对编辑距离算法做出了相应的改进,提高了相似度计算的精度,并通过回溯的方法,实现了评分过程的反馈.实际应用的数据表明,该方法在汉字评分中具有普适性.  相似文献   

4.
在基于特征词遍历匹配的文本分类算法中,字符串匹配算法的选取及相似度阈值控制对文本分类结果起着决定性的作用。针对三种常用的字符串匹配算法做了分析及对比实验,选取了最适合政策文本分类的一种字符串匹配算法。并通过研究政策文本具有的特征提出了一种基于特征词加权的相似度阈值计算方法,经实验证明相似度阈值符合分类要求。  相似文献   

5.
主观题自动阅卷可以通过计算文本相似度实现.本文从分析文本结构特征的角度出发,在Trie树搜索匹配理论的基础上提出基于相对距离的词序相似度算法,并通过统计回归方法将关键词相似度与词序相似度进行融合得到文本的综合相似度,从而实现主观题自动阅卷.最后,进行了实验,证明通过该方法可以实现在规定场景下基于文本结构特征的主观题自动阅卷.  相似文献   

6.
为了实现委托外部检测单位进行的化验任务中古生物代码的导入,设计了基于编辑距离算法的古生物代码匹配方法。该方法在匹配指定古生物代码时,首先计算该古生物代码与本地古生物代码库中各个代码的字符串相似度,然后按照相似度从高到低推荐给用户进行选择。为了提高匹配的效率,在匹配过程中,若找到编辑距离为0的本地代码后即为最佳匹配结果,结束整个匹配过程;此外,对实验人员手工选择的匹配结果进行缓存,以供下次快速匹配。实例分析结果表明,基于编辑距离算法的匹配方法能够精确得到古生物代码之间的相似度,达到了预期的效果。  相似文献   

7.
在科研项目申报过程中,当前多采用人工方式进行评审专家遴选,由于人工对领域知识的理解有限,且具有一定的主观性倾向,随着项目申报数量的增加,人工选择的效率和准确率逐渐降低。为解决此问题,该文提出一种基于文本相似度的评审专家推荐方法。通过对项目论文信息进行数据挖掘,利用编辑距离模糊匹配和Wordnet语义扩展方法改进文本相似度计算,设计对比实验分别说明方法的可行性,并对推荐结果给出解释。实验结果表明,该文方法能够有效解决评审专家遴选问题。  相似文献   

8.
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度.改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测.并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高.  相似文献   

9.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

10.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

11.
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率.  相似文献   

12.
基于特定问题类别的汉语问答系统查询扩展   总被引:1,自引:0,他引:1  
针对汉语问答系统的特点,提出一种通过统计问答对方式获得各种问题类别的关联词,并根据类别关联词进行查询扩展的方法.在计算问题和答案文本相似度时,实现了一种基于最小匹配距离的计算方法,该方法充分考虑了查询词及查询扩展词在文本中的词频及位置分布信息.实验结果说明在汉语问答系统答案文本检索中,按照问题类别关联词进行查询扩展比未进行查询扩展在性能上有很大的改进.  相似文献   

13.
一种改进的基于树路径匹配的网页结构相似度算法   总被引:1,自引:0,他引:1  
提出一种改进的基于树路径匹配的网页结构相似度算法, 该算法定义了树路径的序列相似度和位置相似度, 找出网页的树路径集合, 通过网页间的最佳树路径匹配计算结构相似度. 实验结果表明, 用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际, 更合理有效.  相似文献   

14.
针对中文医药类网络文本的不规范性引起的药名实体识别性能下降,提出基于层次结构的多策略方法。首先使用条件随机场模型结合改进的最大匹配算法识别药名实体,然后在此基础上对其中的不规范药名实体利用最小编辑距离方法规范化药名实体并扩充药名词典。实验结果表明,改进的最大匹配算法结合统计模型有效地提升了药名实体识别的性能,同时为药名实体规范化扩展提供了新的思路。  相似文献   

15.
为解决传统极限距离立体匹配算法在深度不连续区域,以及光照差异增大时出现匹配误差大幅升高等问题,提出基于自适应权重极限距离变换的立体匹配算法。在Delta-Gama对数空间下,该算法首先根据初始匹配结果计算立体图像对Gama校正系数,基于光照差异修正极线距离变换相似度函数带宽,其次基于权重相似度自适应选取极线端点,确定分割系数;最后利用置信度传播算法计算视差图。实验结果表明,本文算法能够有效提高深度变换区域的匹配准确度,同时有效降低光照差异图像的误匹配效率。相对于当前先进算法,本文算法的匹配率比当前先进算法提高至少40%。  相似文献   

16.
随着高校图书馆馆藏书目的增加,读者在没有具体借阅目标的情况下,从图书馆借阅图书所花费的时间越来越多.针对这种情况,提出了基于内容的高校图书馆推荐算法,详细论述了中文分词、词语权重的计算、向量空间模型的构建以及图书相似度的计算,并对中文分词程序和词语权重算法在短文本中的应用进行了改进,对构建向量空间模型时遇到的稀疏矩阵问题给出了解决方法.研究结果表明,利用基于内容的推荐算法为读者推荐图书,比较符合读者兴趣,容易被读者接受.  相似文献   

17.
将经典的PageRank算法和汉明距离相似度算法结合,提出一种新的网页排序方法。通过结合汉明距离(Hamming distance)相似度算法,计算检索词和网页文本相似度,提高搜索查准率;在增加检索词的同义词的搜索过程中,通过改进汉明距离相似度算法,提高搜索查全率。实验结果表明,该方法与PageRank算法相比,拥有了更好的效果。  相似文献   

18.
为解决在深度不连续区域传统极线距离立体匹配算法,光照差异增大时出现匹配误差大幅升高等问题,提出基于自适应权重极线距离变换的立体匹配算法。在Delta-Gama对数空间下,该算法首先根据初始匹配结果计算立体图像对Gama校正系数,基于光照差异修正极线距离变换相似度函数带宽,其次基于权重相似度自适应选取极线端点,确定分割系数;最后利用置信度传播算法计算视差图。实验结果表明,所提算法能够有效提高深度变换区域的匹配准确度,同时有效降低光照差异图像的误匹配率。相对于当前先进算法,所提算法的匹配率比当前先进算法提高至少40%。  相似文献   

19.
提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。  相似文献   

20.
为解决禁毒情报分析中缺乏对文本信息处理和利用的有效手段的问题,提供一种基于禁毒情报相似度计算的中文文本算法。结合禁毒领域的业务需求,对禁毒情报相似度进行计算分析;对统计分词方法进行改进,首先分词后进行停用词处理,然后用户可以自定义词典的同时自定义词性,最后通过正则表达式提取案发时间等信息。还手动扩充了用户词典,加入了物品库,地址库等,分词的结果有了很高的提升;用涉毒案件作为实例计算相似度,证明了本算法的可用性,符合预期的效果,这为禁毒情报线索、警情及案事件等各类线索的碰撞、多点聚焦以便及时发现有价值的涉毒线索从而达到提前预警的目的建立了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号