首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 906 毫秒
1.
搜索结果的合成是元搜索引擎系统中一个重要的技术问题。为了提高元搜索引擎的查询精度,提出了一种改进的元搜索结果合成算法。通过分析搜索结果列表中包含的文本信息,综合考虑搜索结果与查询的匹配完全程度和相关程度给出了文本分析的规范化方法,并结合搜索结果的排序信息计算文档的相关分值,据此实现对局部相似度的调整。利用成员搜索引擎的性能评价,提出了改进的影子文档方法估算非相关文档的相关分值。然后,采用基于群决策的合成方法对搜索结果进行一致性排序。在实际Web环境中进行了测试,实验结果表明采用本算法,搜索结果的相关性比Round-robin、CombSum和CombMNZ三种合成算法有较大提高。  相似文献   

2.
互联网时代信息量庞大,简洁的标题可以提高信息阅读效率。在课堂场景下,知识点标题生成便于用户整理和记忆课堂内容,提高课堂学习效率。该文将标题生成应用于课堂教学领域,制作了课堂知识点文本—标题数据集;提出了一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentence positions, TKSP)算法,该算法综合考虑了关键词和句子位置等因素对句子权重的影响,能够更准确地提取文本重点信息。使用以召回率为导向的摘要评价(recall-oriented understudy for gisting evaluation, ROUGE)方法,TKSP算法在ROUGE-1、 ROUGE-2和ROUGE-L指标上的得分率分别为51.20%、 33.42%和50.48%,将TKSP抽取式算法与统一语言模型(unified language model, UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling co...  相似文献   

3.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

4.
针对汉语自动分词后词条的特征信息缺失的问题,本文提出把整个分词过程分解为三个子过程,以词串为分词单位对文本进行分词:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的特征信息更丰富,改善了文本特征选择的效果,提高了文本分类性能。  相似文献   

5.
XML已经广泛的应用于多个领域。基于关键字检索的搜索引擎在商业上获得了巨大的成功。基于相关性进行XML信息检索,将相关性高的结果排在靠前的位置,直接关系到检索质量和用户的满意度。现有的ALCA算法效率较高,但未基于相关性对结果进行排序。在该算法的基础上增加相关性排序方法,先按根结点中是否包含关键字将所有结果分成相关性不同的两个等级,然后再分别对两个等级的结果排序。结果片段与用户信息需求的相关性是由其中的元素、属性和文本结点的总贡献决定的。实验结果表明改进后的算法取得了较好的排序有效性。  相似文献   

6.
快速中值滤波   总被引:1,自引:0,他引:1  
提出一种针对矩形窗口的图像中值滤波快速算法.它充分利用了相邻窗口间的相关信息,以中值为界将窗口内像素分成两组.当窗口右移一像素,根据当前分组和中值获得新窗口的分值,进而求出其中值.避免了现有算法对每一窗口进行排序取中的操作,降低了计算量  相似文献   

7.
为了提高自动摘要的质量,研究了基于图模型的词句协同排序的自动摘要算法技术.自动摘要试图从原始文本中提取一定数量的重要句子形成节录式摘要,句排序是实现自动摘要的典型手段,已有工作大多通过构建词或句关联网络,再使用PageRank计算节点排序分值,该算法考虑词与句之间的互影响,提出词句协同排序的自动摘要算法,在句关联网络上融入词对句子排序分值的影响,而词的重要性由包含其句子的排序分值所决定.在句排序结果基础上,提出基于冗余度的句选择方法,以进一步提升自动摘要质量.在10篇中文文档上的试验结果表明,较之于单纯的句排序方法,所提出方法能有效提升自动摘要的准确率和召回率.  相似文献   

8.
一种元搜索引擎的查询结果处理模型   总被引:5,自引:0,他引:5  
为克服元搜索引擎查询速度慢、独立性差的缺点,设计了一个元搜索引擎的结果处理模型.在该模型中引入了一种4级结果集的结构,从而提高了元搜索引擎结果处理的效率.在结果提取部分提出了根据反馈信息自动调整权重的算法(FBWM),从而能够在没有人工干预的情况下自动监视各独立搜索引擎的性能变化,并随之动态调整其权重.在结果排序部分提出了改进的位置/全文排序法(IPFTS),在算法中引入了词条匹配等级的概念,提高了搜索结果和查询串的相关度的精度,保证了排名在前的搜索结果中链接地址的有效性.  相似文献   

9.
针对垃圾邮件文本数据高维、稀疏及词条相关等特点,提出Elastic Net-Decision Tree(EN-DT)两步分类算法。第一步,利用Elastic Net提取邮件文本特征变量,将高维文本数据降至低维。第二步,将所提取的低维特征变量输入到Decision Tree中进行邮件分类。根据分类评价指标对分类结果进行评价。利用Mark Hopkins等人收集的Spam邮件文本数据进行仿真,实验结果表明相比于PLS、PCA和Lasso等算法EN-DT分类性能更佳。  相似文献   

10.
文章设计新的数据结构对网店商品的原始数据进行加工处理,形成一个存储所有商品信息的词条字典。结合全切分算法,实现对用户输入关键词的完全切分,并通过和词条字典的匹配得到所有候选的词条组合。为了消除分词过程中的歧义和不合理的词条组合,系统结合商品类目树的存储结构,通过算法和引入权值计算的方法对词条组合进行排序,得到最佳结果。  相似文献   

11.
随着全球信息化的出现,手工分类索引已经不适用于大规模信息的处理,自动分类的研究得到迅速发展。K-近邻法是具有一定效率的自动分类算法。本文将其与智能优化技术结合,用于基于机器学习的文本分类过程中。实验结果表明,对于庞大的文档集合分类,该算法提高了分类的速度和精度。  相似文献   

12.
针对少量记录排序的应用,对直接选择排序算法进行了挖掘,通过增加记忆功能,使算法性能得到明显提高。改进后的算法在大量记录排序时,较原算法的速度提高1倍以上;在少量记录排序时,是基于比较和移位的排序算法中总体表现最佳的;并且对原序列的有序程度很敏感,原序列相对有序时,速度能大幅度提高。结果表明:该算法很适合少量记录排序、部分排序、较有序记录的排序,以及与快速排序算法的混合使用。  相似文献   

13.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

14.
目的 给出一种新的空间域类的信息隐藏方法。方法 将待隐藏的机密信息数据转化为二进制数,将载体信息数据依次分为数据对,调整每对数据的坐标位置,使二大小的逻辑关系对应于机密信息数据的二进制的位,从而实现对机密信息的隐藏。结果 给出了在图像中隐藏汉字档和在声音中隐藏图像的实验,并对隐藏性能作了分析和比较。结论 该算法原理简明,编程容易,信息嵌入与提取速度快。与其他空域类算法相比,鲁棒性有较大地提高。  相似文献   

15.
基于向量空间的信息检索模型VSM,以其简洁直观、检索结果和排序效果良好等优点,在信息检索领域得到普遍的应用。文章结合藏文文本的特点,研究VSM在藏文文本信息检索中的应用方法。  相似文献   

16.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识.  相似文献   

17.
同时使用标号点和成对约束信息,设计了半监督的最近邻分类算法。为了解决可能无法为某些数据点分配类标号的问题,提出了ratio排序方法以降低冲突点的个数,并采用基于Citation-kNN评分的主动式学习策略,通过获取一些与周围数据点不一致的点的标号来改善半监督学习的效果,以寻找有价值的监督信息。实验结果表明,本文的学习策略可以提高算法的聚类效果,其CRI指标好于COP-kmeans和CCL算法。  相似文献   

18.
基于VB的GIS开发   总被引:4,自引:1,他引:4  
GIS是融合计算机图形和数据库于一体的高新技术,它把地理位置和相关属性有机地结合起来,满足城市建设、企业管理对空间信息的要求。研究是以GIS技术在国内不同领域得到广泛应用并取得良好效果作为前提和背景。以VB作为集成开发环境,简述了基于VB的GIS开发的可行性和优越性。着重阐述了基于VB的地理信息系统开发方法。  相似文献   

19.
提出了一种基于中英文字符型属性的数据库数字水印算法。通过元组哈希值和字符属性值长度计算出预测嵌入位置,根据预测嵌入位置所在的字节序号确定水印嵌入位置。以ASCII字符集的不可见字符作为水印信号,将版权图像嵌入宿主数据库。嵌入的水印信号具有不可见性,并且保持数据库的原始可用性,可实现水印的盲提取。该算法对添加元组、删除元组、修改属性值、添加与删除属性以及元组与属性重排等常见数据库攻击具有较强的鲁棒性。  相似文献   

20.
张立忠 《科学技术与工程》2012,12(32):8553-8557
提出了一种基于中英文字符型属性的数据库数字水印算法。通过元组哈希值和字符属性值长度计算出预测嵌入位置,根据预测嵌入位置所在的字节序号确定水印嵌入位置。以ASCII字符集的不可见字符作为水印信号,将版权图像嵌入宿主数据库。嵌入的水印信号具有不可见性,并且保持数据库的原始可用性,可实现水印的盲提取。该算法对添加元组、删除元组、修改属性值、添加与删除属性以及元组与属性重排等常见数据库攻击具有较强的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号