首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
针对基于关键词匹配的搜索引擎存在的问题,提出一种基于语义词典的局部查询扩展方法,首先利用共现分析法和语义相似度选取扩展词,再对原始查询词和扩展词加权,最后计算文档相似度从而获得排序后的扩展查询结果.该方法克服了其它局部扩展方法将大量无关词加入查询的问题.实验表明,该方法有效地提高了查询结果的查准率.  相似文献   

2.
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%.  相似文献   

3.
一种结合同义词典和词对共现距离的查询扩展方法   总被引:1,自引:0,他引:1  
为了在检索过程中全面表达查询意愿,提出一种结合同义词典和词对共现距离的查询扩展方法。横向利用同义词典方法进行扩展,发挥它的简单、高效优势;纵向利用可观察的语言事实统计上下文词对的共现距离,从而对词汇语义相关性进行精确和有效的度量,用简洁、相关的词来扩展查询词。实验表明,该方法在实际搜索引擎中有较好效果。  相似文献   

4.
为解决信息检索中用户查询可能与索引文档信息表示不匹配从而影响检索效果的问题,提出一种融合局部共现和上下文相似度的查询扩展方法,从与查询词具有共现关系的邻接词和与查询词具有高相关性或同指关系的词两个方面对用户输入查询词进行扩展,重点测试邻接词的取词窗口大小以及上下文向量的最优长度。试验表明:与采用单一扩展方法相比,融合方法的平均准确率取得了明显提高,当邻接词的窗口大小取5,上下文向量的长度取15时,具有更好的平均准确率。  相似文献   

5.
为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规则的Apriori算法发现分类时所需要的频繁关键字共现,最后结合关键字和频繁关键字共现,利用最邻近算法(KNN)对宋词文档进行风格分类.实验结果发现,结合了频繁关键字共现的VSM可以提高对宋词风格分类的准确度.可见,频繁关键字共现确实提供了风格分类中所需的更多信息.  相似文献   

6.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

7.
为克服概率潜在语义索引在存储效率和查询速度方面的不足,引入概率潜在语义词典(PLSD)概念,建立词汇之间的关联矩阵代替词汇-文档矩阵.提出一种文档分值计算方法,以及词典中每个词汇的概率计算方法,用以获取相关的查询词汇,从而生成新的查询.实验表明:PLSD的引入消除了概率潜在语义分析对文档的依赖,通过调整文档阈值和词汇筛选等方法,可以在保证查准率的前提下,大幅度减少检索系统占用的存储空间.  相似文献   

8.
微博搜索主要是计算文档与查询词之间的相关性,通过统计方法确定词量的权重,再用向量空间模型计算相关度.然而使用词量搜索方法,搜索精度并不高,检测到某条微博的信息含量有限,难以保证用户查询的关注度.针对这一问题,提出基于动态步长的微博搜索排序算法.该算法的主要实现过程:首先对微博已有的特征进行分析,然后用信息熵的方法计算微博信息含量,不使用词量为计算单位,而以词性为单位计算微博的相关度.最后把动态步长加入到List Net排序算法中,并用Armijo-Goldstein准则对步长进行优化.通过仿真实验表明,本算法排序效果更优.  相似文献   

9.
搜索结果的合成是元搜索引擎系统中一个重要的技术问题。为了提高元搜索引擎的查询精度,提出了一种改进的元搜索结果合成算法。通过分析搜索结果列表中包含的文本信息,综合考虑搜索结果与查询的匹配完全程度和相关程度给出了文本分析的规范化方法,并结合搜索结果的排序信息计算文档的相关分值,据此实现对局部相似度的调整。利用成员搜索引擎的性能评价,提出了改进的影子文档方法估算非相关文档的相关分值。然后,采用基于群决策的合成方法对搜索结果进行一致性排序。在实际Web环境中进行了测试,实验结果表明采用本算法,搜索结果的相关性比Round-robin、CombSum和CombMNZ三种合成算法有较大提高。  相似文献   

10.
一种基于潜在语义结构的文本分类模型   总被引:19,自引:1,他引:19  
潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构.  相似文献   

11.
基于类别共生矩阵的纹理疵点检测方法   总被引:8,自引:0,他引:8  
根据有规则纹理的特点,提出了基于类别的共生矩阵来描述纹理特征,从而很好地将正常纹理与疵点区分开.分析了传统的灰度共生矩阵在计算纹理特征时计算量大,且分辨能力差的缺点.为了克服灰度共生矩阵在计算量和分辨能力上的缺点,定义了类别共生矩阵.在类别共生矩阵的算法中,首先学习纹理的一些基本特征以确定类别共生矩阵的一些关键参数,如纹理的概率密度分布、纹理的主方向和周期,以及分类准则等重要参数,然后计算类别共生矩阵并提取白疵点增强、黑疵点增强和一致度等三个特征,最后采用异常点检测的方法即可很好地区分正常纹理和疵点.实验证明,该方法比已有的灰度共生矩阵计算量小,并具有更突出的分辨纹理和疵点的能力.  相似文献   

12.
复杂网络的Laplacian矩阵的特征值和特征向量包含了其拓扑和集体行为等重要信息.该文研究了演化的汉语语言网络的Laplacian矩阵的谱密度、谱排序和特征向量等.研究发现特征值集中分布在区间[0,3]上,并且随着网络规模的增加,[0,3]上的谱密度之和逐渐减小;如果将特征值按降序排列,那么排在最前面的特征值及其序号之间满足幂律分布,其它较大的特征值与中间部分的特征值则满足指数分布;网络的度与前三大特征值对应的特征向量有关,但两者的变化趋势又不尽相同.此外,还将上述结论与邻接矩阵的结果进行了比较.  相似文献   

13.
提出一种新的文档表示模型——基于共现词对的向量空间模型。模型以文档中共现的词对为基本考察对象,通过统计学特征选择有代表性的词对来表示文档。基于覆盖算法的文本分类实验表明此模型有较强的文档表示效果,为文本自动化处理提供了一条新思路。  相似文献   

14.
针对灰度共生矩阵对指纹图像分割过程中人工选取阈值不精确、繁琐等缺点,提出了一种采用自适应阈值分割的灰度共生矩阵的指纹图像分割算法。首先,用整幅指纹图像的对比度方差值的均值Mv作阈值对图像进行初分割;然后,不断调整Mv,通过试验验证当指纹区域对比度方差值的均值Pv与Mv的比值在一个特定的区间(即Pv/Mv∈[1.5,2])时,才能获得最好的分割效果,由此获得灰度共生矩阵的自适应分割阈值Mv,从而精确地分割出指纹图像的有效区域。试验结果表明,相比于已有的分割算法,该算法在分割错误率和耗时方面均较优,并且分割更准确。  相似文献   

15.
为了从文本中可以更加准确地分析其蕴含的内容,给人们的生产生活提供建议,在基于深度学习的传统多标签分类方法的基础上,提出一种融合多粒度特征和标签语义共现的多标签分类模型。该模型利用双向长短时记忆网络双向长短时记忆网络(bidirectional long short-term memory network, Bi-LSTM)提取多粒度的文本特征,获得不同层次的文本特征;并通过计算pmi的方式构建标签关系图,利用图卷积网络(graph convolution network, GCN)深入提取标签的隐藏关系,获得具有标签信息的文本表示;最终融合多粒度文本特征,进行多标签文本分类。在AAPD和news数据集上进行实验。结果表明:所提出模型的Micro-F1值分别达到0.704和0.729,验证了模型的有效性。  相似文献   

16.
通过对比中国学生英语口笔语语料库(SWECCL)和英国国家语料库(BNC)中共现的反义词,发现非母语使用者口笔语中的反义词共现数量和频率远远少于母语使用者,形容词反义词共现频率在母语和非母语语料库中均较高;反义词在书面语中的共现高于口语,这些异同折射出中西文化的差异。教师应在日常教学中关注反义词教学,缩小非母语者和母语者语言使用的差距。  相似文献   

17.
为了提高基于标签的个性化推荐技术的准确率,提出了一种基于共同属性和标签共现的标签消歧模型,对已有的基于聚类的标签消歧算法进行改进,针对不同的标签语义问题分别采用不同的方法,缓解了原算法不能识别不同语义的问题。对于多义词语义问题,使用同义词模型进行消歧;对于近义词、同义词语义问题,使用近、同义词模型进行消歧,并将该模型应用于个性化推荐算法。利用公共数据集MovieLens Latest Datasets进行了个性化推荐实验。实验表明,当用户推荐项目数量递增时,推荐算法的准确率和召回率都有提高,能有效消除标签中存在的歧义。  相似文献   

18.
This study investigates the feasibility of applying complex networks to fine-grained language classification and of employing word co-occurrence networks based on parallel texts as a substitute for syntactic dependency networks in complex-network-based language classification.14 word co-occurrence networks were constructed based on parallel texts of 12 Slavic languages and 2 non-Slavic languages,respectively.With appropriate combinations of major parameters of these networks,cluster analysis was able to distinguish the Slavic languages from the non-Slavic and correctly group the Slavic languages into their respective sub-branches.Moreover,the clustering could also capture the genetic relationships of some of these Slavic languages within their sub-branches.The results have shown that word co-occurrence networks based on parallel texts are applicable to fine-grained language classification and they constitute a more convenient substitute for syntactic dependency networks in complex-network-based language classification.  相似文献   

19.
基于灰度共生矩阵的打印文件检验研究   总被引:1,自引:0,他引:1  
针对打印文件检验在公共安全应用中的需求,提出一种基于灰度共生矩阵的打印文件鉴别方法。鉴别过程包括打印文件图像采集,图像预处理,特征提取和分类判别。用自制装置采集打印文件图像,经预处理后得到单个打印字符,利用灰度共生矩阵方法对不同打印文件中的相同字符进行纹理特征提取,并采用欧氏距离分类器鉴别出源打印机。选取45台激光打印机参与测试,将打印字符的图像灰度级压缩至64级再进行特征提取,鉴别正确率达93.58%,且大幅减少了算法耗时,证明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号