共查询到20条相似文献,搜索用时 15 毫秒
1.
以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间、逆向点击率、排名补偿因子3个指标,并对其进行综合加权。在查询串分词、同义词识别及多义词消歧、关键短语组配方面,也做了特殊处理。实验结果表明:抽取关键词的准确率较高,综合性能也高于TF.IDF和SVM方法。该方法能得到较满意的关键词抽取效果。 相似文献
2.
基于相邻词的中文关键词自动抽取 总被引:2,自引:0,他引:2
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助. 相似文献
3.
基于优化层次聚类的文档逻辑结构抽取 总被引:1,自引:0,他引:1
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。 相似文献
4.
林丽 《山东大学学报(理学版)》2016,51(9):121-126
基于核心依存图(kernel dependency graph,KDG)的事件抽取主要通过语义结构进行匹配。在已构建的越-英-汉南海新闻框架网络基础上,主要对KDG语义分析模式、基于核心依存图的新闻事件抽取分析以及核心依存图生成和新闻事件信息抽取进行研究。研究重点包括典型KDG、零形式框架元素和框架元素融合等特殊KDG的分析模式,面向事件信息抽取的KDG的表示模式和标注例句自动生成KDG的过程。研究结果表明,基于KDG的事件信息抽取方法直观明了、语言学理据充分,具有一定的可行性,对新闻文本中的语义线索发现较为适合。目前已经可以从已完成框架语义标注的例句中自动生成KDG并抽取出相应的事件模型。 相似文献
5.
6.
提出了一种基于新闻环境的人物肖像检索方案. 该方案可从新闻中找到相关人物的描述,并以此作为人物的背景信息,对现有的通用图像搜索引擎的检索结果过滤,再通过人脸检测技术以及多媒体信息检索方法,最终找到新闻人物最佳的肖像图像,并在此基础上展示了一种新的互联网新闻表示方法. 实验证明,该方法能够比较准确地得到新闻人物的肖像表示,而且以新闻人物的肖像作为互联网新闻表示中的一个补充对提高读者的新闻阅读兴趣和阅读效率都有一定帮助. 相似文献
7.
复杂网络在新闻网页关键词提取中的应用 总被引:1,自引:0,他引:1
唐俊 《云南民族大学学报(自然科学版)》2012,21(4):305-308,312
通过分析新闻网页文档的特征,引入节点权重、有向网络加权聚类系数、中心介数等特征量,并结合传统关键词提取算法的一些优点及网页文档的部分特征,提出了一种改进的基于加权复杂网络的新闻网页关键词提取算法,并通过实验证实了该算法的正确性. 相似文献
8.
探讨基于词库与规则相结合的案(事)件新闻文本时空信息解析方法.通过构建时间词库和表达规则、派出所和地名等词库以及"触发词-案事件类型"二元分类器,实现对案(事)件新闻中的案发时间、案发地点、案(事)件类型和出警派出所信息的抽取,并引用设计规范化规则,实现时空信息的规范化输出.实验分别选取本文解析盗窃案件数据和2014年1月至2015年3月福州市四个中心行政城区的公安盗窃案件数据进行比较,利用核密度估计算法研究犯罪集聚区,得到的集聚结果基本一致,发现福州市盗窃犯罪集聚发生于茶亭派出所、东街派出所和瀛洲派出所等辖区. 相似文献
9.
实体关系抽取是知识图谱技术的重要环节之一。英文实体关系抽取的研究已经比较成熟,相比之下,中文实体关系抽取的发展却并不理想。由于相关语料的匮乏,中文实体关系抽取的发展受到了一定的限制。针对这一问题,COAE2016在任务三中提出了中文实体关系抽取任务。通过分别使用了基于模板、基于SVM与基于CNN的实体关系抽取算法解决了这一问题,并根据其在COAE2016任务三的评测数据集上的效果,对比分析了三种实体关系抽取算法的优缺点。实验证明,基于SVM的算法和基于CNN的算法均在评测数据集上表现出了良好的效果。 相似文献
10.
中文事件抽取通常使用循环神经网络(recurrent neural network, RNN)来进行事件和事件要素的抽取, 但 RNN 在处理长度较长的词语时容易丢失重要信息, 为此提出一种组合卷积神经网络(convolutional neural network, CNN)与双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)网络的中文事件抽取模型 CNN-Bi-LSTM-CRF, 其中 CRF (conditional random field) 为条件随机场. 采用基于注意力机制和语义特征生成的字词联合向量, 使用 CNN 和 Bi-LSTM 模型对字词联合向量进行处理, 以获取其隐含表示, 最后通过 CRF 得出预测结果. 实验结果表明, 所提出的方法与其他现有的中文事件抽取方法相比, 准确率有明显提升. 相似文献
11.
12.
基于数学形态学的图像汉字笔划细化和提取 总被引:1,自引:0,他引:1
文章提出了一种基于数学形态学的图像汉字笔划细化和提取方法。根据汉字的结构特点,定义了一组新的结构元素序列,保持了原样本图像汉字的连通性和拓扑性的骨架,有效地抑制样本细化后汉字笔划的扭曲和歪斜;在此细化的结果基础上,定义了一种新的汉字笔划提取算法,准确提取出原汉字的横竖撇捺笔划的形状、形态及形式结构信息,取得了理想的效果。 相似文献
13.
Keyword search has become a ubiquitous method for users to access text data in the face of information explosion. Inverted lists are usually used to index underlying documents to retrieve documents according to a set of efficiently. Since inverted lists are usually large, many compression techniques have been proposed to reduce the storage space and disk I/O time. However, these techniques usually perform decompression operations on the fly, which increases the CPU time. This paper presents a more efficient index structure, the Generalized INverted IndeX (Ginix), which merges consecutive IDs in inverted lists into intervals to save storage space. With this index structure, more efficient algorithms can be devised to perform basic keyword search operations, i.e., the union and the intersection operations, by taking the advantage of intervals. Specifically, these algorithms do not require conversions from interval lists back to ID lists. As a result, keyword search using Ginix can be more efficient than those using traditional inverted indices. The performance of Ginix is also improved by reordering the documents in datasets using two scalable algorithms. Experiments on the performance and scalability of Ginix on real datasets show that Ginix not only requires less storage space, but also improves the keyword search performance, compared with traditional inverted indexes. 相似文献
14.
样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释. 相似文献
15.
基于词典与规则的新闻文本情感倾向性分析 《山东科学》2017,30(1):115-121
通过对新闻类文体的结构分析,将新闻文体按段落划分,采用一种基于情感词典和语义规则相结合的情感关键句抽取方法,对段落内的句子进行情感分析。综合考虑情感、转折、否定、程度和归总等词语信息构建情感词典,根据规则切割新闻文本,将新闻划分为意群、句子、段落以及篇章,通过制定的规则计算情感关键句倾向值,最终获得段落以及整个篇章的情感倾向值,从而得出新闻的情感倾向。与情感词典和SVM情感分类方法的实验结果对比表明,本文方法在对新闻文本进行倾向判别时效果较好,方法具可行性。 相似文献
16.
17.
基于模糊相似度的科技文献软聚类算法 总被引:3,自引:0,他引:3
本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇为核心将聚类相似度减小到下相似度进行扩展,从而形成相应软聚类。实验表明该算法能够有效地降低特征维数、提高软聚类精度和速度。 相似文献
18.
辛欣 《科技情报开发与经济》2013,(22):32-34
学位论文作为重要的文献资源,在对其进行数据加工过程中,关键词标引无疑是重要的环节。为了更好地发挥学位论文的情报价值,探讨了如何在学位论文主题标引中恰当地使用关键词,以提高数据质量及用户的检索效率。 相似文献
19.
基于Internet的学报新闻发布和期刊管理系统的设计与实现 总被引:1,自引:1,他引:1
陈翔 《杭州师范学院学报(自然科学版)》2004,3(2):114-118
利用ASP技术实现学报的新闻发布和期刊管理,包括管理员登陆、新闻发布和期刊管理等模块,并给出了设计和实现的方法. 相似文献
20.
半监督中文事件抽取系统的性能依赖于种子模板,但自动获取的种子模板的表达方式与覆盖范围有限,导致某些语言现象下的事件实例很难被识别。为解决这一难题,基于篇章内的事件一致性理论提出基于同指事件与相关事件的推理方法,根据已抽取的事件实例来推理可能有同指关系与关联性的其它事件,从而进一步提高半监督中文事件抽取系统的性能。在ACE 2005中文语料上的测试表明,该方法可有效地提高半监督中文信息事件抽取系统的性能。 相似文献