首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于新冠疫情时代海外侨情危机事件频发,提出一种基于自动化信息要素抽取的新闻事件类型识别方法,对后疫情时代侨情新闻事件进行智能危机类别划分.首先,利用爬虫技术获取特定时间段的相关侨情事件新闻,进而采用信息抽取模型对语料数据进行信息要素抽取;然后,根据要素集的取值判断每条新闻的危机事件类型;最后,对2020年1月-8月的侨情新闻数据进行实证研究.结果表明:该方法不但能提升侨情分析的效率,还能进行多维度的危机状况信息可视化,有助于制定危机事件应对策略.  相似文献   

2.
中文新闻事件检测的主要任务是从大量新闻中自动检测出潜在的新事件。人工构建事件特征词进行检测费时费力。单纯依靠密度聚类或谱聚类方法进行事件检测,存在不同事件的触发词相关性高时,容易误判为同一事件。为此,提出基于卷积神经网络和K-means结合的中文新闻事件检测与主题提取,将新闻中的文本向量化,通过深度学习抽取文本深层特征。实验结果表明:所提方法构建的模型准确率、召回率优于单一聚类方法,可对中文新闻事件准确识别,快速检测新事件,提取新事件主题。  相似文献   

3.
以w3c文档对象模型(DOM)为基础,利用元搜索引擎原理实现了一个互联网新闻自动抽取系统.该系统通过搜索引擎获取相关新闻的web页面,分析后得到其元数据,然后利用元数据表现出来的信息进行新闻正文抽取,该方法不依赖于原网页结构,不需要人工干预,是自动、可靠、通用的方法.试验表明,该抽取方法有着较高的准确率,平均可达到96%以上.  相似文献   

4.
基于相邻词的中文关键词自动抽取   总被引:2,自引:0,他引:2  
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助.  相似文献   

5.
基于RSS2.0技术,设计了校园新闻信息的提取与发布方案.该方案采用HTML标签与正则表达式相结合的提取方法,通过建立提取过程函数,并将过程函数类化,然后将引用类与RSS2.0规范相结合,生成RSS文档,最终实现RSS文档的生成与发布.  相似文献   

6.
基于关键词的搜索引擎满足了人们一定的需要,但由于其通用的性质,并不能满足用户的个性化需求,为此,设计并实现了一个基于示例的个性化Web信息自动获取系统.该系统采用了一种新的基于少量Web示例网页和语料库词频统计的特征抽取算法和过滤阈值设定方法.实验结果表明,较基于关键词的搜索引擎而言,该系统能充分考虑用户的兴趣偏好(示例),长期、主动地向用户提供更加准确的Web信息获取服务.  相似文献   

7.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

8.
基于条件随机域的Web信息抽取   总被引:1,自引:0,他引:1  
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献   

9.
针对通用领域的事件论元抽取研究中角色信息利用不足和论元间缺少交互两个问题,提出角色信息引导的多轮事件论元抽取模型,用于增强文本的语义信息和论元之间的交互能力,提升事件论元抽取的性能。首先,为了更好地利用角色知识来引导论元的抽取,该模型根据角色定义构造角色知识,对角色信息和文本独立编码,并采用基于注意力机制的方法获取标签知识增强的文本表示,进而采用增强嵌入来预测各角色论元的起始和结束位置。同时,为了在抽取过程中充分利用事件论元之间的交互,受多轮对话模型的启发,设计一种多轮事件论元抽取算法。该算法参照“先易后难”的自然逻辑,每次选择预测概率最大,也是最容易确定的角色进行抽取。在论元抽取过程中,为了对论元之间的交互进行建模,模型引入历史嵌入,并在每一次预测结束后更新历史嵌入,帮助下一轮事件论元的抽取。实验结果表明,角色信息的引导和多轮抽取算法均有效地提升了论元抽取的性能,使得该模型的表现优于其他基线模型。  相似文献   

10.
韩超  邓甲昊  邹金慧  韩敏 《北京理工大学学报》2012,32(12):1247-1251,1257
为提高对车辆图像的检测程度和实时性,针对智能交通系统,通过对实时路况的信息采集和视频图像的处理,提出了一种基于差分均值的背景提取计算方法和矩阵分区域的阴影检测方法,最终得到一个视频车辆的检测原型,从而实现对运动车辆的检测.实验结果表明,此种方法简单、计算量小、鲁棒性高,能快速地提取出背景图像,检测出比较完整的车辆阴影,可满足多运动目标的实时检测要求.  相似文献   

11.
基于核心依存图(kernel dependency graph,KDG)的事件抽取主要通过语义结构进行匹配。在已构建的越-英-汉南海新闻框架网络基础上,主要对KDG语义分析模式、基于核心依存图的新闻事件抽取分析以及核心依存图生成和新闻事件信息抽取进行研究。研究重点包括典型KDG、零形式框架元素和框架元素融合等特殊KDG的分析模式,面向事件信息抽取的KDG的表示模式和标注例句自动生成KDG的过程。研究结果表明,基于KDG的事件信息抽取方法直观明了、语言学理据充分,具有一定的可行性,对新闻文本中的语义线索发现较为适合。目前已经可以从已完成框架语义标注的例句中自动生成KDG并抽取出相应的事件模型。  相似文献   

12.
提出了利用角点信息提取嘴唇特征的方法.在可变形模板的框架下,利用以前方法中没有用到的角点信息,提出了基于角点信息的能量函数.该能量函数能够更为精确地反映嘴角点和牙齿区域的特征,跟踪嘴唇的变形.实验结果表明,该方法能更鲁棒地提取嘴唇轮廓特征.  相似文献   

13.
基于子镜头聚类方法的关键帧提取技术   总被引:4,自引:0,他引:4  
分析主流的关键帧提取技术,提出了一种基于子镜头聚类的关键帧提取算法.该方法在重新定位镜头的起始和终止帧号后,利用帧与帧之间的颜色直方图特征,通过子镜头检测和聚类进行关键帧提取.实验结果表明,该算法具有良好的适应性,既降低了关键帧提取算法的计算复杂度,正确率高,同时能有效避免关键帧的冗余,达到了很好的关键帧提取效果.  相似文献   

14.
王鹏 《科学技术与工程》2011,11(6):1241-1245
在信息检索中,关键词之间的距离反映了其对信息描述的集中程度,并对检索结果与用户需求的相关度产生影响。通过对XML数据固有的结构信息进行深入分析,确定了被检索数据的信息对象和信息分支的概念,并考虑以上因素建立语义距离模型。通过该模型的计算,能够更准确地计算出查询结果的相关度。实验结果证明:在真实数据集上,查询质量方面优于现有的主流算法(EASE、SLCA),同时具有较高的查询效率。  相似文献   

15.
为了提升检索结果与用户个性化需求的符合程度,依托向量空间模型提出一种新的检索方法.将用户查询关键词和语料库内的文本信息都映射为向量,从而把检索过程转化为向量相似性的比对.在比对过程中,通过关键词权重突出用户个性化需求,通过余弦相似度判断符合程度.实验结果表明:文中方法的检索结果与用户需求的符合程度明显提高.  相似文献   

16.
针对关键词发音相似易混淆及反词模型难确定、难训练等问题,提出一种结合模糊理论的方法,利用模糊C均值聚类算法对候选关键词进行2次聚类,同时将新的聚类中心作为反词模型进行最后确认.实验结果表明,这种方法使识别率得到了显著的提高.  相似文献   

17.
This paper presents an effective keyword search method for data-centric extensive markup language (XML) documents.The method divides an XML document into compact connected integral subtrees,called self-integral trees (Si-Trees),to capture the structural information in the XML document.The Si-Trees are generated based on a schema guide.Meaningful self-integral trees (MSI-Trees) are identified,which contain all or some of the input keywords for the keyword search in the XML documents.Indexing is used to accelerate the retrieval of MSI-Trees related to the input keywords.The MSI-Trees are ranked to identify the top-k results with the highest ranks.Extensive tests demonstrate that this method costs 10-100 ms to answer a keyword query,and outperforms existing approaches by 1-2 orders of magnitude.  相似文献   

18.
基于GPU的高光谱遥感岩矿信息快速提取方法   总被引:2,自引:0,他引:2  
提出了基于图形处理单元(graphics processing unit,GPU)的高光谱岩矿信息快速提取方法,利用GPU的并行计算优势对高光谱岩矿信息提取的核心步骤进行了并行优化设计。针对高光谱岩矿信息提取的算法特点,提出了相应的性能优化策略,包括优化算法流程、提高访存效率和减少数据访问冲突。实验结果表明,并行设计模型与优化方法能够快速有效地进行岩矿信息提取,并且最大加速比达到了81倍。  相似文献   

19.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

20.
基于关键词提取的娱乐新闻文档去重算法   总被引:2,自引:2,他引:0  
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一.提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档.实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%~30%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号