首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
提出一种启发式的信息抽取算法, 并利用该算法建立一个信息抽取系统. 该系统基于文本分块, 利用文本的语义特征和结构特征, 抽取具有特征的状态, 在此基础上, 利用反向动态规划和正向A*算法, 抽取剩余的无特征状态. 通过对100篇论文头部进行测试的结果表明, 精确度和召回率比基于单词和传统Viterbi算法的方法均有所提高, 启发式算法的性能优于Viterbi算法.  相似文献   

2.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高.  相似文献   

3.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

4.
通过分析经典的典型相关性分析标准,提出一种新的源信号抽取标准,并利用在线拟牛顿算法求解新标准,进而得到一种新的基于典型相关性分析的盲源信号抽取算法,实现了盲源分离.理论分析表明,新源信号抽取标准的唯一全局最小值点是经典典型相关性分析标准的最大值点.仿真结果表明,新算法收敛速度更快.  相似文献   

5.
随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节﹒通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题﹒因此,提出了一种基于文本相似度的网页新闻标题自动抽取算法,它通过结合目录型新闻网页的外部标题来抽取详情型新闻网页的真实标题﹒试验结果表明,相对现有方法来说,新算法具有较好的通用性且平均F1值达到了97.58%﹒  相似文献   

6.
实体关系抽取是知识图谱技术的重要环节之一。英文实体关系抽取的研究已经比较成熟,相比之下,中文实体关系抽取的发展却并不理想。由于相关语料的匮乏,中文实体关系抽取的发展受到了一定的限制。针对这一问题,COAE2016在任务三中提出了中文实体关系抽取任务。通过分别使用了基于模板、基于SVM与基于CNN的实体关系抽取算法解决了这一问题,并根据其在COAE2016任务三的评测数据集上的效果,对比分析了三种实体关系抽取算法的优缺点。实验证明,基于SVM的算法和基于CNN的算法均在评测数据集上表现出了良好的效果。  相似文献   

7.
数据挖掘过程中,对数据文件进行数据抽取是构建数据仓库的重要过程.目前在抽取大容量数据文件时会出现很多局限性问题,如抽取操作出错、数据量无法自动匹配获取及数据库写入速度较低等.为了解决这些局限性问题,对大容量数据文件抽取算法进行了优化研究,提出并设计了一种大容量数据文件抽取算法.实验结果表明,该算法能够优化常规算法的效率,并具有数据容量自适应抽取及数据库快速写入等特点.  相似文献   

8.
针对数据挖掘项目实施过程中常规的数据抽取方法的局限性以及数据抽取效率较低的状况,提出并设计了一种高效的数据抽取算法,算法具有控制参数通用性配置、数据包文件自动搜索与识别、数据自动分类抽取及数据自动存储等特点.测试结果表明,算法能够极大地提高数据抽取的效率.  相似文献   

9.
针对通用领域的事件论元抽取研究中角色信息利用不足和论元间缺少交互两个问题,提出角色信息引导的多轮事件论元抽取模型,用于增强文本的语义信息和论元之间的交互能力,提升事件论元抽取的性能。首先,为了更好地利用角色知识来引导论元的抽取,该模型根据角色定义构造角色知识,对角色信息和文本独立编码,并采用基于注意力机制的方法获取标签知识增强的文本表示,进而采用增强嵌入来预测各角色论元的起始和结束位置。同时,为了在抽取过程中充分利用事件论元之间的交互,受多轮对话模型的启发,设计一种多轮事件论元抽取算法。该算法参照“先易后难”的自然逻辑,每次选择预测概率最大,也是最容易确定的角色进行抽取。在论元抽取过程中,为了对论元之间的交互进行建模,模型引入历史嵌入,并在每一次预测结束后更新历史嵌入,帮助下一轮事件论元的抽取。实验结果表明,角色信息的引导和多轮抽取算法均有效地提升了论元抽取的性能,使得该模型的表现优于其他基线模型。  相似文献   

10.
人机交互任务调度是信息处理系统需要应对的困难之一.基于推荐机制,提出了一种新型的人机交互任务调度算法;该算法从操作序列中发现和抽取调度信息,根据操作员的处理能力/兴趣和任务的特征进行调度,采用推荐方法发布/管理任务.验证实验表明该算法具有较高的系统利用率、较高的响应率和较高的用户满意度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号