首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

2.
刘炜  李明  杨合立 《甘肃科技》2011,27(22):42-45
基于前人在TDT中对语义矢量的相似性计算研究,以及本体和语法结构在文本相似性研究方面的应用成果,提出了以词频分析作为辅助手段,将新闻中的关键要素归纳为时间、空间、参与事件的主客体、行为等几个语义类;借助WordNet与本体技术计算文档特征词的相似度,并且结合文本的语法结构特点,共同应用于文本的相似度计算,并以此作为新事件检测中相似度计算的基础,提高新事件检测的准确性。  相似文献   

3.
现有话题检测的主要方法是利用Single-Pass及其改进算法进行聚类分析,没有考虑文本的结构特点,相似度计算方法单一,从而影响准确度.针对此问题,改进了Single-Pass的相似度计算方法,综合考虑文本的标题、摘要、时间、地名以及来源等要素,采用层次分析法计算并赋以不同权重,提出一种多相似度计算组合策略.考虑到食品安全是一个广受关注的话题,实验通过网络爬虫抓取并筛选了最近3年食品安全方面的媒体信息,以此作为数据进行分析,结果表明,采用本文提出的改进Single-Pass聚类算法,话题检测准确度更高.  相似文献   

4.
概念相似度研究,是知识表示以及信息检索领域中的一个重要内容.通过对传统相似度计算方法进行分析,提出了一种改进的概念相似度计算模型.该计算模型在计算相似度时不仅改进了语义距离、层次差、语义重合度的计算方法,还考虑了节点密度和有向边类型对相似度计算的影响.实验结果表明,该方法充分利用了本体层次树的结构特点来计算概念之间的相似度,全面地量化了本体概念节点间的语义相似度,提高了概念间相似度计算的准确性.  相似文献   

5.
事件是比"概念"粒度更大的知识表示单元,更符合人类的认识过程.事件作为新闻文本的知识单元,结合新戴维森事件语义和6要素事件模型,给出了一个新的事件形式化表示方法;扩展不同的操作算子给出了修饰事件要素的模糊信息、对象、时态与环境的形式化表示方法;使用描述逻辑方法描述了事件对象要素中的概念,给出了新闻文本中事件关系形式化的表示方法.实例表明,该方法能够较好地表示新闻文本中的事件语义.  相似文献   

6.
作为故障诊断的一种方法,案例推理从以往的历史案例中检索相似案例作为新事件的参考解。在整个案例推理过程中,案例检索是最为关键的一步。案例检索的内容是以一定形式表达的案例,案例检索的方式是计算新事件与历史案例间的相似度。判断新事件与历史案例的相似度主要考虑两个问题,一是属性间的相似度,二是属性的权重。形式概念作为知识的一种表示方式,不仅能表达案例与属性之间关系,还能反映属性的权重。本文在基于形式概念的知识表达方式上,提出了一种改进的相似度计算方法。在改进算法中,引入了参数。在具体应用中,通过选取合适的的值,能为每个属性合理地分配相应的权重,使得检索结果更为精确。其效果在汽轮机故障诊断的实际应用中得到了检验。  相似文献   

7.
中文新闻事件检测的主要任务是从大量新闻中自动检测出潜在的新事件。人工构建事件特征词进行检测费时费力。单纯依靠密度聚类或谱聚类方法进行事件检测,存在不同事件的触发词相关性高时,容易误判为同一事件。为此,提出基于卷积神经网络和K-means结合的中文新闻事件检测与主题提取,将新闻中的文本向量化,通过深度学习抽取文本深层特征。实验结果表明:所提方法构建的模型准确率、召回率优于单一聚类方法,可对中文新闻事件准确识别,快速检测新事件,提取新事件主题。  相似文献   

8.
在复杂网络分析中,社团检测发挥着越来越重要的作用,而在实际应用中如何提高社团检测的性能仍是一个共同研究目标.由于网络节点中内容信息有助于社团识别,一些方法侧重于将网络拓扑和节点内容相结合,并且获得了不错效果.此外,也有些方法借用节点之间的拓扑相似度,以提升实现社团检测性能.鉴于此,我们提出了一个统一化方法,结合节点内容的半监督社团检测,简称SCDNC.在该方法中,我们不仅将链接增强应用于社团检测,而且实现了拓扑和内容有机融合.首先,我们运用随机模型来描述节点社团隶属度.其次,我们构建出一个刻画节点内容社团隶属度的随机块模型,节点社团隶属度作为节点内容的权重向量,以实现拓扑和内容结合.再次,我们利用网络中节点之间的拓扑相似度构建先验信息,即,使网络中节点与其最相似的邻居节点具有相同的隶属度分布.最后,使用非负矩阵分解的方法学习新模型的统一化参数.在带有真实标签的人工网络和真实网络上,我们对新方法与一些当前流行的社团检测方法进行了性能比较.实验结果显示,通过融合节点内容和先验信息强化的链接,新方法检测社团的性能取得了显著提升.  相似文献   

9.
随着互联网的普及,非结构化文本数据的规模不断扩大且越来越多地用于大众传播。因此,从海量数据抽取热点信息已成为一个重要的研究课题。针对新闻的热点挖掘进行方法改进及分析,结合新闻及事件模型,使用TextRank算法提取关键词,运用相似度计算方法,提出了一种基于评论的热点新闻事件识别方法。研究结果表明该方法具有一定的可行性。  相似文献   

10.
基于改进协同过滤算法的个性化新闻推荐技术   总被引:1,自引:0,他引:1  
针对传统的基于内容协同过滤算法只是依据用户历史访问矩阵向用户做出推荐,存在数据稀疏以及不能及时反映用户兴趣变化等问题,个性化新闻推荐技术在传统的协同过滤算法基础上提出了新闻文本内容相似度的计算方式和时间窗的概念,新闻内容相似度计算中还考虑了特征词的词性和在新闻中的位置的影响,时间窗用来建立适应用户兴趣随时间变化的模型;实验结果表明,改进后的算法有效地改善了新闻用户历史访问数据的稀疏问题,及时捕获用户兴趣,F-measure值相比传统的算法最大提高了11.5%,平均绝对误差值最高下降了8%,显著提高了推荐质量.  相似文献   

11.
中文新闻关键事件的主题句识别   总被引:2,自引:0,他引:2  
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。  相似文献   

12.
针对话题追踪与检测多停留在二维空间的平面集合操作,忽略了事件主题及其直接相关事件之间可能存在一定的层次关系这一问题,通过改进蚁群聚类算法中的相似度度量方法以及状态转换函数改进现有蚁群聚类算法,并利用改进的蚁群聚类算法实现新闻话题的子话题自动划分。结果表明,改进的算法能够具有较高的子话题划分识别能力。  相似文献   

13.
基于改进Single-Pass的农产品安全事件在线检测方法   总被引:1,自引:1,他引:0  
农产品安全事件在网络上快速传播,容易造成较大的社会影响或导致网络舆情事件,需要及时识别出农产品安全危机事件。提出了基于改进Single-Pass的农产品安全事件在线检测方法。通过将文本进行分块和动态更新特征词的文档频率,改进了特征词权重计算方法;通过引入时间距离,改进了Single-Pass算法聚类时的相似度度量方法。相对于改进前,系统的漏检率和误检率有明显降低;可有效进行农产品安全事件的在线检测,可用于网络上农产品安全危机事件的动态监测。  相似文献   

14.
分析了传统的安全审计分析方法,发现传统方法没有利用主机日志和网络数据特征之间的联系。通过分析主机日志得到可疑安全事件,再进一步融合主机日志和网络数据的有关特征作为一个整体进行分析。比较当前安全事件与正常历史事件、异常历史事件的相似度,审计出异常可疑事件。实验证明了该方法的可行性和有效性  相似文献   

15.
为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性.  相似文献   

16.
问答系统中的复杂问句通常涉及很多事件信息,正确处理其中的事件内容对提高系统准确率有重要的影响.为此,文中提出了一种融合事件信息的复杂问句分析方法.该方法将事件视为由多个要素构成的复杂数据对象,从而定义了事件的语义表征模型,给出了相似度计算方法.文中首先利用相关的事件抽取方法获取复杂问句中的事件信息,生成事件的语义模型实...  相似文献   

17.
分析了传统的安全审计分析方法,发现传统方法没有利用主机日志和网络数据特征之间的联系。通过分析主机日志得到可疑安全事件,再进一步融合主机日志和网络数据的有关特征作为一个整体进行分析。比较当前安全事件与正常历史事件、异常历史事件的相似度,审计出异常可疑事件。实验证明了该方法的可行性和有效性。  相似文献   

18.
基于数据相似度的间歇过程在线监控   总被引:1,自引:0,他引:1  
为了提高间歇过程批次之间产品的一致性,并及时发现过程中的异常情况,提出一种基于过程数据相似度的多变量统计监控方法对间歇过程的操作进行在线监控.该方法将正常批次轨迹与参考批次轨迹之间的相似度作为一种新的监控指标,并利用核密度方法估计相似度的概率密度函数,计算出控制限,在批次反应过程中利用Kalman滤波器对当前批次的数据进行实时的估计从而实现在线监控.该方法和传统多向主元分析方法的监控性能在一个青霉素发酵仿真系统上进行了比较.仿真结果表明: 该方法检测出渐变型扰动比MPCA方法提前了30 h.  相似文献   

19.
为对突发事件链进行表达和检索,提出了基于突发事件链三层结构框架的事件链建模方法.从突发事件连锁反应的特征出发,利用突发事件之间的次生、衍生、耦合和变异四种链式关系构建事件链,并设计了基于结构相似度的事件链检索方法,从层次结构、链入链出关系以及事件本身的特征相似度三方面度量事件链之间的相似度.最后通过实例计算验证了事件链的建模和检索方法的可行性.  相似文献   

20.
基于新冠疫情时代海外侨情危机事件频发,提出一种基于自动化信息要素抽取的新闻事件类型识别方法,对后疫情时代侨情新闻事件进行智能危机类别划分.首先,利用爬虫技术获取特定时间段的相关侨情事件新闻,进而采用信息抽取模型对语料数据进行信息要素抽取;然后,根据要素集的取值判断每条新闻的危机事件类型;最后,对2020年1月-8月的侨情新闻数据进行实证研究.结果表明:该方法不但能提升侨情分析的效率,还能进行多维度的危机状况信息可视化,有助于制定危机事件应对策略.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号