首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

2.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.  相似文献   

3.
给出了一种针对大量新闻数据的话题检测方法.首先通过LDA(latent dirichlet allocation)模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理地体现新闻主题特征.然后改进OPTICS(ordering point to identify the cluster structure)密度聚类算法,基于新闻话题的时间延续性给出了T-OPTICS算法.该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结果的影响.改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性.基于TDT4数据集的实验表明,该方法能够快速有效地发现新闻中的话题.  相似文献   

4.
根据中文新闻报道的特点,分析了信息增益的缺陷,对比了文本证据权,并用文本证据权的算法思想改善其缺陷,提出了基于两层阈值的特征选择算法,设计并实现了基于两层阈值的话题/报道表示模型.根据话题检测与跟踪评测结果,基于两层阈值的话题/报道表示模型的最好性能比基于信息增益的模型提高了3.321%,证明了新的算法和模型具有更好的性能.  相似文献   

5.
刘炜  李明  杨合立 《甘肃科技》2011,27(22):42-45
基于前人在TDT中对语义矢量的相似性计算研究,以及本体和语法结构在文本相似性研究方面的应用成果,提出了以词频分析作为辅助手段,将新闻中的关键要素归纳为时间、空间、参与事件的主客体、行为等几个语义类;借助WordNet与本体技术计算文档特征词的相似度,并且结合文本的语法结构特点,共同应用于文本的相似度计算,并以此作为新事件检测中相似度计算的基础,提高新事件检测的准确性。  相似文献   

6.
研究结合社交媒体特点,充分考虑标签文本和内容文本信息,融合了传统的LDA话题模型对社交文本信息进行话题聚类,从而实现了对社交数据的话题发现,与此同时,文章提出了基于关键词图模型构建话题特征,并结合支持向量机模型进行文本情感极性判别。研究在开放微博数据集和COAE2014公开评测数据上进行了相关实验,实验证明了有效的关键词图模型能进一步克服中文语义的模糊性和歧义性。  相似文献   

7.
立场检测任务的目的是通过分析用户对特定话题发表的评论以判断其对该话题是支持还是反对的,该任务的关键是捕捉文本信息与其对应话题的相关特征。针对目前已有的微博立场检测模型存在仅考虑文本特征,而未结合话题特征,以及忽略了情感信息对微博立场检测的影响而导致分类效果差的问题,文章提出基于卷积注意力的情感增强微博立场检测模型。该模型通过卷积注意力对文本信息和其对应的话题信息提取特征,同时捕捉其相关特征,然后通过情感增强中词语级情感增强获得带有情感信息的词向量表示,将其与相关特征点相乘得到针对话题的情感增强句向量,其次通过拼接句子级情感增强特征以丰富最终的语义表示,最后对该语义表示进行分类。该模型在NLPCC-2016数据集中取得了较好的结果,相对于目前最优模型在五个话题上分别提高了7.9%、5.8%、5.3%、1.3%和5.2%。  相似文献   

8.
中文新闻事件检测的主要任务是从大量新闻中自动检测出潜在的新事件。人工构建事件特征词进行检测费时费力。单纯依靠密度聚类或谱聚类方法进行事件检测,存在不同事件的触发词相关性高时,容易误判为同一事件。为此,提出基于卷积神经网络和K-means结合的中文新闻事件检测与主题提取,将新闻中的文本向量化,通过深度学习抽取文本深层特征。实验结果表明:所提方法构建的模型准确率、召回率优于单一聚类方法,可对中文新闻事件准确识别,快速检测新事件,提取新事件主题。  相似文献   

9.
为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现的热点话题,文中提出了基于在线LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态.实验结果表明,HTOLDA模型对各个时间片的论坛数据集的建模能力优于OLDA模型,并能够有效地对论坛中的热点话题进行演化跟踪.  相似文献   

10.
基于Web挖掘的领域本体自动学习   总被引:21,自引:0,他引:21  
为获取领域本体并量化概念关系的可信度,提出了一种基于Web挖掘的学习模型.通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并.模式可信度、概念语义距离与关联特征决定了概念间关系的可信度.通过"文本分析-本体获取-文本扩充"的迭代过程,优化模型参数和阈值.该模型解决了现有本体学习方法对词典或核心本体的依赖性、以及不能对关系进行可信度量化的问题.实验证明了所提出模型的有效性.  相似文献   

11.
话题检测与跟踪是当前自然语言处理领域的一个研究热点,而报道关系识别是其中的一项基础研究内容。为了得到高性能的报道关系识别算法,必须充分挖掘新闻报道中包含的信息。文章在分析了英语新闻报道书写特点的基础上,提出了基于内容分析的报道关系识别算法,算法中将新闻报道表示成两个向量空间模型。实验结果表明,文章提出的基于内容分析的报道关系识别算法不但简单易行,并能大大改进报道关系识别的性能。  相似文献   

12.
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法   总被引:1,自引:0,他引:1  
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价.  相似文献   

13.
基于实体识别的在线主题检测方法   总被引:2,自引:0,他引:2  
为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率的基础上,显著提高在线主题检测的效率。  相似文献   

14.
一种突发性热点话题在线发现与跟踪方法   总被引:1,自引:0,他引:1  
针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型—动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现与跟踪方法.该方法可有效解决传统的基于静态向量空间模型的热点话题发现与跟踪方法仅可分析静态文本的缺陷,并...  相似文献   

15.
Keyword extraction is an important research topic of information retrieval. This paper gave the specification of keywords in Chinese news documents based on analyzing linguistic characteristics of news documents and then proposed a new keyword extraction method based on tf/idf with multi-strategies. The approach selected candidate keywords of uni-, hi- and tri-grams, and then defines the features according to their morphological characters and context information. Moreover, the paper proposed several strategies to amend the incomplete words gotten from the word segmentation and found unknown potential keywords in news documents. Experimental results show that our proposed method can significantly outperform the baseline method. We also applied it to retrospective event detection. Experimental results show that the accuracy and efficiency of news retrospective event detection can be significantly improved.  相似文献   

16.
Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will be affected greatly. Aiming at this problem,hierarchical clustering algorithm based on single-pass is proposed,which is inspired by hierarchical and concurrent ideas to divide clustering process into three stages. News reports are classified into different categories firstly.Then there are twice single-pass clustering processes in the same category,and one agglomerative clustering among different categories. In addition,for semantic similarity in news reports,topic model is improved based on named entities. Experimental results show that the proposed method can effectively accelerate the process as well as improve the performance.  相似文献   

17.
基于Web知识本体的Topic Maps研究   总被引:1,自引:0,他引:1  
针对复杂产品设计行业信息系统应用集成中存在的Web知识的检索、共享、集成和重用问题,研究了复杂产品设计行业中异构设计本体和异构应用本体的抽象特征,提出了一种基于知识本体与Web服务的主题图(Topic Maps)概念,构建了复杂产品设计行业知识本体的主题图,以复杂产品设计中的若干知识为例说明用主题图构建复杂产品知识本体库的方法.利用主题图对复杂产品设计领域的知识进行知识类型描述、信息抽取与表示,建立了复杂产品设计的本体库,实现了对知识的快速高效检索和对异构、分散知识的共享和重用.  相似文献   

18.
知网的话题更新与跟踪算法研究   总被引:1,自引:0,他引:1  
话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,本文在现有的向量空间描述文档的基础上,实现了一个基于话题更新的话题跟踪算法,提出了基于知网的近义动词分析的跟踪算法及基于知网的近义动词分析和话题更新的话题跟踪算法.实验表明话题更新和同义词近义词的消除提高了话题跟踪算法的性能.  相似文献   

19.
新闻策划是近些年来新闻界的热门话题。文章认为 ,新闻策划的意义在于 :能加强报道的计划性 ;能提高报道的质量 ,加大报道的力度 ;能充分利用新闻资源增加独家新闻 ;能加强传者、受者与事件三者的纽结力。新闻报道策划可以从多层次入手 ,如战役性策划、议题性策划、主题性策划和介入性策划等等。  相似文献   

20.
中文新闻关键事件的主题句识别   总被引:2,自引:0,他引:2  
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号