首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 378 毫秒
1.
网络新闻文本的专题发现(Topic Detection)旨在从大规模网络新闻文本集合中自动提取属于相关于同一主题的新闻文本。由于专题的主题、类型和规模并未预先定义,并且不具备任何先验知识可供参考,从而,现有研究往往利用聚类方法实现专题的自动发现。然而,聚类算法对内容相近的新闻专题难以有效区分。针对上述问题,提出了一种基于"社交圈子"结构的文本归并方法,深入特定聚类内部,根据社交圈的差异,进行二次划分。将文本内容和社交网络共同作为判定专题内外关联程度的特征信息,形成联合的判定模型。实验结果显示,在采用TFIDF作为特征的聚类结果中使用"社交圈子"进行进一步聚类划分,可提高精度达3个百分点,此外,聚类结果的熵降低了0.258,显示了较高的确定性。  相似文献   

2.
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。  相似文献   

3.
基于LDA的文本聚类在网络舆情分析中的应用研究   总被引:1,自引:0,他引:1  
针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相似度的融合系数并进行线性结合来获取文本之间的相似度,同时使用F-measure值来对聚类结果进行评估。在构建LDA主题模型时,采用Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定。从仿真实验的聚类结果的准确性和稳定性来看,该方法相比传统的文本聚类算法具有更良好的效果。  相似文献   

4.
为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性.  相似文献   

5.
页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用.由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词.通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)方法相比,此算法召回率平均提高了7.15N,准确率平均提高了7.075%.  相似文献   

6.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.  相似文献   

7.
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复杂度问题。首先建立词汇网络用以抽取关键义原,以词语义原代替单词作为网络节点,不仅避免了语义消歧,同时考虑到词语间语义相似性与词汇相关性,使所提取的特征向量更能表现出文章的主旨,提高聚类效果;另一方面,训练深度学习网络对特征向量降维处理,在降维的同时保留尽可能多的信息,大大减低算法的执行时间。聚类质量检测方法(F-measure)的结果表明,本文算法比k-means算法在中文文本聚类中有更好的表现。  相似文献   

8.
在此提出利用小生境免疫算法的中文文本聚类新方法,将文本的聚类问题转化为多峰函数的优化问题,以多峰函数的峰值代表聚类中心,用这种方法对中文文本进行聚类操作,类的个数不必预先给定。通过模拟仿真测试,证明这种新的方法具有更高的精度。  相似文献   

9.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

10.
自动摘要是自然语言处理中研究文本主题提取的重要课题.传统的摘要研究侧重于新闻、Web网页和博客等长文本的主题提取.本文关注以微博为代表的短文本的主题摘要,提出基于图结构的微博主题区域划分方法,并采用LDA方法提取微博热点事件的主题信息.最后,通过可视化方式展现主题内容在微博转发中的变化.  相似文献   

11.
Social media like Twitter who serves as a novel news medium and has become increasingly popular since its establishment. Large scale first-hand user-generated tweets motivate automatic event detection on Twitter. Previous unsupervised approaches detected events by clustering words. These methods detect events using burstiness,which measures surging frequencies of words at certain time windows. However,event clusters represented by a set of individual words are difficult to understand. This issue is addressed by building a document-level event detection model that directly calculates the burstiness of tweets,leveraging distributed word representations for modeling semantic information,thereby avoiding sparsity. Results show that the document-level model not only offers event summaries that are directly human-readable,but also gives significantly improved accuracies compared to previous methods on unsupervised tweet event detection,which are based on words/segments.  相似文献   

12.
针对汉越跨语言事件检测缺少平行语料,越南语标注困难,需要统一跨语言语义空间,且触发词存在较大的歧义和局限性等问题,提出基于事件类型感知的汉越跨语言事件检测方法。构造类型感知的注意力机制突显事件特征,融入汉越的词位置、词性和命名实体信息,并通过梯度反转(gradient reversal layer,GRL),实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测,缓解越南语的数据稀缺和触发词的局限性。实验中提出的方法较最好的基线模型在准确率上提升了4.32%。  相似文献   

13.
利用微博数据检测突发事件具有重要意义.针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法.该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,...  相似文献   

14.
Keyword extraction is an important research topic of information retrieval. This paper gave the specification of keywords in Chinese news documents based on analyzing linguistic characteristics of news documents and then proposed a new keyword extraction method based on tf/idf with multi-strategies. The approach selected candidate keywords of uni-, hi- and tri-grams, and then defines the features according to their morphological characters and context information. Moreover, the paper proposed several strategies to amend the incomplete words gotten from the word segmentation and found unknown potential keywords in news documents. Experimental results show that our proposed method can significantly outperform the baseline method. We also applied it to retrospective event detection. Experimental results show that the accuracy and efficiency of news retrospective event detection can be significantly improved.  相似文献   

15.
藏语孤立词语音识别系统研究   总被引:3,自引:0,他引:3  
藏语语音研究相当滞后,文章结合语音识别知识和藏语特点,尝试性地研究了藏语孤立词语音识别研究.首先提取MFCC参数作为语音特征参数,形成语音模板库,采用DTW模型实现了语音识别系统,并且针对藏语孤立词多音节的特点,改进了传统的基于短时能量和短时过零率双门限检测法,即加入了音节间静音段时长门限,提高了孤立词语音信号检测的准确性和识别率.  相似文献   

16.
针对某一类产品的文本倾向性分析成为了现在研究的热点.该文以搜索引擎的媒体报道为出发点,使用已有的情感词典集合,以及通过信息熵的方法从训练集合中提取特征词,采用贝叶斯分类方法对文本进行倾向性分析,将媒体新闻分为正面报道、负面报道和无倾向性3类,得到了比较理想的正确率.  相似文献   

17.
以不同类型微地震监测事件在波形相似性上的差异为基础, 结合发生位置、走时规律和偏振方向等方面的特征, 提出一种基于波形聚类分析的微地震监测事件类型判别方法。首先使用常规的微地震事件识别算法, 快速地得到待分类的疑似事件; 然后进行波形聚类分析, 结合事件的属性特征, 实现对不同类型微地震事件及噪声事件的分类和判别。分类结果可用于波形模板匹配, 识别同类的低信噪比微地震事件; 还可将所有同类事件作为一个整体, 采用全局优化手段提高初至拾取的精度。  相似文献   

18.
 中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增。利用这一特性,在传统的TF-IDF(term frequency-inverse document frequency)基础上提出一种改进的特征权重算法,称之为TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的权重,最后使用CURE(clustering using representatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性,实验结果表明,该方法能够有效地提高话题检测的效果。  相似文献   

19.
目前智能环境中传感器网络所采集的海量数据面临着进行有效事件的模式分类及异常检测的难题.为了有效对智能环境中传感器网络采集的时间序列数据所表征的事件进行分类,提出了基于协方差特征空间映射数据的聚类分析方法.通过对采集得到的时间序列数据按时隙进行划分,映射到协方差特征空间,然后对映射后的数据进行了动态密度聚类,从而实现对事件的分类;并根据聚类结果建立分类模板,作为对日常事件进行分类划分的检测方法,同时利用所得的分类模板,实现对异常事件的检测.实验结果表明,基于协方差特征空间映射数据的聚类分析方法能有效对传感器网络采集的时间序列数据所表征的事件进行分类,并能有效提升异常事件的检测及筛选效果.  相似文献   

20.
中文新闻关键事件的主题句识别   总被引:2,自引:0,他引:2  
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号