首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 238 毫秒
1.
根据话题跟踪的定义和特点,分析了K最近邻(KNN)算法和支持向量机(SVM)算法的优缺点,发现它们的优缺点具有互补的可能性,提出了KNN和SVM并行结合的算法作为话题跟踪算法,设计了话题跟踪实验,实验结果证明了新算法作为话题跟踪算法,考虑了话题跟踪的特点,利用了KNN算法和SVM算法的理论优势而避免了理论的缺陷,处理话题跟踪问题时具有很好的话题跟踪效果.  相似文献   

2.
面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK) 模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.  相似文献   

3.
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.  相似文献   

4.
知网的话题更新与跟踪算法研究   总被引:1,自引:0,他引:1  
话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,本文在现有的向量空间描述文档的基础上,实现了一个基于话题更新的话题跟踪算法,提出了基于知网的近义动词分析的跟踪算法及基于知网的近义动词分析和话题更新的话题跟踪算法.实验表明话题更新和同义词近义词的消除提高了话题跟踪算法的性能.  相似文献   

5.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

6.
话题跟踪是信息处理中的一项重要技术,如何提取鲁棒的话题样本特征是其中的研究重点。针对样本中的话题偏移问题,提出一种基于核主成分分析的算法。该算法首先利用开发集的先验知识构建加权矩阵;然后采用核主成分分析对样本进行话题偏移补偿,从而有效地去除了话题偏移的影响,提升了样本特征的鲁棒性;最后通过K-最近邻(K-nearest neighbor,KNN)和Rocchio算法进行分类。在Fisher英文数据库的话题跟踪测试结果表明,相对于基线系统,该系统在检测代价上有15%~18%的相对降低。  相似文献   

7.
针对俄文新闻文本的话题检测问题,以俄文文本的自动形态分析、命名实体识别作为辅助手段,设计了一种基于本体描述俄文新闻文本和话题信息并进行相似度计算的方法,随后使用Single-pass算法进行俄文文本的话题检测实验。通过对比基于向量空间模型和基于本体模型的俄文话题检测结果,证明了后者具有相对较高的准确性和有效性。  相似文献   

8.
根据中文新闻报道的特点,分析了信息增益的缺陷,对比了文本证据权,并用文本证据权的算法思想改善其缺陷,提出了基于两层阈值的特征选择算法,设计并实现了基于两层阈值的话题/报道表示模型.根据话题检测与跟踪评测结果,基于两层阈值的话题/报道表示模型的最好性能比基于信息增益的模型提高了3.321%,证明了新的算法和模型具有更好的性能.  相似文献   

9.
层次化话题发现与跟踪方法及系统实现   总被引:2,自引:0,他引:2  
自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。  相似文献   

10.
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法   总被引:1,自引:0,他引:1  
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价.  相似文献   

11.
话题检测与跟踪是当前自然语言处理领域的一个研究热点,而报道关系识别是其中的一项基础研究内容。为了得到高性能的报道关系识别算法,必须充分挖掘新闻报道中包含的信息。文章在分析了英语新闻报道书写特点的基础上,提出了基于内容分析的报道关系识别算法,算法中将新闻报道表示成两个向量空间模型。实验结果表明,文章提出的基于内容分析的报道关系识别算法不但简单易行,并能大大改进报道关系识别的性能。  相似文献   

12.
李萍 《科技信息》2010,(13):197-198
本文从英汉句法关系对比角度出发并结合大量的例子,探析汉语主题结构的类型,从主题结构的主语,主题与说明的关系,以及汉语主题结构的句类等方面分析汉语主题结构的特征,以增强对汉语句法结构的理解。  相似文献   

13.
毕业论文(设计)是本科生重要的实践教学环节,如何选取与专业相关的论文选题是每个学生首先面临的问题,因为信息与计算科学专业是比较新的专业,所以该专业学生论文选题上存在一些问题,本文分析了内蒙古民族大学信息与计算科学专业本科生毕业论文选题情况,提出了存在的问题及改进的方法。  相似文献   

14.
 中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增。利用这一特性,在传统的TF-IDF(term frequency-inverse document frequency)基础上提出一种改进的特征权重算法,称之为TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的权重,最后使用CURE(clustering using representatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性,实验结果表明,该方法能够有效地提高话题检测的效果。  相似文献   

15.
传统热点检测算法仅从单一的某个维度衡量话题的热度,导致热点话题检测精度低,在对突发性热点话题进行检测时尤为明显。针对此问题,提出一种多维度热点话题度量模型。该模型对话题进行筛选,得到一个热点话题初始集,再融入话题热度的影响力因子,计算各个话题的综合权值,将话题的综合权值按照一定的权重与多维度热点话题度量模型进行有效融合,得到一种基于微博多维度及综合权值的热点话题检测模型。通过使用真实的微博数据进行实验对比分析,实验结果表明,提出的多维度热点话题度量模型在对突发性热点话题的检测中,其准确率(Precision)、召回率(Recall rate)和F1值(F-measure)3个评估指标相比传统算法有了较大提高;利用该模型对突发性热点话题进行跟踪,通过与官方指数进行对比,该模型能有效跟踪其发展趋势。  相似文献   

16.
非线性系统的输出跟踪是控制理论及控制工程中的一个重要研究课题。该文针对一类不确定性满足匹配条件的仿射非线性系统,提出了一种基于标称系统和不确定性上界的连续型鲁棒状态反馈输出跟踪控制器设计方案。  相似文献   

17.
谈当代教学模式的发展趋势   总被引:1,自引:0,他引:1  
教学模式作为教学理论和教学实践的中介,以其独特的地位和作用引起了学术界的普遍关注,并逐渐成为教学论研究的一个热点问题。在本文中我们以教学模式的发展趋势为切入点,对这一问题进行了分析和探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号