首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
引进文本相关度这一影响因子,提出了一种基于蚁群聚类算法的突发话题检测算法,该算法结合蚁群聚类算法的优势,综合考虑文本聚类和文本相关度的影响,得到对网络突发话题检测的最优聚类效果,并对近年来网络突发话题进行实验,达到了很好的聚类速度和聚类效果,验证了算法对突发话题检测的准确性和即时性.  相似文献   

2.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.  相似文献   

3.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

4.
提出一种基于过渡像素的视频流人工文本检测与定位算法.该算法在水平和垂直方向上提取过渡像素点,生成过渡图.通过块滤波器抑制背景的过渡像素,采用基于密度的快速区域生长算法形成候选文本区域;再利用改进的局部二进制模型(LBP)验证候选文本区.仿真实验结果表明,本文的改进算法相对于Kim算法,字符定位的准确率更高.  相似文献   

5.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

6.
文本自动生成旨在实现机器像人一样写作,减少语言工作人员的工作量,为读者传送实时、简洁的新闻报道.它可被运用在智能问答和对话、新闻的自动撰写、突发事件报道等应用中,且一直是学术界和工业界想突破的研究问题.本文将文本自动生成建模成关键词集合覆盖问题,提出了一种无监督的抽取式文本自动生成算法.该算法优化了自动文本的结构,不再是一段式文本.实验表明,该算法在大规模语料库上可取得不错效果,生成的文本覆盖信息更全面,与人工生成的文本意思更接近.  相似文献   

7.
通过对CURE(Clustering Using Representatives)的研究,在此基础上,针对网络话题文本内容广泛、孤立点较多的特点,增加对孤立点的预处理过程,提出一种适用于网络话题文本聚类的层次聚类算法。该算法能降低算法对孤立点的敏感度,同时提高聚类效率,通过实验证明改进后的算法更适合运用在网络话题文本的快速聚类中。  相似文献   

8.
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。  相似文献   

9.
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能.  相似文献   

10.
根据中文新闻报道的特点,分析了信息增益的缺陷,对比了文本证据权,并用文本证据权的算法思想改善其缺陷,提出了基于两层阈值的特征选择算法,设计并实现了基于两层阈值的话题/报道表示模型.根据话题检测与跟踪评测结果,基于两层阈值的话题/报道表示模型的最好性能比基于信息增益的模型提高了3.321%,证明了新的算法和模型具有更好的性能.  相似文献   

11.
针对深度学习中对任意形状文本检测准确率不高的问题,提出了一种结合特征金字塔网络(feature pyramid network,FPN)和内核尺度扩展算法的文本检测网络模型.特征金字塔网络能够提取卷积层中更加鲁棒的特征,融合后生成不同尺度的特征内核;内核尺度扩展算法将生成的最小特征内核逐渐扩展为包围完整文本实例的特征图...  相似文献   

12.
提出一种基于深度玻尔兹曼机与典型相关分析的自动图像标注算法(DBM-CCA)。该算法利用深度玻尔兹曼机实现图像与文本的低层次特征向稀疏高层次抽象概念的转变,并通过典型相关分析建立子空间映射关系以实现标注词汇的生成。首先在深度玻尔兹曼机提取图像与文本高层特征过程中,选用伯努利分布和高斯分布分别拟合标注词汇和图像特征,然后在图像与标注词汇高层特征形成的典型变量空间内计算待标注图像与训练集图像的马氏距离并据此加权计算得到高层标注词汇特征,最后由平均场估计生成图像标注词汇。实验结果表明,所提算法对图像的标注准确率改善较好,与经典的基于监督的多类标签方法和多重伯努利相关模型相比,在Corel5K实验中平均查准率和查全查准均率分别提高了10%和5%。  相似文献   

13.
现有话题检测的主要方法是利用Single-Pass及其改进算法进行聚类分析,没有考虑文本的结构特点,相似度计算方法单一,从而影响准确度.针对此问题,改进了Single-Pass的相似度计算方法,综合考虑文本的标题、摘要、时间、地名以及来源等要素,采用层次分析法计算并赋以不同权重,提出一种多相似度计算组合策略.考虑到食品安全是一个广受关注的话题,实验通过网络爬虫抓取并筛选了最近3年食品安全方面的媒体信息,以此作为数据进行分析,结果表明,采用本文提出的改进Single-Pass聚类算法,话题检测准确度更高.  相似文献   

14.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

15.
互联网时代信息量庞大,简洁的标题可以提高信息阅读效率。在课堂场景下,知识点标题生成便于用户整理和记忆课堂内容,提高课堂学习效率。该文将标题生成应用于课堂教学领域,制作了课堂知识点文本—标题数据集;提出了一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentence positions, TKSP)算法,该算法综合考虑了关键词和句子位置等因素对句子权重的影响,能够更准确地提取文本重点信息。使用以召回率为导向的摘要评价(recall-oriented understudy for gisting evaluation, ROUGE)方法,TKSP算法在ROUGE-1、 ROUGE-2和ROUGE-L指标上的得分率分别为51.20%、 33.42%和50.48%,将TKSP抽取式算法与统一语言模型(unified language model, UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling co...  相似文献   

16.
文章提出一种能在实时场景下有效度量微博话题中用户影响力的算法。首先从用户文本的话题相关度以及传播网络转评关系出发构建用户特征向量,然后对生成的用户向量使用聚类的方法得到一批高影响力用户,再对这部分用户进行排序最终得到高影响力用户排序列表。同时,算法构造了少量但有效的用户特征以及特征的增量式更新公式,可以在实时环境下增量式运行,适用于捕捉微博中频繁的动态变化。在已有的3个话题数据集上的实验结果表明,文章所提算法的MAP值为0.903。  相似文献   

17.
针对数据挖掘中的文本分类问题,提出了一种基于遗传算法和信息熵的文本分类规则抽取算法Genet-ic-Miner(简称GM),该算法的目标是在数据集中发现分类规则。首先利用信息熵生成初始种群,然后利用优化的遗传算法抽取相应规则。采用六个标准的公共领域的数据集比较了GM与其它两个非常著名的同类算法Ant-Miner和CN2,实验结果表明,无论是预测准确性和规则的简单性,GM都明显优于Ant-Miner和CN2,并且该算法能大大提高对知识的理解力。  相似文献   

18.
针对新闻文本摘要提取过程中,传统抽取式算法存在对文本内容概括不全面、摘要内容冗余、关键词提取时未考虑异词同义等问题,提出了一种基于最大边界相关算法(MMR)和词汇语义网(WordNet)的新闻文本摘要生成算法——WMMR.该算法综合考虑文本相似度、关键词、句子位置信息、线索词等特征对句子权重的影响,从而优化MMR算法中的句子得分,并在计算关键词得分时引入WordNet合并同义词.在NLPCC2017公开数据集上验证本文算法的有效性,结果表明WMMR算法的ROUGE值相较于TextRank算法提升4个百分点,相较于MMR算法提升7个百分点.在神策杯2018与SogouCS公开数据集上验证本文算法的普适性,结果表明WMMR算法的ROUGE值相较于传统TextRank,MMR等算法均有提升,证明WMMR算法有效提升了生成摘要的质量.  相似文献   

19.
研究结合社交媒体特点,充分考虑标签文本和内容文本信息,融合了传统的LDA话题模型对社交文本信息进行话题聚类,从而实现了对社交数据的话题发现,与此同时,文章提出了基于关键词图模型构建话题特征,并结合支持向量机模型进行文本情感极性判别。研究在开放微博数据集和COAE2014公开评测数据上进行了相关实验,实验证明了有效的关键词图模型能进一步克服中文语义的模糊性和歧义性。  相似文献   

20.
面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK) 模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号