首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
在全球化网络化全面应用的信息爆炸时代,任何产业都受到舆情的困扰和影响.正面舆情能够推进行业的快速发展,而负面舆情会产生一定的阻力.产业或行业管理者面对网络舆情的来源、获取方式、多样化与不确定等现状,承受着极大的管理效能压力.文章应用LDA主题模型和SVM分类算法的机器学习及声量分析等方法,通过基础设施、应用推广等话题对新能源汽车政策文本和媒体文本展开舆情分析,提出适应行业发展的建议对策.  相似文献   

2.
由于网络舆情文本的数据量非常大,用人工方式很难从舆情文本中发现舆情热点。利用LDA(Latent Dirichlet Allocation)主题模型的文本降维及词语聚类功能,能够从海量的舆情文本中自动提取所关注的焦点主题词。但由于缺乏动态的时间分布机制,LDA难以捕捉随时间变化的热点词链。本文提出了加入动态时间层的DTD-LDA(Dynamic Time Distribution LDA)模型,增加了文档-时间和时间-主题的动态分布机制,改善了LDA主题词对时间变化的敏感性,可以有效提取迅速变化的舆情文本热点词链。实验表明,DTD-LDA相比较同类模型,在动态热点词链的提取上具有更好的准确率和召回率。  相似文献   

3.
随着民族地区信息化建设的不断推进,中国少数民族语言网络舆情研究也逐渐引起了大家的关注,文本分类和情感分析模块是舆情系统的重要组成部分。传统的文本分类方法主要通过统计字面上的词语重复次数,而对于文字背后的语义关联考虑甚少。该文重点介绍了一种基于LDA模型在少数民族语言(以彝文为例)网络舆情信息情感分析方面的应用,对文字隐含的主题进行建模,通过挖掘少数民族网页上的舆情信息所蕴含的主题,以及对这些主题进行情感分析,在事件全面爆发之前,采取应急措施。  相似文献   

4.
针对论坛缺乏热点话题提取方法的现状,提出一种将LDA(潜在狄利克雷分配)模型引入高校论坛场景主题的提取方式.在主题建模过程中,以回帖数量作为帖子热门程度的判定参数,根据帖子热门程度在语料中设置不同权重,随后使用Gibbs采样法提取主题.在此基础上设计并实现了包含数据抓取、文本预处理、主题提取三个模块的完整系统.将LDA模型引入系统并进行提取效果分析,实验结果表明LDA模型可以准确地提取出论坛文本中讨论的实时热点话题.  相似文献   

5.
以网络股评舆情数据作为非结构型文本数据研究对象,结合股票市场的相关交易指标,使用文本挖掘技术和机器学习算法确定投资者情绪测度指标,分析舆情数据中潜藏情感倾向对未来短期内股票收益率的预测能力.实证结果表明,舆情文本中挖掘潜藏情感信息能够以较高的准确率实现对股市收益率的预测.分析讨论了对预测结果有一定影响的特征字段与训练样本两个因素,发现在特征字段数量不变的情况下,随着训练数据的增多,预测结果的解释能力会有所提高;而当训练数据维持在一定范围内时,特征词数量的选取对预测结果也有很大的影响.  相似文献   

6.
当前互联网已成为公众获取信息、表达观点的重要平台,也带来社会舆情事件易发生的风险,通过对网络舆情走势的提前预测,能够准确判断热点事件的发展态势,为政府相关部门应对舆情危机提供参考.针对单一预测模型预测精度不高和社交媒体对舆情走势影响较大的问题,提出了融合微博热点分析和长短期记忆神经网络(LSTM)的舆情预测方法.利用网络爬虫和PyTorch机器学习平台构建了用于舆情时序数据分析的网络舆情预测系统;在此系统内,考虑微博的强时效性,采用网络热点分析技术计算微博热度分值;改进LSTM网络,设计由2个隐含层组成的MH-LSTM预测模型;将MH-LSTM模型用于舆情事件百度指数的定量预测中,通过试验验证了模型的正确性,证实了该预测模型拥有较好的预测效果.  相似文献   

7.
崔海燕  李雅文  徐欣 《广西科学》2022,29(4):627-633
得益于深度学习的快速发展,大数据分析技术不仅在自然语言处理领域应用广泛,在数值预测领域也更加成熟。为了提高科技需求数据主题热度预测的准确率,本文提出一种基于时间卷积网络(Time Convolution Network, TCN)的科技需求主题热度预测方法(Subject Heat of Science and Technology Demand Prediction Based on Time Convolution Network, SHDP-TCN),该方法融入科技需求的主题特征,并基于TCN及自注意力机制进行时序预测。实验结果表明,在真实的科技需求数据集上,本算法对科技需求主题热度的预测准确率优于自回归积分滑动平均(Auto Regressive Integrated Moving Average, ARIMA)、长短时记忆(Long Short-Term Memory, LSTM)网络、卷积神经网络(Convolutional Neural Networks, CNN)和TCN等算法。  相似文献   

8.
为了提高文本语义相似性度量的准确性,该文从深度学习的角度出发提出了一种新的文本语义相似性度量框架,充分利用深度神经网络实现词级别、句子级别、文本级别的表示学习,使得学习到的表示向量能提供融合上下文信息的丰富语义信息,在此基础上,设计了相似性度量层,采用简单的三层网络实现任意两个文本向量的相似性值计算.在两个基准数据集上...  相似文献   

9.
开发了一套由中文分词、向量空间模型建立(VSM)、特征提取、降维处理和文本聚类等模块组成的舆情分析系统,实现互联网舆情信息的主题发现;在舆情分析系统的实现过程中,提出了一种K-means改进算法。实验证明,改进后的算法在查全率和查准率上都有了一定的提高,能够得到较高且稳定的准确率。  相似文献   

10.
传统线上文本挖掘方法在克服相似性干扰时,需要加入大量约束条件,降低了挖掘准确率。为此,本文提出基于LDA模型和语义网络的线上文本挖掘方法。采用滤波处理法对线上文本信息进行滤波处理,获得线上文本的抗干扰向量,提取线上文本信息的频谱特征。利用语义网络构建线上文本的语义网络挖掘模型,计算线上文本挖掘信息的相似度。基于LDA模型对获取的线上文本阈值进行分类,得到线上文本挖掘权值,将挖掘到的关系词带入到概念属性内,实现线上文本的挖掘。实验结果表明,基于LDA模型和语义网络的线上文本挖掘方法不仅可以提高挖掘精度,还具有更强的收敛性。  相似文献   

11.
随着网络信息交互及传播的迅速与便捷,有效地对不断涌现的海量互联网信息进行采集并发现网络热点舆情具有十分重要的意义.研究网络舆情的表示及特征,提出采用网络化方法思想,结合Hits算法和PageRank算法进行舆情热点挖掘,并在此基础上设计了网络舆情热点挖掘系统.  相似文献   

12.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

13.
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法.  相似文献   

14.
为提高高校网络舆情的可识别性和预警实时性,提高网络舆情热点分析的准确性,论文设计了一个高校网络舆情热点发现模型.包括网络舆情信息采集、预处理、中文分词、特征选择、文本分词和聚类分析.考虑到网络舆情的不确定性和模糊性,提出了一种基于信息熵和密度改进的K-Means聚类算法的网络舆情相似度分析方法,此方法可以对网络热点和危机事件进行聚类和识别.实验结果表明,该方法能够快速获得网络舆情,具有较高的聚类准确率,证明了论文提出的模型的可行性与有效性,可为高校网络舆情监测和识别提供重要的技术支持.  相似文献   

15.
针对网络舆情分析领域,研究了系统聚类、String Kernels、K最近邻算法(K-nearest neighbor,KNN)、SVM(support vector machine)算法以及主题模型5种聚类算法。以网络舆情数据为对象集,以R语言环境为实验工具,比较了这5种算法的优势与劣势,同时进行了仿真实验。实验结果表明,主题模型相对于其他算法在文本聚类方面具有更好的适用性,其中,主题模型中的CTM(correlated topic model)方法更适合于类别关系的探索与发现,而Gibbs抽样方法则在文本聚类上的表现优于CTM方法。  相似文献   

16.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

17.
互联网自媒体呈现大数据特征,负能量言行时常爆发,舆情检测已经成为网络监管的重大难点问题.本文基于软件定义网络、蜜罐技术和分布式架构,综合"流量级"检测和"进程级"检测2个层面,通过构造异常行为数据集和敏感文本类型数据集,设计负能量舆情倾向的检验算法,搭建虚拟蜜罐式主动性舆情检测系统.实践证明,虚拟蜜罐式主动舆情检测系统,能较好地完成自媒体圈的主题倾向监测任务,为自媒体圈舆情检测技术提供新的研究视角.  相似文献   

18.
网络分析法将潜在的共病关系预测转化为复杂网络上的链路预测问题,而现有的基于相似性度量的链路预测方法大多仅单一地考虑某一方面的网络特征,大大影响了预测的准确性.使用3个不同来源的真实医疗数据集分别构建了相应的带权疾病网络,并通过对不同网络结构差异性的比较,分析了现有的网络相似性度量指标的局限性.在此基础上,提出了一种新的基于有监督分类的链路预测方法,综合多种局部和全局相似性指标作为输入特征向量,更为精确地评估节点间的相似性,从而实现潜在共病关系的有效预测.实验结果表明,该方法能有效提高共病网络中链路预测的准确性,并且对于不同共病网络和分类算法均具有较好的稳定性和适用性.  相似文献   

19.
大部分时间序列数据分析的一个重要组成部分是相似性度量方式.在众多相似性度量方式中,基于最长公共子序列的相似性度量方式是一种常用的有效方法,但该方法仅仅度量序列点对点的数值差异,而忽略了序列的变化趋势.为此提出一种基于趋势信息的时间序列离散化方法并用最长公共子序列进行相似性度量.该方法能够很好地度量时间序列的趋势信息.此外,还将其与现有的点对点函数线性结合.与现有相似性度量方法不同,该方法能同时考虑时间序列的趋势信息和函数距离,相似性度量方案运用最近邻分类算法规则进行分类.为了进行全面的比较,在42个时间序列数据集上测试该算法的有效性.实验结果表明,所提出的方法能有效提高时间序列分类准确率.  相似文献   

20.
详细分析和阐述了时态网络中的链路预测问题,将时态网络按时间顺序划分为具有相同时间间隔的多层网络快照序列.针对基于共同邻居的相似性指标对网络链路刻画粒度较粗糙的问题,提出了基于邻居节点聚类系数的相似性度量指标NCC和NCCP,并基于此提出时态网络链路预测算法.通过在真实数据集上的对比实验验证了利用邻居节点的聚类信息可以提高预测精度.利用真实邮件数据集验证了所提出的链路预测算法预测效果的优越性,并且实验结果证明越接近预测时间的网络结构对预测结果影响越大.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号