首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 567 毫秒
1.
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。  相似文献   

2.
针对当前微博影响力度量算法中多集中于用户行为属性,忽略博文、结点本身价值的问题,从微博用户信息出发,以线性加权模型为基础,综合分析用户的行为属性、博文相似度、节点相似度,创建影响力评价指标体系。利用Page Rank算法思想,提出了基于用户行为和博文内容的用户影响度量模型(user influence measurement rank,UMR)。通过采用新浪微博真实数据集测试,计算用户的影响力,验证了UMR算法在博文内容的基础上,能客观地反映用户的交互行为,消除僵尸用户对排序的影响,因而更科学、更合理。  相似文献   

3.
微博,是当前重要的社会信息传播平台之一,具有易操作、传播快等特点,人们可以通过微博直接快速地表达对突发事件、公众人物、热门产品等的观点。为了利用海量微博信息,需要综合多种分析方法挖掘其潜在价值。综述了当前微博分析领域的研究现状,提出了自主研发的微博分析系统,探讨了未来微博分析的研究方向。首先,介绍了微博分析的主要技术方法,包括利用微博开放平台和利用网络爬虫技术。利用微博提供的开放接口,可以方便快捷地获取微博信息,如微博内容、用户评论、用户个人详情、粉丝数、关注数等。但也存在诸多限制,如每小时只能抓取有限次数、微博平台并不开放所有信息资源等。利用网络爬虫技术可以获取更多信息,如基于全网的网络爬虫的信息采集技术可以覆盖更广的范围,基于主题的网络爬虫的信息采集技术可以选择性爬取预先设定的主题等。其次,介绍了目前微博分析的热点问题,包括微博用户行为和微博内容两方面。微博用户行为分析包括:1)传播网络研究,利用Gephi等可视化工具,呈现出微博在传播过程中的传播路径、传播范围、关键转发节点等信息,可用于预测未来传播情况;2)传播因素研究,通过分析用户行为,揭示信息传播的可能原因;3)用户影响力分析,不同学者给出不同的度量方法,而要精准地评价用户影响力需要综合考虑多方面因素,如粉丝数、转发数、被提及数、回复、社会关系等。关于微博内容的分析包括:1)微博文本预处理,包括分词和去停用词2个步骤;2)微博热点话题发现,常用方法包括基于词频的统计方法和文本聚类方法,这两种方法都有利于提高发现热点话题的效果,但没有考虑到话题动态演变的特性;3)情感分析,也被称为观点挖掘,一直是微博研究领域的热点问题,可以利用微博表情图片抽取情感词,并结合构建语义词典和机器学习的方法对微博进行情感分类,最终判断微博情感极性,可用于舆情监控、商业预测和产品选择等方面。再次,提出了自主研发的微博分析系统——阅微,重点介绍了其情感分析、地域分布和传播图3个模块。情感分析模块,基于情感词典的方法对用户的评论内容进行情感分类;地域分布模块,提取参与用户的地理位置信息并加以统计分析,呈现出微博传播在全国范围内的分布情况;传播图模块,利用可视化手段展现微博信息的传播扩散情况,如转发关系、转发层级、转发范围等情况。最后,归纳全文,从技术和应用2个方面归纳微博分析的挑战问题:可从技术上突破微博接口资源限制,提高微博分析的效率和精准度;同时从微博应用方面发展事件监控、管理和商业方面的应用。  相似文献   

4.
传统热点检测算法仅从单一的某个维度衡量话题的热度,导致热点话题检测精度低,在对突发性热点话题进行检测时尤为明显。针对此问题,提出一种多维度热点话题度量模型。该模型对话题进行筛选,得到一个热点话题初始集,再融入话题热度的影响力因子,计算各个话题的综合权值,将话题的综合权值按照一定的权重与多维度热点话题度量模型进行有效融合,得到一种基于微博多维度及综合权值的热点话题检测模型。通过使用真实的微博数据进行实验对比分析,实验结果表明,提出的多维度热点话题度量模型在对突发性热点话题的检测中,其准确率(Precision)、召回率(Recall rate)和F1值(F-measure)3个评估指标相比传统算法有了较大提高;利用该模型对突发性热点话题进行跟踪,通过与官方指数进行对比,该模型能有效跟踪其发展趋势。  相似文献   

5.
社交网络服务每天产生大量涉及众多话题的信息,并在影响力各异的用户群体推动下广泛传播。在IP(influence passivity)算法的基础上,提出了一种综合话题相似性与信息时效性的影响力用户发现算法EIP(extended influence-passivity)。该算法在转发网络上考虑用户间话题的相似性以及博文信息时效性,更加精准地建模和计算用户的影响力和消极性。基于新浪微博上爬取的约10万用户数据集上的实验验证,EIP影响力度量算法优于IP和TwitterRank等现有方法。  相似文献   

6.
面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK) 模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.  相似文献   

7.
基于微博表情符号,提出一种自动构建情感词典的方法。 从微博平台抓取大量带有表情符号的微博文本,并依据表情符号对微博文本进行情感倾向标注,生成情感语料库。 对语料库进行分词、去重等预处理工作,根据词性规则抽取微博文本中情感词,统计每个情感词在正向和负向语料库中出现的次数,计算情感词的卡方统计值获得情感强度,根据情感词在正负微博文本中出现的概率判定情感词的倾向性,进而生成情感词典。 这是一种全新的思路。 以人工标注的情感词典为基准数据,实验结果表明,本文方法标注情感词的准确率在80%左右,在情绪词强度阈值θ为20、30时,生成情感词典综合F值最好,达到了82%以上。   相似文献   

8.
食品安全是广受民众关注的热点话题,而微博已经成为食品安全事件曝光的主要媒体平台.以微博语料作为数据源,同时使用微博内容和用户的社交网络行为特征,提出了基于动量模型的食品安全事件发现方法.该方法以事件发现作为描述食品安全事件的基本模型,以检测出微博信息流中与食品安全相关的候选特征词,然后采用动量模型实现候选特征词的动量建模和重复特征词的有效过滤.最后,通过K-means聚类将有效的特征词进行归类合并,以实现食品安全事件的发现.试验结果表明:该方法能够有效发现在微博中传播的食品安全事件,并能过滤掉微博中无关的话题.  相似文献   

9.
在研究社交网络用户相关网络信息的基础上,提出一种基于微博博文或论坛帖子内容分析的用户群行为特征分析方法,通过用户所发表博文或帖子内容的相似性比较,根据用户之间博文或帖子的相似性来判断用户的相似性,进而建立用户群,提取群内用户的行为特征。实践证明此方法能够有效地分析社交网络中具有相同用户行为特征的用户群。  相似文献   

10.
随着社交网络的快速发展,人们可利用微博平台发表、分享自己的观点以及抒发某种情绪,进而产生了大量针对不同话题的博文和情绪信息,但传统的文本挖掘算法在处理这些短小且具富含个性化情感信息的微博文本方面有所欠缺。在此提出一种基于微博文本的特征权重计算方法,可据此得到博主在不同时间段的关注点,通过情绪分类,分析用户在不同时间段内的情绪变迁情况。实验结果证明此方法具有一定的可行性。  相似文献   

11.
高校图书馆的服务是一种专业性、学科性很强的服务。以2008—2012年图书情报档案类39种期刊关于"学科服务"的397篇文章为样本,利用Excel、SPSS对5年来研究"学科服务"的主要期刊、代表作者、作者来源机构和高频研究热点进行了统计分析,并对近5年"学科服务"的研究热点进行了述评。  相似文献   

12.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

13.
提出了一种面向情绪分类的融合词内部信息和情绪标签的词向量学习方法。在CBOW模型的基础上,引入词内部成分和情绪标签信息,以适应微博情绪表达的不规范,同时丰富词向量的情绪语义。对于输入文本,按照词的TF-IDF权重对词向量进行加权求和,以作为文本向量表示。以上述词向量或文本向量作为情绪分类器的输入,采用机器学习的分类方法(LR、SVM、CNN),验证本文情绪词向量在情绪分类任务上的实验效果。实验表明,情绪词向量与原始CBOW词向量相比,在准确率、召回率、F值等各项指标上都有更好的表现。  相似文献   

14.
研究运用文献计量法,以"眼动"、"阅读"为主题词,对中国期刊全文数据库(CNKI)学前教育、初等教育和中等教育学科领域进行检索分析。结果发现,我国儿童阅读眼动研究具有起步迟,研究力量集中在少数几所高校,研究成果有限,且集中刊载在面向高校的学术期刊和博士、硕士学位论文数据库等特点。总体而言,儿童阅读眼动研究成果不被阅读教学界了解,系统性研究比较缺乏,缺少对语文教育热点话题的关注。  相似文献   

15.
长阳南曲曲牌[南曲尾]曲词在句式上有自己的特点,传统观点所界定的“十字句”句式除去衬字后,其实可以更进一步细分为由两个“四字句”组成的“八字句”,而“八字句”加衬字则是[南曲尾]最重要的基本句式。另外本文还对[南曲尾]曲词基本句式构成的多样化、衬字使用规律以及从押韵角度予以重新分类进行了深入的分析和探讨。  相似文献   

16.
针对LDA(Latent Dirichlet Allocation)主题模型生成的大量topic,很大部分topic内部词语相关度很低,可解释性差,对语言模型后的应用效果带来一定的影响.针对这一问题,该文提出了一种基于主题加权LDA模型的情感分类方法,该模型实现不同主题中内部相关的词语特征加权计算,能够消除不同主题内具有相关度词语的相互影响.实验结果表明,与传统LDA模型分类方法对比,该文提出的基于主题加权LDA模型的情感分类方法平均F1值提高了6.7%~8.1%,验证了该文提出的方法是有效的,提高了分类效果.  相似文献   

17.
针对海量网络文本信息的获取、 量化和分析的难题, 采用信息抓取技术获得网络金融舆情文本信息, 并根据数据的信息量对金融舆情信息进行分类, 建立因子模型和时间序列模型, 分析网络金融舆情信息对我国股票市场的影响。通过实证得到以下结论: 与单只股票相关的网络文本信息数量, 明显影响了该只股票在第2日的收益率; 信息容量越大的网络文本信息对股票的影响力越大, 而不同组的信息对收益率的作用方向不同; 网络文本信息的数量与股票波动率明显相关, 信息容量不同的文本信息对波动率的影响力也不同。  相似文献   

18.
为了研究微博用户表达情感的特性,从个人化的情感表达和对社会性事件的态度反映两类文本出发,分别对个人情感变化以及热点事件中的用户情绪进行分析,设计并实现了微博情感可视化系统(sentiment visualization system for microblog, SVSM)。个人化情感研究记录用户在时间轴上的情绪波动,并且从性别及地域属性上分析个人情感差异;热点事件情感研究监测用户情绪的群体表达,从时间、空间、热词、用户属性、事件属性以及传播特性等角度进行特性分析。  相似文献   

19.
“一点儿”和“有点儿”是意义相近但用法有所不同的一组词。前贤对它们的联系与区别作过研究,本文用大量例句结合现代理论对“一点儿”只能修饰动词或形容词的否定式的原因加以解释,并对“有点儿”在修饰动词或形容词的否定式时只能用否定词“不”而不能用“没”的原因加以解释。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号