首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 309 毫秒
1.
面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK) 模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.  相似文献   

2.
基于共词分析的聚类算法存在的不足:①聚类过程需要事先确定聚类数目;②关键词只能被划归一个聚类,文章采用复杂网络社区检测算法改进共词分析方法,提出改进的社区检测算法CW_UEOC(Co-occurrence weighting unfold and extract overlapping communities),并对来...  相似文献   

3.
尊敬的读者朋友,您好!在作者和编辑老师的共同努力下,本专栏又和您见面了!文献大数据分析和重叠社区发现是大数据与社会计算领域的研究热点,也是本期关注的两个主题。文献大数据分析的研究目的之一,就是帮助广大研究人员快速进入目标领域,敏捷追踪其中的方向、方法和工具等,从而有效降低研究成本,缩短成果周期;重叠社区发现是复杂网络挖掘领域的基础性工作,成果应用于社交网络、通讯网络、蛋白质相互作用网络、代谢路径网络、交通网络等各种网络的数据分析中,可服务于人力资源管理、新药研制、交通规划、传染病防治、舆情控制等领域。 本期“数据分析与计算专栏”共推出2篇文章。 第1篇是翟君伟等撰写的“基于LDA主题模型的文献特征项多重共现可视化方法”。共现网络分析是文献计量研究中分析文献特征项数据关系的一种可视化方法,为解决多重共现网络中节点过多、连线密度过大、不利于发现数据的价值以及可视化效果较低等问题,引入LDA主题模型,采用空间划分的方法,将特征项全域可视化的问题转化为子空间可视化问题。首先,使用SATI文献题录信息分析软件抽取文献关键词,进行TF IDF计算,以计算结果作为实验数据;其次,使用Python构建主题模型,对目标文献集合进行主题聚类分析;最后,使用Ucinet软件对不同主题子空间文献进行多重共现分析,并将子空间分析结果叠加和重构,完成多重共现可视化系统的结构化表达。结果表明:与原多重共现可视化方法相比,基于LDA主题模型的多重共现可视化改进方法降低了共现网络中的节点数量和节点间连线密度,使得多重共现可视化系统的结构更为清晰,增加了数据的可读性,突出了数据价值,有效提升了多重共现可视化效果。 第2篇是张妍等撰写的“基于社区森林模型的分布式重叠社区发现算法”。针对传统单机重叠社区发现算法已经不适于大规模复杂网络挖掘,以及不能支持网络表示学习任务相关要求的问题,提出了一种基于社区森林模型的分布式重叠社区发现算法(distributed community forest model,简称DCFM算法)。首先,将网络数据集存储到分布式文件系统,将数据分块,使用分布式计算框架在每个数据分块上执行CFM算法;然后,执行社区合并;最后,汇总社区划分结果,使用真实的DBLP数据集将算法运行于Spark集群上,采用F均值和运行时间对算法进行评估。结果表明:DCFM算法的F均值稍逊于CFM算法,但其运算时间随着节点的增加接近线性下降,在牺牲小部分F均值的同时,DCFM算法具备处理大规模网络数据的能力;分割份数对计算时间的影响也很大,在com dblp.ungraph.txt数据集上,CFM算法处理数据需要192 min,而DCFM算法在将数据分成6份时,需要约91 min,分成100份后仅需要约13 min。因此,在大数据平台上采用分布式计算骨干度,进行社区划分、合并的DCFM算法是一种可行的大规模复杂网络挖掘方法,通过对网络进行分割,可以大幅加快社区划分速度,提高社区发现效率。 限于学术水平,以上文章定有可进一步完善之处,欢迎各位朋友不吝指正! 刘滨,男,1975年出生,教授,硕士生导师,河北科技大学大数据与社会计算研究中心主任,主要研究领域包括网络新媒体、大数据、社会计算等。已发表学术论文100余篇,主持国家级科研课题2项、省级科研课题9项。  相似文献   

4.
特征词提取算法大多以选取单个关键词为主,存在词与词关联度缺失,文本主题表达不准确的问题,为此提出一种基于词共现的文本分类算法。通过计算词间共现率,利用TextRank算法构建共现图得到共现词组,建立文本向量表示模型,并利用SVM算法实现文本分类。实验证明,共现词作为文本特征项相对于传统单个特征词有更好的分类效果。  相似文献   

5.
随着互联网的发展,网络信息正飞速增长.社交网络如Facebook,Twitter,微博等相继出现,用户通过虚拟平台可以获得自己感兴趣的信息,找到爱好相投者.面对海量的内容信息,如何选择各自所需成了当下研究的话题,因此推荐系统应运而生.进一步地,如何更加个性化推荐信息也成为探讨热点.本文以微博社区为平台提出了一种基于微博的个性化社区推荐算法,通过对传统的Jaccrad相似度方法改进,从用户所关注博主以及所参与社区或话题两方面考虑用户之间相似性.继而通过改进的Page Rank算法筛选出具有影响力的对象作为待推荐集.与传统Jaccard和Page Rank算法相比,本算法在平均准确率的平均值MAP上分别提高了42.6%和34.3%.  相似文献   

6.
传统的基于关键词匹配的查询方法因查询词短少,微博博文短小,容易引起歧义性,对查询效率有较大影响.提出一种基于本体和局部查询反馈的微博查询扩展算法,首先结合安全领域文档构建安全领域本体知识库,然后利用本体提供的语义知识对初始查询词进行扩展,再结合局部查询反馈对候选扩展词集进行筛选,最后通过二次查询和迭代操作得到最终查询结果.实验结果表明,基于本体和局部查询反馈的微博查询扩展算法比基于关键词的查询扩展算法、基于本体的查询扩展算法和基于"伪相关反馈"的查询扩展算法有更好的查全率和查准率.  相似文献   

7.
<正>近年来,全国各主要城市均不同程度遭受了雾霾的侵扰,尤以京、津、冀最为严重。为此,雾霾的防治问题再次吸引了全社会人士的共同关注,也成为全国"两会"热议的话题。随着经济社会发展,雾霾现象日趋严重,已经成为一种新的灾害性天气。虽然我国采取了一系列措施治理大气污染,但雾霾天气的影响仍在加剧,不仅严重影响市民群众的身体健康、增加交通安全隐患,还影响到经济社会的可持续发展。为此,2014年1月4日,国  相似文献   

8.
现有的微博社交网络社区挖掘方法多是基于网络结构进行,忽略了节点本身行为的重要性,并且不能同时实现对大规模复杂网络结构适应性和社区挖掘的高效性。为缓解上述问题,提出了一种基于网络距离和内容相似度的微博社交网络社区划分方法,该方法在考虑微博社交网络结构的同时兼顾了网络中节点的历史微博内容,通过对历史微博数据的分析提高社区划分的精确度。文中对Louvain算法和其模块性的修改使用,保证了该方法能够处理大规模网络数据,同时又能保证社区挖掘的效率。实验证明,该方法能够高效地挖掘微博网络社区结构,对学术研究和商业应用都有十分重要的意义。  相似文献   

9.
针对传统的无向网络社区挖掘方法无法实现大规模有向网络中社区有效发现的问题,提出了一种新的有向图社区及其兴趣特征快速挖掘算法。采用贪心算法求解社区划分模块性最大化的优化问题,较好地平衡了有向图社区挖掘中准确性与有效性之间的矛盾,实现对大规模微博类有向网络社区结构的有效识别;基于发现的社区,采用tf-idf算法进一步挖掘社区用户的兴趣爱好,实现了对微博网络中兴趣小组的精确挖掘。基于新浪微博的实验结果表明:所提算法不仅可以快速有效地挖掘有向网络中的社区结构及其用户的兴趣特征,还能够准确地检测出微博网络中的僵尸粉社区,研究结果对微博系统的净化、谣言控制、网络广告的精准投放等研究具有重要的参考价值。  相似文献   

10.
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。  相似文献   

11.
利用微博数据检测突发事件具有重要意义.针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法.该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,...  相似文献   

12.
该文运用文献计量学的共词分析方法对量子信息科学2002—2011年的56072篇SCI论文的关键词进行分析,通过多元统计分析、共词聚类分析、类团粘合力计算和绘制关键词一关键词共现的聚类树形图和核心关键词关联知识图谱,挖掘当前量子信息科学的研究热点,得出量子信息科学目前主要集中在量子密码、量子计算、量子纠缠、量子点、量子阱、半导体量子点、量子阱激光器、量子点激光器、量子信息科学实验技术、制备量子点、量子阱、量子芯片等方面的研究上。  相似文献   

13.
雾霾问题是当前危害中国人民群众健康的严重环境问题.由于雾霾天人们倾向于逗留于室内,室内空气质量便成为一个值得关注的问题.有鉴于此,本文中拟用红外光谱分析法对雾霾天采集的室内灰尘的化学组成进行研究.在中国雾霾污染最为严重的河北省保定市、雾霾污染相对严重的时间段选取不同日期采集了一系列室内灰尘样品.之后,对采集的样品进行红外光谱研究.通过红外光谱分析,对雾霾天室内灰尘的化学组成有了一个较为清晰的认识.实验结果表明,室内颗粒物由无机物和有机物组成.通过和标准物的红外谱图的对比,发现无机盐成分主要含有硫酸盐、硝酸盐、磷酸盐、铵盐等.对于有机物,笔者发现浮尘中存在蛋白类物质.本文的研究结果对理解雾霾污染对人民群众健康的危害具有一定的参考价值.  相似文献   

14.
对利用主题模型挖掘医疗服务主题进行了深入研究,针对LDA主题模型用于医疗评论主题挖掘中存在的语义稀疏、共现信息不足等问题,提出一种基于词共现分析与LDA主题模型结合的CO-LDA模型.首先使用词共现分析方法对评论语料库进行分析,得到词共现矩阵.其次利用LDA主题模型对语料评论进行建模表示,挖掘出患者对医疗服务的关注点.基于平均最小JS距离、平均肯德尔等级相关系数τb及平均TF-IDF 3个指标对比CO-LDA模型与传统LDA模型在医疗评论主题挖掘中的应用效果,实验最终表明CO-LDA模型识别主题的一致性和主题质量优于LDA模型.将实验结果与中国《医院评价标准》进行对比,一致性较高,说明基于CO-LDA的在线医疗评论主题挖掘方法的有效性.   相似文献   

15.
曾辉  淦修修  彭俊  袁伟民 《科学技术与工程》2020,20(26):10822-10828
随着如今微博平台的高速发展,微博转发行为预测已经成为舆情分析领域中一个热门的研究主题。针对该任务,提出一种添加多层间接粉丝用户权威度信息,基于双分支网络结构模型的微博转发行为预测算法。该方法通过对原始微博进行分析,运用LDA算法提取内容特征、构建用户关系网络提取间接关注用户权威度特征等多元特征,构建基于双分支结构神经网络模型预测微博传播行为。实验结果表明预测模型相比于其他算法在RMSE,MAE评估指标上都有较好的提高,验证了算法的有效性。  相似文献   

16.
目的:对近年来国际上阻塞性睡眠呼吸暂停综合征(OSAHS)的研究热点进行分析。方法:对2004年1月—2013年12月美国国立医学图书馆Pubmed数据库收录的相关文献采用书目信息共现挖掘系统(BICOMS)进行文献计量分析,利用PASW19.0统计软件对高频主题词进行共词聚类分析并描绘聚类关系图。结果:共检出OSAHS相关文献8 710篇,相关高频主题词共35个,共词聚类分析发现高频主题词聚类为6个类别。结论:近年国际对OSAHS的关注和发文量逐年增加,OSAHS的研究热点主要集中在手术治疗、病因学、多导睡眠图诊断技术、流行病学研究、并发症治疗、影像学检查等6个领域。  相似文献   

17.
随着微博用户的日益增多,微博对中国社会文化和政治话语的影响力日益增强。微博不仅引领和创造网络新话语,更重要的是微博舆论逐渐引起了各级政府部门的重视,大量的政府机构、政府官员纷纷入驻微博,政务微博成为政府发布信息、了解民意、汇集民智和官民沟通互动的重要平台。文章将通过对微博文化的分析,来论述微博文化对网络新话语和舆论的影响。  相似文献   

18.
研究微博用户转发行为,预测微博转发概率,确定影响微博转发概率的因素,在热点挖掘、产品营销、舆情监控、谣言控制等方面有重要的现实意义.本文介绍了影响微博转发的用户特征,其中比较典型的有用户影响力、粉丝平均标签数、粉丝活跃度等特征.通过粉丝数-关注数算法、用户标签数算法、粉丝活跃度算法等分析了它们与微博转发之间的关联关系,并确定各个属性的阈值,这些阈值对微博转发预测起到了至关重要的作用.  相似文献   

19.
本文依托2020年1月1日至2月29日期间共计6万条新浪微博博文与1.5万条微博热门评论,基于分布式爬虫技术、分布式数据库系统、SnowNLP情感分析模型以及KMeans文本聚类算法,对与"新冠肺炎疫情"相关的话题展开舆情分析,可视化地展现本次疫情事件中网络舆情的时空演化过程.在时间维度层面,通过文本聚类与情感分析,发现网民对于此次肺炎疫情的态度大致经历了三个阶段,即起伏不定的紧张焦虑期、缓慢攀升的团结振作期以及波动很小的自信平稳期,总体上呈现积极大于消极、正面大于负面的情绪状态.在空间维度层面,通过地理统计分析,发现疫情最严重地区网民评论人数最多,同时情感值也最低.  相似文献   

20.
为提高船舶在雾天航行的安全性,对船舶监控视频流进行实时去雾.建立雾天退化物理模型,采用数学中不等式缩放理论估计出每帧有雾图像的透射率和全局大气光,然后根据雾天成像的物理模型恢复出每帧去雾图像.根据海上监控视频图像具有大面积天空和海水,对该算法中的参数依据航海目标细节恢复程度和图像对比度等因素进行估计.实验结果表明,该算法能够有效恢复海上目标的细节清晰度和提高图像的对比度,又能满足视频流实时去雾的要求,说明算法能够较好地解决海上监控视频实时去雾问题.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号