首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
现有的微博社交网络社区挖掘方法多是基于网络结构进行,忽略了节点本身行为的重要性,并且不能同时实现对大规模复杂网络结构适应性和社区挖掘的高效性。为缓解上述问题,提出了一种基于网络距离和内容相似度的微博社交网络社区划分方法,该方法在考虑微博社交网络结构的同时兼顾了网络中节点的历史微博内容,通过对历史微博数据的分析提高社区划分的精确度。文中对Louvain算法和其模块性的修改使用,保证了该方法能够处理大规模网络数据,同时又能保证社区挖掘的效率。实验证明,该方法能够高效地挖掘微博网络社区结构,对学术研究和商业应用都有十分重要的意义。  相似文献   

2.
赵丽坤  王于可 《科学技术与工程》2020,20(28):11647-11652
为提高社交网络个性化服务质量,研究数据周期推荐算法的重大意义,针对传统推荐算法相似度计算准确率不高,导致推荐结果精度低、召回率低和耗时长等问题,提出一种基于人工智能的社交网络用户行为数据周期推荐算法。首先依据用户行为建立评分矩阵,利用皮尔逊相关系数计算评分矩阵评分值与网络行为数据相似度,依据计算得出的相似度以协同过滤为核心来检出需要推荐的社交网络用户数据内容,其次利用Top-N法生成用户邻居集,最后实现社交网络用户行为数据内容周期推荐。实验测试结果表明,所提算法的相似度计算准确率较高,网络用户行为数据周期推荐结果精度可高达97.2%,且推荐结果召回率高、耗时低,提高了社交网络个性化服务质量。  相似文献   

3.
随着基于位置服务应用的不断推广,空间文本数据查询的应用价值(例如结合地理位置和用户标签的社交推荐)也在不断提高.但是,随着数据规模的迅速增长,传统的基于单机环境实现的技术难以为用户提供低延时和高吞吐量的服务.为此,本文基于Spark平台对分布式环境下的空间文本查询算法进行了探究.采用了面向海量空间文本数据的两层索引框架(包括全局索引和局部索引),该框架利用了分阶段过滤的策略来处理分布式下的布尔范围查询问题.同时,针对空间文本相似连接提出了Prefix-RI结构并提出了相应的分布式算法.基于Spark平台实现了所提出的分布式算法,并通过大量的实验对比验证了所提出方法的优越性.  相似文献   

4.
随着互联网对社会的持续渗透,社交网络得到了迅猛发展,也成为研究的一个热点.在大数据时代,社交网络具有数据量极大的特点,传统的分析技术不能胜任.利用Spark分布式计算系统,进行了社交网络的特性分析.  相似文献   

5.
如何提高大数据环境下推荐系统的推荐效率是一个值得关注的课题.本文提出了一种基于用户社交网络的最短距离聚类算法.该算法在推荐之前预先对用户进行聚类,降低邻域搜索空间,提高推荐效率.本聚类算法将用户分为分簇用户和离群簇用户两大类,推荐时以簇为单位输入.离群簇用户可实现对社交网络的简单扩展.最后通过对真实社交网络的模拟,证明了算法的可行性与有效性.  相似文献   

6.
如何准确、有效地发现虚拟社交网络中的社区或群体是复杂社交网络中的一个热点问题。本研究认为在线社交网络中用户之间显性的对话或彼此评论形成了一种网络结构,既包含社交网络底层的拓扑结构信息,又包含网络实体进行交互的确切时间,具有时效性。为了揭示虚拟社交网络中隐藏的动态现象,给出了一种同时考虑主题和时间的在线社交网络发现算法——多时间密集子图发现算法。首先,将在线社交网络中的对话或评论建模为一个交互网络,再利用拓扑结构将网络划分为属于不同主题(如热门新闻或话题)的社区,然后依据时间维度对每个主题下的社区挖掘稠密子图,最后在真实数据集上对所提算法进行了评估。与比较算法相比,本算法发现的团体内部间的交互在时间上更加密集,具有更高的时效性。  相似文献   

7.
针对当前推荐算法面临的冷启动、数据稀疏以及推荐准确度低等问题,本文提出一种基于深度学习的正则化矩阵分解推荐系统,该系统利用深度自动编码器对基于矩阵分解的用户和项目潜在特征进行初始化,然后使用Node2vec网络嵌入技术在用户信任网络中捕获用户潜在特征,用于计算用户信任度和预测用户对项目的评分.为了使用户的兴趣与可信用户和社区中最具影响力的人兴趣相似,本文算法采用Louvain和超链接诱导主题搜索(HITS)方法寻找社交网络中最具影响力的用户节点,以正则化的方式将约束信息添加到矩阵分解的目标函数中.实验结果表明:本文算法明显优于其他对比推荐算法,不仅可以缓解用户的冷启动问题,还提高了推荐质量.  相似文献   

8.
针对传统的无向网络社区挖掘方法无法实现大规模有向网络中社区有效发现的问题,提出了一种新的有向图社区及其兴趣特征快速挖掘算法。采用贪心算法求解社区划分模块性最大化的优化问题,较好地平衡了有向图社区挖掘中准确性与有效性之间的矛盾,实现对大规模微博类有向网络社区结构的有效识别;基于发现的社区,采用tf-idf算法进一步挖掘社区用户的兴趣爱好,实现了对微博网络中兴趣小组的精确挖掘。基于新浪微博的实验结果表明:所提算法不仅可以快速有效地挖掘有向网络中的社区结构及其用户的兴趣特征,还能够准确地检测出微博网络中的僵尸粉社区,研究结果对微博系统的净化、谣言控制、网络广告的精准投放等研究具有重要的参考价值。  相似文献   

9.
为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理.  相似文献   

10.
尊敬的读者朋友,您好!在作者和编辑老师的共同努力下,本专栏又和您见面了!文献大数据分析和重叠社区发现是大数据与社会计算领域的研究热点,也是本期关注的两个主题。文献大数据分析的研究目的之一,就是帮助广大研究人员快速进入目标领域,敏捷追踪其中的方向、方法和工具等,从而有效降低研究成本,缩短成果周期;重叠社区发现是复杂网络挖掘领域的基础性工作,成果应用于社交网络、通讯网络、蛋白质相互作用网络、代谢路径网络、交通网络等各种网络的数据分析中,可服务于人力资源管理、新药研制、交通规划、传染病防治、舆情控制等领域。 本期“数据分析与计算专栏”共推出2篇文章。 第1篇是翟君伟等撰写的“基于LDA主题模型的文献特征项多重共现可视化方法”。共现网络分析是文献计量研究中分析文献特征项数据关系的一种可视化方法,为解决多重共现网络中节点过多、连线密度过大、不利于发现数据的价值以及可视化效果较低等问题,引入LDA主题模型,采用空间划分的方法,将特征项全域可视化的问题转化为子空间可视化问题。首先,使用SATI文献题录信息分析软件抽取文献关键词,进行TF IDF计算,以计算结果作为实验数据;其次,使用Python构建主题模型,对目标文献集合进行主题聚类分析;最后,使用Ucinet软件对不同主题子空间文献进行多重共现分析,并将子空间分析结果叠加和重构,完成多重共现可视化系统的结构化表达。结果表明:与原多重共现可视化方法相比,基于LDA主题模型的多重共现可视化改进方法降低了共现网络中的节点数量和节点间连线密度,使得多重共现可视化系统的结构更为清晰,增加了数据的可读性,突出了数据价值,有效提升了多重共现可视化效果。 第2篇是张妍等撰写的“基于社区森林模型的分布式重叠社区发现算法”。针对传统单机重叠社区发现算法已经不适于大规模复杂网络挖掘,以及不能支持网络表示学习任务相关要求的问题,提出了一种基于社区森林模型的分布式重叠社区发现算法(distributed community forest model,简称DCFM算法)。首先,将网络数据集存储到分布式文件系统,将数据分块,使用分布式计算框架在每个数据分块上执行CFM算法;然后,执行社区合并;最后,汇总社区划分结果,使用真实的DBLP数据集将算法运行于Spark集群上,采用F均值和运行时间对算法进行评估。结果表明:DCFM算法的F均值稍逊于CFM算法,但其运算时间随着节点的增加接近线性下降,在牺牲小部分F均值的同时,DCFM算法具备处理大规模网络数据的能力;分割份数对计算时间的影响也很大,在com dblp.ungraph.txt数据集上,CFM算法处理数据需要192 min,而DCFM算法在将数据分成6份时,需要约91 min,分成100份后仅需要约13 min。因此,在大数据平台上采用分布式计算骨干度,进行社区划分、合并的DCFM算法是一种可行的大规模复杂网络挖掘方法,通过对网络进行分割,可以大幅加快社区划分速度,提高社区发现效率。 限于学术水平,以上文章定有可进一步完善之处,欢迎各位朋友不吝指正! 刘滨,男,1975年出生,教授,硕士生导师,河北科技大学大数据与社会计算研究中心主任,主要研究领域包括网络新媒体、大数据、社会计算等。已发表学术论文100余篇,主持国家级科研课题2项、省级科研课题9项。  相似文献   

11.
现有科技论文推荐方法的推荐质量以及效率仍有不断提高的需要,同时海量虚拟网络社区的用户信息为进行协同推荐提供了新的方式,为此提出一种以学术社区服务系统为基础,面向学术社区用户的新型科技论文推荐方法. 该方法可充分利用社区用户信息改善科技论文推荐质量以及效率. 对该方法所涉及的学术社区服务系统设计、网络社区发现以及基于网络社区的协同推荐算法等关键问题的实现思路进行了详细阐述. 实际应用表明,该方法可为科研用户提供更准确、更可信的论文推荐服务.  相似文献   

12.
领先用户的需求能够反映出市场和技术的发展趋势,准确地识别领先用户并对其领先性进行排名,对企业开展开放式创新和提升创新绩效意义重大.本研究根据创新社区中用户的特征,从活跃性、创新性、共享性和影响力4个维度构建领先用户识别指标体系,在此基础上提出了基于凝聚层次聚类算法的领先用户识别方法,然后通过灰色关联分析方法计算用户领先性以实现用户排名.对以华为产品定义社区的实例进行实例分析的结果表明:本文提出的领先用户识别方法可以准确地识别出创新社区中的领先用户,并反映出领先用户之间的差异.此研究结果可为企业识别和筛选领先用户提供参考.  相似文献   

13.
传统的基于用户的协同过滤(User-based CF)推荐算法的推荐效率随着数据的不断增加而降低.本文在User-based CF算法中引入二分网络社团发现理论,提出一种基于二分网络社团划分的推荐算法(RACD).首先通过用户与项目之间的关系建立用户-项目二分网络,然后通过RACD对该网络进行社团划分,得到用户的社团信息,最后通过同一社团中的其他用户对目标用户进行项目的推荐.在经典网络数据集上的实验结果表明,RACD能够有效提高推荐系统实时推荐效率.  相似文献   

14.
Adverse Drug Reaction(ADR) is one of the major challenges to the evaluation of drug safety in the medical field. The Bayesian Confidence Propagation Neural Network(BCPNN) algorithm is the main algorithm used by the World Health Organization to monitor ADRs. Currently, ADR reports are collected through the spontaneous reporting system. However, with the continuous increase in ADR reports and possible use scenarios, the efficiency of the stand-alone ADR detection algorithm will encounter considerable challenges. Meanwhile, the BCPNN algorithm requires a certain number of disk I/O, which leads to considerable time consumption. In this study,we propose a Spark-based parallel BCPNN algorithm, which speeds up data processing and reduces the number of disk I/O in BCPNN, and two optimization strategies. Then, the ADR data collected from the FDA Adverse Event Reporting System are used to verify the performance of the proposed algorithm and its optimization strategies.Experiments show that the parallel BCPNN can significantly accelerate data processing and the optimized algorithm has a high acceleration rate and can effectively prevent memory overflow. Finally, we apply the proposed algorithm to a dataset provided by a real medical consortium. Experiments further prove the performance and practical value of the proposed algorithm.  相似文献   

15.
针对农产品移动信息服务的需求,结合分类算法和个性化推荐算法,提出了一种基于分类的推荐算法.利用决策树分类方法对农产品进行分类,获得分类后的数据,采用协同过滤算法分析分类数据,查找兴趣相似的用户,将感兴趣的农产品信息推荐给正在使用系统的用户.实验结果表明:与传统的推荐方法及相比,该系统向用户推荐了兴趣度更高的农产品移动信息.  相似文献   

16.
自适应分配技术的应用能优化多用户正交频分复用系统功率的使用.文中在对功率最优化问题进行分析后,提出了一种基于用户速率和信道特性的子载波分配算法.该算法不需要另外计算最终分配给各用户的子载波数,其分配过程包括基本分配和剩余分配两个步骤.在基本分配中保证各用户数据能被及时发送,在剩余分配过程中,以减小各用户所需的发射功率可达到最小值为原则进行子载波分配.仿真结果表明,该算法能有效降低系统的发射功率.  相似文献   

17.
现在有些项目在早期通过用户界面原形与用户沟通,用户界面原形是一些静态的页面,通过相应的说明来反映总体结构.用产界面原形不是有机的系统,不能展现产品的整体流程和功能结构,更不能给用户对产品真实使用的感觉.以JavaWeb开发为背景,给出一种具有完全功能特征的可视化原形,用户可通过给定的测试用例进行接近正式系统的操作,目标不是页面外观而是探讨功能和可用性需求.  相似文献   

18.
结合项目类别信息的协同过滤推荐算法   总被引:1,自引:0,他引:1  
针对个性化推荐系统中协同过滤算法面临的数据稀疏问题以及用户相似性度量的不准确,提出了一种结合类别信息的协同过滤推荐算法。该算法利用用户评分数据计算用户之间对类别关注的相似性,并将用户对类别关注的相似性和用户评分相似性进行组合,得到用户综合相似性,从而提高了最近邻居搜索的准确度,缓解了数据稀疏性问题。实验结果表明,该方法能够有效地避免传统相似性度量方法存在的问题,使得数据稀疏性对最终推荐结果的负面影响变小,在一定程度上提高系统的推荐精度。  相似文献   

19.
移动运营商为了拓展新业务,需要增强对用户资源的了解,因此通过大数据分析技术深入分析移动通信系统中的用户行为数据.基于移动通信网络中的用户通话记录提出了一种基于复杂网络聚类算法的用户社交群组构造算法.该算法通过分析用户的通话记录,建立用户间联系紧密度模型.基于局部扩张原理和派系过滤算法进行用户群组构造.鉴于移动通话系统的巨大数据量,采用基于MapReduce编程模型的并行化设计.分别在模拟数据集和中国移动真实数据集下对该算法进行了验证,实验结果表明,该方法具有较好的性能,是可行且有效的.  相似文献   

20.
针对传统的用户数据安全性访问算法存在安全性及整体性能低下的问题,提出一种新的云环境下用户数据安全性访问控制算法。通过介绍所提算法的基本概念,利用模糊层次分析法计算云环境中用户数据直接信任值;通过用户和其他云服务之间的信任值求取用户数据推荐值;在此基础之上,确定用户数据综合信任值。通过用户数据信任等级分配得到用户访问权限,针对信任水平较低的用户,云服务供应商通过拒绝其访问保证整个云环境的安全性。实验结果表明,所提算法安全性高,整体性能强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号