首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对KNN算法在处理推荐系统由稀疏性问题所造成的计算复杂度较大以及评分估计值有误差等问题,本文提出了K-Means聚类中心最近邻推荐算法,首先对初始数据集进行聚类运算,然后找出数据集的聚类中心;其次寻找每个用户所属的聚类中心,将聚类中心代替目标用户放入KNN算法中寻找用户的最近邻;最后做出评分预测.同时又考虑到目标用户与聚类中心对预测评分值的影响,在KMeans聚类中心最近邻推荐算法的基础上进行改进,提出了加权的思想.算法在Movielens数据集上进行实验,实验结果表明,推荐算法评分预测的精确度得到显著提高,而且加权之后的改进算法达到了更好的精确度.  相似文献   

2.
针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的.  相似文献   

3.
针对微博内容的稀疏、高维等特征,提出了一种基于词项关联关系的模糊C均值聚类算法。该算法通过挖掘词项间语义的关联程度,将文本特征最大化,并用提前标注部分同类文本的方式来指导模糊C均值算法在初始聚类中心上的选择,从而达到优化效果。实验结果表明,该算法一定程度上克服了微博本身存在的数据稀疏性问题,能高效地进行微博聚类。  相似文献   

4.
文章首先给出了基于话题检测实现论坛热门话题发现的基本方法,再针对论坛文本稀疏性造成的漏报率高的问题,提出了基于主题扩展的话题发现方法,最后设计并实现了一个BBS热点话题发现原型系统。实验结果表明文章提出的方法和系统可以有效地监控校园论坛上出现的热门话题。  相似文献   

5.
在短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性.由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行,导致模糊聚类结果.本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果.实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值.F1值提高了10%,准确度提高了2%.  相似文献   

6.
推荐系统由于其数据量庞大的原因,已经成为大数据领域研究的一个热点.而协同过滤算法是推荐系统中最著名的算法之一.传统协同过滤算法在利用评分矩阵进行推荐时,面临数据稀疏性问题,从而严重影响推荐的质量.同时,推荐系统中存在大量的描述用户和产品属性特征的标签信息,把这些标签信息融入到传统的推荐算法中是解决稀疏性的一个有效方法.因此,针对稀疏性问题,本文提出了一种结合标签和评分的协同过滤推荐算法.该算法结合标签信息和评分数据共同计算用户之间或产品之间的相似性,进而为用户产生推荐.实验结果表明,本文提出的算法可以有效解决数据稀疏性问题,同时可以提高推荐系统的准确性.  相似文献   

7.
食品安全问题一直是国民热切关注的话题,关系到社会的多个领域。为及时知晓食品安全领域关注的热点问题,对比了食品安全热点话题与其他热点话题在检测方法上的异同,构建了食品安全监理话题检测模型,运用聚类算法对食品安全数据进行文本挖掘来实现话题检测,并对食品安全数据进行分析。通过实验说明,采用Single-Pass算法的评价优于K-Means算法的评价,能够有效地对食品安全话题进行检测。  相似文献   

8.
持续指数增长的互联网逐渐带来了信息过载问题,使得推荐系统提供的信息过滤服务尤为重要. 协同过滤是推荐系统领域最为成功的技术,但依然存在数据稀疏性等问题. 社会关系信息能够有效提高推荐系统的预测准确性. 为解决数据稀疏性问题,本文提出了一种利用Logistic函数的社会化矩阵分解推荐算法. 在3组真实数据结合上的实验结果表明,本文提出的算法能够提供更准确的推荐结果,特别是在数据稀疏的情况下,显著缓解了数据稀疏性问题.   相似文献   

9.
电子政务平台每天都会产生大量短文本数据,挖掘短文本数据对政府掌握民意有十分重要的作用.针对短文本信息量少,单一短文本向量表示模型产生的特征信息丢失问题,提出一种融合权重及主题特征的混合向量表示模型.该模型利用Word2vec和TF-IDF算法挖掘短文本的局部特征,利用BTM主题模型挖掘短文本全局特征,然后将两种特征向量进行连接构成短文本向量.针对短文本数据增量变化特征,通过增加限定阈值改进传统Single-Pass聚类算法,实现短文本的增量聚类.实验结果表明,该模型能够有效的提高短文本聚类效果.  相似文献   

10.
研究结合社交媒体特点,充分考虑标签文本和内容文本信息,融合了传统的LDA话题模型对社交文本信息进行话题聚类,从而实现了对社交数据的话题发现,与此同时,文章提出了基于关键词图模型构建话题特征,并结合支持向量机模型进行文本情感极性判别。研究在开放微博数据集和COAE2014公开评测数据上进行了相关实验,实验证明了有效的关键词图模型能进一步克服中文语义的模糊性和歧义性。  相似文献   

11.
基于项目类别相似性的协同过滤推荐算法   总被引:3,自引:0,他引:3  
随着电子商务站点用户和商品项数量的不断增长,用户评分数据稀疏性问题成为基于项目的协同过滤推荐算法的瓶颈;文章提出了项目类别相似性的计算方法,并将项目类别相似性与传统的项目评分相似性进行加权组合,得到项目综合相似性,从而在提高最近邻居项目搜寻准确度的同时也缓解了数据稀疏性问题;实验结果表明,该算法能有效提高推荐质量.  相似文献   

12.
为了克服传统K-Means算法k值不能确定问题和不具备变量自动选择能力,将预测强度和变量自动加权K-Means算法相结合,提出基于预测强度的变量自动加权K-Means算法。预测强度表示聚类模型对未知数据的预测能力,预测能力越强,则聚类结果越佳,主要用于k值的确定;变量自动加权K-Means算法具有在聚类过程中自动调整变量权重的能力,对于噪声变量和冗余变量削弱其对距离的贡献,使聚类结果反映最真实的聚类结构。实验表明,算法具有较强的分类能力和预测能力。  相似文献   

13.
利用微博数据检测突发事件具有重要意义.针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法.该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,...  相似文献   

14.
针对现有微博社区发现的准确性与效用性问题,提出了一种高效的基于用户内容相似度的微博社区发现算法。首先对微博用户兴趣模型进行分析,进而挖掘微博意见领袖,通过AP算法对意见领袖进行兴趣聚类,以聚类结果为社区中心结合模块度优化算法完成微博社区发现。经实验验证了该方法可以更好地发现微博社区结构。  相似文献   

15.
微博数据的情感分析具有重要的应用价值和研究价值,是网络文本挖掘领域的研究热点。微博消息非常短而且稀疏,同时包含大量的不规则词语,噪声很强,给传统的情感分析方法带来了很大的挑战。受社会科学的相关理论的启发,该文尝试利用微博消息的社交语境来帮助解决情感分析所面临的稀疏性强和噪声大的困难。由于文本向量的维度很高,而具有情感倾向的词只占其中较少的一部分,因此将Lasso方法加进LR(logistic regression)模型中以提高模型的鲁棒性。在真实的英文Twitter数据集上的实验结果表明,加入社交语境和模型的稀疏约束能够有效提高微博数据情感分类的准确率。  相似文献   

16.
针对数据分类交叉空间易错分问题,提出一种基于加权特征子空间的支持向量机核函数方法。该方法利用加权特征子空间与稀疏表达等相关理论进行支持向量机核函数优化,首先利特征子空间重叠率与数据的信息熵对数据特征进行加权,再通过对L_1范数正则项的加权处理调节异类数据间的稀疏性和同类数据间的稠密性;最后对处理好的数据进行分类测试。仿真实验表明该算法能够在一定程度上提升分类效果,以达到优化核函数的目的。  相似文献   

17.
基于自动编码器的短文本特征提取及聚类研究   总被引:3,自引:0,他引:3  
针对短文本的特点, 提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络, 将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上, 引入L1范式惩罚项来避免模型过分拟合, 然后添加噪音项以提高算法的鲁棒性。实验结果表明, 将提取的文本特征应用于短文本聚类, 显著提高了聚类的效果, 有效地解决了短文本空间向量的高维、稀疏问题。  相似文献   

18.
面对信息量过载的问题,为了使用户尽快的从大量的数据中找到自己需要的信息,即运用协同过滤算法解决数据稀疏性问题,本文提出了一种基于径向基函数(RBF)神经网络的解决方法.首先构建RBF神经网络并提出了一种新的确定隐层节点方法.然后利用构建的RBF神经网络预测用户评价矩阵中的空缺值,提高用户相似度计算的准确性.最后通过与经典协同过滤算法的对比实验证明所提算法的实用性,实验结果表明,基于RBF神经网络的协同过滤算法可以有效的解决用户评分数据的稀疏性问题,提高推荐的准确度.  相似文献   

19.
基于多视角特征融合的中文垃圾微博过滤   总被引:1,自引:0,他引:1  
微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。  相似文献   

20.
考虑加权排序的分类数据聚类算法   总被引:1,自引:0,他引:1  
针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV CSW算法在处理分类数据时,聚类质量较原始CABOSFV C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号