首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
一种改进的LDA主题模型   总被引:2,自引:0,他引:2  
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.  相似文献   

2.
研究了风险模型中的服从长尾分布的带加权相依关系的随机变量的和的尾概率,在给出一些假设条件下采用求精确大偏差的方法得到了加权的非随机和Sn和加权的随机和S(t)的两种渐近结果,推广了已存在的独立同分布条件下的相应结论.  相似文献   

3.
标签通常被广泛地应用于标注各种在线资源,例如文章、图像、电影等,其主要目的是便于用户理解以及高效地管理和检索海量网络资源。因为人工对这些海量资源进行标注十分繁琐且耗时,所以自动化标签推荐技术被广泛关注。目前大部分标签推荐方法主要通过挖掘资源的内容信息进行推荐。然而,现实世界中很多数据信息并非独立存在,如文献数据通过相互引用关系而形成复杂的网络结构。研究表明,资源的拓扑结构信息和文本内容信息可分别从2个不同角度对同一资源的语义特征进行概括,并且从2个方面观察到的信息可以互为补充和解释。基于此,提出一种同时对资源内容信息和资源网络拓扑结构信息进行统一建模的概率主题模型和标签推荐方法。该方法通过结合标签和资源内容之间的标注关系以及资源之间的链接关系等多源异构信息,去挖掘资源潜在的语义信息为新的资源推荐若干功能语义相近的标签。  相似文献   

4.
针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化.通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高.  相似文献   

5.
提出一个层次加权网络模型(HWN模型),分析了网络的度分布、强度分布、权重分布以及集群系数,结果表明HWN模型生成的网络具有无标度特性以及高集群系数.  相似文献   

6.
基于网络节点间三元组的形成,并结合随机游动提出一个加权网络演化模型.分析了网络的强度分布、权重分布、度分布以及聚类系数,结果表明模型生成的网络具有无标度特性,同时具有很高的聚类系数.  相似文献   

7.
由于新闻文本种类较多、内容繁杂,为更好地提取文本主题特征词,提出了一种新的特征提取算法NewTF-IDF.传统的TF-IDF算法仅仅以逆文档率对词频进行加权,忽略了词性、词频、词位置、词跨度等其他方面的因素对词语信息量的影响,忽略了词语在不同文档中的分布对关键词重要度的影响.NewTF-IDF算法对TF-IDF算法做了多组合特征因子和离散度两个方面的改进,使特征词的加权方式更加科学.实验证明,NewTF-IDF算法在特征词提取方面具有更好的性能.  相似文献   

8.
提出了一种融合标签局部相关性的标签分布学习(label distribution learning, LDL)算法,该算法分为3个阶段。初始预测阶段构建多层神经网络模型,将样本的原始特征作为输入、初始预测的标签分布作为输出;局部矫正阶段首先利用k-means聚类算法获得不同类所描述的局部信息,然后针对不同类计算对应的协方差矩阵,利用该矩阵来矫正初始预测的标签分布,获得每个类对应的矫正标签分布;标签融合阶段对矫正后的标签分布进行加权,再与初始预测的标签分布进行融合,得到最终的预测分布。在8个公开数据集上与9种常用的LDL算法进行对比实验,结果表明本文的算法能较好地描述标签局部相关性,在多个主流评估指标上排名靠前。  相似文献   

9.
数据集独立同分布(Independent and identically distributed, IID)的假设和数据集是否干净,分别对应组合域标签噪声领域数据集非独立同分布(Non-independent and identically distributed, Non-IID)和标签噪声问题。该文提出多标签图像多分类模型(Multi-label image multi-classification model, MIMM)预处理方法应对上述问题。为了缓和数据集独立同分布假设,该文证明组合域方法的迁移误差上界,并使用最大关键特征(Maximum key feature, MKF)函数和关键秩匹配分解(Key rank matching decomposition, KRMD)算法实现源域向组合同构数据的目标域迁移。为了保证数据集干净,引入干净的第三方数据微调模型参数,排除标签真实数量不确定导致训练集类别不平衡的情况。在Pascal/COCO数据集上进行实验,结果证明MIMM方法已达到准确率与运行效率的最佳平衡。  相似文献   

10.
特征词提取是一项提炼整个web页面内容的实用技术,同时也为文本分类,信息抽取应用提供了技术支持.在web页面内容上,利用段落间语义关系划分出网页内容的篇章结构,并以此为基础使用网页的元数据和特殊标签,设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,最后,实验对比了各类位置因子对系统的贡献度.实验结果表明,改进方法的F1值比传统的TFIDF提取技术提高了15.5%,其中,位置因子中的标题,关键词和摘要因素对系统的贡献最大.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号