首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
扩展LDA(latent dirichlet allocation)模型,提出基于作者引用文献关系的作者-兴趣主题-文献模型。每个作者被分配一个在所有主题上的多项概率分布,每个主题被分配一个在所有文献上的多项概率分布。在DBLP(digital bibliography &library project )文献引用关系数据集上的实验表明,所提模型能有效地提取一个研究领域的主要潜在研究兴趣主题及其所包含的代表性文献,并能挖掘每个作者属于每个研究兴趣主题的分布。  相似文献   

2.
以金融领域的科技文献作为实验数据,提出了一种新的用于动态挖掘领域相关的作者研究兴趣的复合主题演化模型。该模型能够获取作者在不同时间片下的主题概率分布以及主题下词汇概率分布,并充分考虑作者在合作作者文献中的排名对于其研究主题和主题变化的影响。通过金融领域的实证研究表明,该复合主题演化模型能够有效地揭示金融领域作者研究兴趣的动态变化。  相似文献   

3.
为克服传统的基于内容过滤或协同过滤的文献推荐方法在缺少用户描述信息(如用户历史兴趣)的情况下无法有效地向用户推荐文献的缺陷,提出一种基于因子图的文献推荐新方法。依赖一种结合了引文网络和网络中文献主题概率分布的因子图模型,进行循环最大和(loopy max-sum)近似推理。基于权威引文网络(Thomson Reuters公司出版的2008年版期刊引证报告)的实验结果表明:该方法能在缺少用户描述信息的情况下有效地推荐主题文献,尤其适合于领域初学者获取主题相关的高质量文献。  相似文献   

4.
针对现有学术引文推荐算法中元路径特征无法衡量学术文献的时效性,且对元路径特征的利用和划分粒度较粗从而导致推荐精度不高的问题,提出了一种采用元路径时效衰减和引用模式划分的学术引文推荐方法。首先,利用元路径抽取丰富的引文特征,并在计算元路径特征时加入了时效衰减因子,提升了新发表文献的推荐精度;其次,提出了融合元路径特征的主题模型MpTM,该模型利用主题特征为文献划分引用模式,并联合学习文献的主题分布、引用模式和元路径特征权重,细化了元路径特征的粒度;最后,通过所有引用模式下的元路径特征加权值,为目标文献推荐学术引文。在AAN数据集上的实验结果表明:所提方法在准确率和召回率上平均提升约41.99%和22.43%,能够提升新发表文献和非权威文献的推荐精度,并能有效缓解引文链接的稀疏性问题。  相似文献   

5.
一种基于主题的文档检索模型   总被引:2,自引:1,他引:1  
现有信息检索模型难以从主题层次上准确判别文档相似性,为此,本文提出了一个基于主题的文档检索模型(TDRM).TDRM为所有文档建立公共主题空间,把每个文档表示为主题空间上的一个向量,并用向量夹角余弦定义文档相似度.TDRM模型借助Latent Dirichlet Allocation的主题生成方法估计每个文档的主题分布.实验结果证明,与基于词频统计的向量空间模型相比,TDRM模型在相关文档检索方面有更高的检索精度.  相似文献   

6.
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具.  相似文献   

7.
为了解我国电子商务研究的主要机构及其研究实力,选取近8年来我国电子商务主题的主要文献作为研究样本,根据文献计量学方法,对研究样本所涉及的作者及其机构进行了统计分析.同时,选取应用系统评价方法,选择发表文献数量、发表文献被引用频次、拥有的核心作者数等3个指标,对研究样本中所涉及的机构进行综合评价.分析结果显示,华中科技大学、华南理工大学等高等院校在电子商务研究中发表论文较多,相应核心作者数量也比较多,具有较高的研究实力,武汉在我国电子商务的研究中具有地域优势.  相似文献   

8.
一种结合有监督学习的动态主题模型   总被引:1,自引:0,他引:1  
针对传统主题模型存在的不足, 提出一种新的结合有监督学习的动态主题模型(Supervised Dynamic Topic Model, S-DTM)。该模型不仅能够随时间的变化对语言进行动态建模, 而且结合有监督学习技术, 在主题变分推理中加入标签约束, 从而建立主题与标签之间的映射关系, 提高主题的表达解释能力。通过在一个跨越25年“以自然语言处理领域的中文期刊论文为主导”的中文语料库上的实验, 证明该模型相较于静态的有监督主题模型和无监督的动态主题模型, 具有更好的语义解释概括能力, 能更准确地反映文档的主题结构, 更精确地捕捉主题?词汇概率分布的动态演化。  相似文献   

9.
为了解决OLDA模型中的主题混合和新主题不能及时发现的问题,基于OLDA模型提出一种改进的在线LDA模型(improved online LDA,IOLDA)。该模型根据主题强度为每个主题设置不同的遗传度,提出一种新的主题强度度量方法,根据文档-主题分布的集中程度为文档设置不同的权值,该方法可以有效降低宽泛主题的强度得分;利用模型主题对齐的特点,采用Jensen-Shannon距离横向计算话题间的关联。实验结果表明:本文提出的方法能够有效地在线分析主题的演化。  相似文献   

10.
新兴主题识别是科技研究领域识别新兴技术的重要方式,高效精准地识别新兴主题是早期辨识新兴技术研究方向的前提.提出一种基于LDA模型的新兴主题识别与趋势预测方法,通过LDA模型提取科技文献中的研究主题,构建主题强度、主题新颖度和复合主题关注度的指标体系识别新兴主题,采用Prophet模型预测新兴主题的主题强度,探测未来发展趋势.以智慧农业领域最近14年的科研文献为数据集,对提出的识别和探测方法进行验证,识别出了5个新兴主题,并预测了未来3年的发展趋势,同时验证所提方法的有效性.  相似文献   

11.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

12.
将文本之间存在的时序关联性元信息和文档的标签信息, 引入到隐藏Dirichlet分配模型中, 提出一种在线增量标签主题(on line labeled incremental topic model, OLT)模型. 首先, 在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系; 其次, 利用动态字典增加了模型与文本的拟合程度. 该模型优化了
先验分布超参数迁移计算的连续性, 解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题. 实验结果表明, 所提出的在线增量标签主题模型能显著改善多标签判别精度, 提高模型的泛化能力并提升模型的运行性能.  相似文献   

13.
《中国科技史杂志》2012,(1):125-126
(2012年1月修订)本刊学术论文的文献与注释分三类,撰稿格式和要求如下:一、参考文献作者阅读的反映论文的科学依据和文献出处的材料,除公开出版物外,还包括档和内部文献,但是不包括手稿、通信、网络等资料。参考文献表应直接列于正文之后,而不应采用尾注(一)文献编码的形式。1采用顺序编码制,序号写在方括号内,置于上角。2某一处同时引用多篇文献时,标注形式为:[3,4,9]或[3~9]。3多次引用同一文献:(1)只能作为一个参考文献著录;(2)如全文所引用的该文献均出自同一页,则只需重复使用首次出现的序号(上角标);(3)页码不同时,应改用随文注(二)参  相似文献   

14.
又到了Science Watch对热点研究进行年度回顾的时刻。根据2009-2011年所发表的论文在2011年获得的引用次数,表1列出了最具影响力作者名单。表2展示的是发表于2011年,且截至2011年底获得引用次数最多的论文(不包括综述)。在2011年拥有多篇热点论文的作者排名中(表1),位居首位的是一个我们熟知的名字:麻省理工-哈佛搏德研究所(Broad Institute of MIT and Harvard)的Eric  相似文献   

15.
一种个性化的主题提取和层次发现算法   总被引:3,自引:0,他引:3  
从语义相关性角度分析超链归纳主题搜索(HITS) 算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此提出了一种个性化的主题提取和层次发现算法(PTDHE),通过个人查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的.PTDHE采用基于最小最大原则的图划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面.在14个查询上的实验结果表明,与HITS算法相比,PTDHE算法不仅可以减少2%~66%的主题漂移率,而且可以发现与查询相关的多个主题.  相似文献   

16.
<正>文献指作者在论文中直接引用的、最主要的、发表在正式出版物上的文献。未正式发表的文献(包括私人通讯,毕业论文等)一般不作为文献引用,必要时可作为脚注处理。参考文献的作者不超过3个人时全部  相似文献   

17.
研究完全离散复合二项风险模型,运用概率母函数的方法得到了在破产发生的情况下,破产时刻发生的索赔随机变量YN(τ)的概率分布,由此得到了破产发生的情况下破产即刻前盈余R(τ-)的概率分布.参8.  相似文献   

18.
<正>文献指作者在论文中直接引用的、最主要的、发表在正式出版物上的文献。未正式发表的文献(包括私人通讯,毕业论文等)一般不作为文献引用,必要时可作为脚注处理。参考文献的作者不超过3个人时全部  相似文献   

19.
在微博社交网络中,微博文本内容短小,主题覆盖较少,同时主题变化快,用户兴趣更新频繁。已有用户模型不能完全准确刻画微博用户变化的兴趣。友邻集由用户认知度高的群体组成,友邻集的主题兴趣可以全面反映目标用户的多样化兴趣。利用目标用户的友邻集,在本体用户模型上构建微博用户的友邻主题兴趣集,计算更新友邻主题兴趣度,提出友邻-用户模型的实现算法。实验表明,在微博社交网络平台中,友邻一用户模型的微博主题推荐精度要优于传统的用户模型。  相似文献   

20.
正文献必须是作者在论文中直接引用的、且主要的、发表在正式出版物上的文献。未正式发表的文献(包括私人通讯,毕业论文等)一般不作为文献引用,必要时可作为脚注处理。参考文献的作者不超过3个人时  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号