首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 328 毫秒
1.
由于新闻文本种类较多、内容繁杂,为更好地提取文本主题特征词,提出了一种新的特征提取算法NewTF-IDF.传统的TF-IDF算法仅仅以逆文档率对词频进行加权,忽略了词性、词频、词位置、词跨度等其他方面的因素对词语信息量的影响,忽略了词语在不同文档中的分布对关键词重要度的影响.NewTF-IDF算法对TF-IDF算法做了多组合特征因子和离散度两个方面的改进,使特征词的加权方式更加科学.实验证明,NewTF-IDF算法在特征词提取方面具有更好的性能.  相似文献   

2.
针对交替最小二乘法(ALS)在处理大数据集时所面临的处理速度和计算资源问题,提出了基于相似用户索引的分布式矩阵分解推荐算法。首先算法基于用户的评分行为找到用户之间的最近邻,然后使用Spark平台运行提出的算法,并产生推荐。在GroupLens网站上提供的MovieLens数据集上进行仿真实验,实验结果表明,提出的算法能够有效解决ALS对于大数据集运行效率低及在云环境中可扩展性较差的问题。  相似文献   

3.
为了让用户从海量知识信息中精确、快速地获取到感兴趣的信息内容,综合考虑文档的头部信息(标题、摘要、关键词)和重点主体内容,采用基于主题词迭代提取的信息检索算法,使得主题词的提取在兼顾效率的同时准确率达到83%以上,主题信息检索的性能也随之增加.实验结果表明,在文档查询词频和倒排文档频率(TF-IDF)的基础上对候选主题词相关度权值的计算进行合理化调整,并利用所提出的主题词迭代提取算法,主题信息检索的有效性将显著增加.  相似文献   

4.
对当前禁毒情报分析中群聊文本信息应用少的问题,将PageRank算法和关系网络相结合,提出一种ARPR算法。该算法采用TF-IDF方法提取群聊人员的群聊涉毒关键词,并对涉毒关键词在涉毒嫌疑程度排序中的贡献进行度量;然后以层次分析法引导聚合各维度信息计算得到的嫌疑人员权重为权重系数,以好友关系为链接建立关系网络作为PageRank的入度与出度来计算相对应的PageRank权值。ARPR算法利用涉毒情报中无痕入群获取的群聊文本及关系,充分考虑禁毒领域的业务需求,使情报分析人员能够根据涉毒嫌疑度排序选择重点嫌疑人员。该算法突破了传统PageRank算法的局限性,解决了网页权值均分、主题漂移等问题,具有较好的涉毒嫌疑度排序效果,从而为及时发现涉毒人员提供了途径。  相似文献   

5.
实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算法应用于铁路文献关键词的抽取,该算法融合多个特征因素改进词汇节点的初始权重设置,并利用Word2Vec训练的词向量表征改进词节点间的转移概率.实验结果表明:本文所提出的关键词抽取算法相对于经典的TextRank和TF-IDF算法在准确率,召回率以及F值上都有较大的提升.与TextRank相比,F值提升了13.9%.  相似文献   

6.
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。  相似文献   

7.
物联网数据挖掘处理的是海量数据,当前数据挖掘的一个研究热点就是在大规模数据集中快速有效地提取用户所需的信息。对传统Apriori算法做相应的改进,使得检索出全部的频繁项集,只要对事务数据库进行一遍扫描就可以完成,将该Apriori算法进行Map/Reduce化,利用云计算的分布式并行计算的性质,将其应用到基于云计算的物联网数据挖掘,实验验证了改进的Apriori算法的有效性。  相似文献   

8.
针对现有协同过滤算法具有的可扩展性较低、数据稀疏和计算量较大缺点,提出一种基于SVD矩阵分解技术和RkNN算法的协同过滤推荐算法.本算法经SVD矩阵简化处理和kNN和RkNN的协作过滤,增强了用户的影响集,实现了测试集的未知预测评分功能.经仿真实验表明,稀疏性、可扩展性和计算量都得到有效改善,系统预测评分与用户实际评分接近,为用户提供了良好的使用体验.该算法获得了更好的预测性能,同时具有良好的可扩展性.  相似文献   

9.
基于向量空间模型(Vector Space Model,VSM)实现用户搜索结果的个性化排序,通过用户提供其感兴趣的文本集作为训练样本实现用户模型的初始化,并引入遗忘因子,结合机器学习的方法,通过用户后期的上网行为实现用户模型的动态更新,同时采用TF-IDF算法进行文本特征的提取,并针对文档模型与用户模型的统一提供了解决方案。  相似文献   

10.
针对传统词频 逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率.  相似文献   

11.
基于热传导或物质扩散理论的推荐算法首先利用网络结构得到对象间推荐关系,然后根据对象间关系预测用户喜欢的对象,而忽略了用户偏好。为了弥补这个缺陷,根据用户已选择对象的标签,利用TF-IDF方法构建用户偏好模型,以用户在预测对象标签上的平均偏好作为对该对象的偏好程度,采用加权方法与现有基于网络推荐算法混合运算。经在基准数据集MovieLens上测试表明,通过与目前效果最好的几种基于网络推荐算法进行加权混合运算,推荐结果在推荐精度、个性化、多样化等多种评价指标方面均比原有算法有明显提高。  相似文献   

12.
提出融合用户评论的协同过滤推荐算法,通过挖掘电商网站的用户评论信息,获取用户评论中的产品特征和意见,通过计算每个特征意见对的极性,得到特征矩阵,结合用户意见质量形成的用户评分矩阵,求出用户评分的相似度.最后结合特征矩阵和用户评分相似度得出目标用户的综合相似度,并由预测评分得出产品推荐表,对用户进行产品推荐.实验结果表明,提出的算法与常用的推荐算法相比,改善了推荐的质量,同时推荐精度得到提高.  相似文献   

13.
基于查询\|概念的用户兴趣模型构建   总被引:1,自引:0,他引:1  
针对查询\|概念二分图因概念抓取和查询词权重设计不足而导致构建的用户兴趣模型不合理的问题, 提出一种基于查询\|概念二分图的用户兴趣建模算法。通过tf×idf公式抓取概念, 并利用用户对查询词的浏览时间计算查询词的权重, 确保改进后的查询\|概念二分图能更准确地表示用户的查询意图。实验结果表明, 该算法构建的用户兴趣更为合理。  相似文献   

14.
网络信息过滤中的固定文章集表达方法   总被引:11,自引:0,他引:11  
为解决在信息过滤(inform ation filtering)中表达用户的信息需求困难的问题,提出了一种新方法——固定文章集法(fixed docum entset, F D S)。在这种方法中,用户可以通过评价一些专门选择的文章来表达自己的信息需求。这避免了用户选择关键词的困难,扩大了用户信息需求表达的空间,同时可以应用于处理多语种信息过滤和社会化过滤问题。选择固定文章集使用选择文章基因法(selectdocum ent'sgene, S D G),实验证明, S D G 的性能较其它方法有明显优势  相似文献   

15.
一种基于身份分层结构加密算法的广播加密方案   总被引:2,自引:0,他引:2  
现今大部分的广播加密方案使用对称密钥作为用户密钥.为了解决消息发布方和用户持有相同对称密钥所带来的密钥泄漏问题,本文使用基于Weil配对性质的HIBE算法,利用子集覆盖框架下的完全子树方法构造了一种基于身份的广播加密方案.该方案使用用户的身份作为加密的公共密钥,因此无须单独的公钥/证书发布系统.同时该算法利用HIBE中的层次密钥算法,使得用户所需的私钥存储空间从O(logN)减少到O(1).本文最后对该方案的安全性、效率和动态可扩展性进行了讨论和分析.这种基于身份分层结构加密算法的广播加密方案是一种很有应用前景的适用于无状态接收装置的广播加密方案.  相似文献   

16.
为了提高情感分类准确率,提出了一种基于改进的TF-IDF与隐朴素贝叶斯的情感分类研究。通过改进的TF-IDF算法提取文本特征词,并根据属性之间的依赖关系添加隐藏的父节点,增强了属性之间的依赖关系,提高了情感分类的准确性。实验结果表明,在平均宏查准率、宏查全率和宏F1值在改进之后的算法分别提高了5%、8%和6%。  相似文献   

17.
目的提高扩展词与用户查询在语义层面上的关联,解决歧义扩展问题。方法基于差分进化算法的语义查询扩展技术先利用领域本体提供的领域背景知识来获取候选扩展词集,然后通过分析用户日志来获取用户检索偏好信息,最后利用差分进化算法确定同用户检索意图最相符的扩展词集。结果比起前沿的局部上下文分析方法,基于差分进化算法的语义查询扩展技术能够确定更高质量的扩展词集。结论利用用户日志和本体中概念间的语义关系作为背景数据来过滤无关的扩展词可以有效提高后续语义扩展过程的效率,差分进化算法能够有效排除同用户检索意图无关的词集并确定高质量的扩展词集。  相似文献   

18.
聚类分析算法作为一种主要的Web使用挖掘技术,在个性化推荐系统中得到了广泛应用,然而面对Web动态性所引起的网页的更新以及用户行为方式的改变,已有的聚类算法并不能很好地解决这一问题。针对这一问题,本文以一种无向图的形式表示用户对网站的访问,提出一种可实时反映网站及用户行为变化情况的增量式页面聚类算法,并在页面聚类的基础上提出相应的推荐决策算法动态生成页面推荐。  相似文献   

19.
个性化Web推荐系统是利用用户的浏览行为定制符合用户结构和内容的过程。在综合应用协作过滤和内容过滤方法的基础上,通过对网站网页关键词的评估,提出了一种新的个性化Web推荐算法,研究了基于网页关键词的个性化模型,网站页面中关键词的权重计算,基于协作过滤的新用户推荐,基于内容过滤的再次推荐方法,以及基于用户群的用户兴趣调整方法。实验证明,本算法能够以较高的效率对用户进行网页推荐。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号