首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 921 毫秒
1.
一种基于领域语义相关性挖掘的迁移学习方法   总被引:1,自引:0,他引:1  
针对基于特征的迁移学习方法 TPLSA只考虑领域共享主题而忽略领域独有主题的不足,提出一种基于领域语义相关性挖掘的迁移学习方法.首先,挖掘领域共享主题与独有主题;然后,构造新特征空间,将源领域、目标领域文本在新特征空间中进行表示;最后,在新特征空间中对目标领域的文本进行分类.实验结果表明该方法具有优越性.  相似文献   

2.
已有的跨领域情感分类方法多通过抽取公共特征空间或建立领域特定特征间的映射关系来消减领域间的差异性,由于不考虑特征情感区分力的差异,使得公共特征空间及特征映射的求解往往不准确。具有高区分力的特征对于文本情感分类具有重要的意义,但标记的缺失使得已有的特征选择方法难以应用。文章基于特征选择方法,提出一种快速的跨领域情感分类方法(cross-domain sentiment classification based on feature selection,CSFS),构建源领域特征与目标领域特征的词共现矩阵,基于该矩阵对目标领域特征的情感区分力进行评估,在目标领域中选择出其中具有高情感区分力的特征;再利用源领域信息计算目标领域特征的情感语义大小,从而构建目标领域分类器。实验结果表明,该方法在保证准确率的前提下,大大提高了跨领域分类的效率。  相似文献   

3.
基于混合向量空间模型的主题网站识别   总被引:1,自引:0,他引:1  
为了实现面向特定领域网站的网络资源搜索,提出了一种描述网站主题特征的混合向量空间模型.利用链接文本信息来描述同类主题网站的内容和组织结构所具有的相似特点,而不是由网站链接的树或图结构反映.在向量空间模型的基础上,抽取反映网站结构和内容的文本特征信息,建立网站主题的特征向量模型.在此基础上进行制造企业网站的主题搜索,采用类中心向量法进行了网站主题分析.结果表明该模型适合于网站主题的特征描述,有助于提高网站主题识别与分类的准确性和效率,在主题搜索和网站分类等应用中具有较好的适用性.  相似文献   

4.
用于文本情感分析的深度学习模型如递归神经网络等参数较多,因此需要大量高质量标记训练数据对模型进行训练和优化。在实际应用中,特定领域难以获取高质量带情感标签评论数据。在跨领域文本情感分类任务中,针对不同领域数据分布差异性,提出了基于句法结构迁移和领域融合的跨领域文本情感分类方法,可以解决特定领域对带标签数据依赖问题。句法结构迁移方面,将依存语法特征加入到递归神经网络中,设计了一种可迁移的依存句法递归神经网络模型,通过句法结构迁移有效地迁移跨领域结构信息,为情感迁移提供支撑。领域融合方面,在传统的最大均值差异领域度量方法上细化了跨领域同类别距离度量信息。通过约束源领域和目标领域的分布,可以保证2个领域距离在学习过程中尽可能减小,有效地提取领域通用特征。实验结果表明,该方法比已有方法有效提高了跨领域情感分类准确率。  相似文献   

5.
基于领域知识的文本分类   总被引:3,自引:0,他引:3  
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.  相似文献   

6.
利用基于局部感受野的超限学习机(ELM-LRF)算法从给定的基因表达数据中提取有效的特征来进行癌症检测与分类.首先使用主成分分析(PCA)方法对原数据进行适当预处理,减少数据中存在的冗余,然后构建特定的特征映射,将得到的数据映射到相应特征空间中去,最后对得到的数据特征进行训练学习,得到最终训练好的特征提取模型.实验表明,ELM-LRF的学习效率更高,取得的癌症检测效果比以往方法更好.  相似文献   

7.
在特定目标文本情感分析过程中,文本序列分类受标注方式的限制,导致分析结果的准确率和召回率较低.为了解决这个问题,构建了基于卷积神经网络的特定目标文本情感分析模型(文本分析模型).根据情感差异分析特定目标文本序列,在输入层将文本特征矩阵作为卷积神经网络语言模型的输入数据,拼接成词性序列矩阵;分段池化捕获文本序列不同的关键特征,并分类处理提取到的特征向量;加入dropout机制完成特定目标文本情感分类,确定文本中每个词的重要度信息,实现特定目标文本情感分析.实验结果表明,文本分析模型的准确率高于84%,召回率最大值为87%,能够有效实现特定目标文本情感分析.  相似文献   

8.
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。  相似文献   

9.
建立了一种适用于人脸、步态等生物特征识别的单模态生物特征识别系统.首先,单位化原始生物特征数据,得到新的数据集;然后,利用局部拓扑结构保存映射算法,确定新数据集的内蕴低维子空间;最后,在确定的低维子空间上利用类内距离和执行分类.在这个系统中,局部拓扑结构保存映射算法是一种新颖的子空间学习方法,与其他子空间学习算法相比,判别能力更强,更适合于生物特征识别.此外,对原始数据进行单位化处理以及在确定低维子空间上利用类内距离和执行分类都能有效提高生物特征识别系统性能.实验结果表明:该单模态生物特征识别系统是有效性的.  相似文献   

10.
概率主题模型是一种统计生成模型,它从文档集合中抽取一系列主题,并将这些文档表示为不同主题依照一定概率混合而成.通过这种模型发现的主题,能揭示文档的语义信息,在很多领域都有着广泛的应用.为此基于概率主题模型,提出了一种新的层次文本分类方法. 该方法首先利用Gibbs抽样提取一系列主题,然后计算测试文档和每个类的基于主题的相似度.在20 NewsGroups数据集上的实验结果表明,该方法的分类性能明显超越支持向量机分类方法.  相似文献   

11.
文本情感分类领域性强,传统情感分类方法在多领域混合数据上效果不佳.为了提升多领域混合情境下文本情感分类的准确率,使用双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到短文本的初级表征;利用对抗网络提取与领域无关的情感特征;利...  相似文献   

12.
针对文本自动分类时可能存在一个文本属于多类的问题,提出了一种基于模糊向量空间模型和神经网络的文本自动分类方法。该方法采用模糊集理论,把特征项在文档中出现的位置作为反映文档主题的重要程度(隶属度),并在特征提取时充分考虑该位置信息,从而构造出模糊特征向量,使文本分类更接近手工分类方法。建立的网络由输入层、隐含层和输出层组成,其中输入层完成分类样本的输入,隐含层提取输入样本所隐含的模式特征,输出层用于输出分类结果。实验部分以万方数据库中部分文档数据为例验证了该方法的有效性。  相似文献   

13.
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高.  相似文献   

14.
研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.  相似文献   

15.
Web文本分类是Web文本挖掘的一项重要技术,它是一种基于主题分类的指导,能够使用户在快速地找到想要的资源和知识。文本分类过程中,首先采用向量空间模型对Web文本进行特征提取,然后将得到的数据集分成样本数据集和测试数据集,将样本数据集输入BP神经元网络进行分类,网络经过训练后,输入测试数据集进行验证。实验结果证明BP神经元网络在文本分类领域有着较好的实用价值。  相似文献   

16.
准确评估城市安全态势是保障居民出行安全的关键。针对现有的单一领域静态评价方法难以应对复杂多变的出行安全问题,考虑出行安全的时空相关特性,提出一种基于多源数据的出行安全时空评价模型。针对时间类特征的马尔科夫特性,构建基于条件随机场的时间域评价模型以模拟安全指数的时序相关性;针对空间维度中不同栅格之间的特征相关性和地理位置邻近性与安全指数之间复杂的非线性映射关系,构建基于神经网络的空间域评价模型以模拟安全指数的空间相关性。在模型训练阶段,考虑样本数据稀疏性问题,采用基于协同训练的半监督学习方法使2个模型相互迭代增强,共同作用得到最终评价结果。实验结果表明,该方法分类评价精确率达82.3%,召回率达70.4%,模型性能优于其他几种常用的分类算法。  相似文献   

17.
多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。通过多模态信息的融合能获得更全面的特征并且提高模型鲁棒性,目前多模态融合技术已成为多模态领域核心研究课题之一。本文基于ImageNet、HowNet和CCD,通过人工标注构建了一个新的多模态知识库,已完成校准ImageNet中21 455个名词及动词概念的映射,有效地将HowNet以及CCD中概念映射到ImageNet中。该数据集能够应用于自然语言处理任务和计算机视觉任务,并通过图片信息和概念信息提高任务效果。在图片分类中,通过增加HowNet和ImageNet概念能够融合更多的图片特征来辅助分类;在语义理解中,通过映射增加图片信息可以更好地理解语义。  相似文献   

18.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

19.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

20.
基于卷积神经网络, 提出一种基于改进卷积神经网络的短文本分类模型. 首先, 采用不同编码方式将短文本映射到不同空间下的分布式表示, 提取不同粒度的数字特征作为短文本分类模型的多通道输入, 并根据标准知识库提取概念特征作为先验知识, 提高短文本的语义表征能力; 其次, 在全连接层增加自编码学习策略, 在近似恒等的基础上进一步组合数字特征, 模拟数据内部的关联性; 最后, 利用相对熵原理为模型增加稀疏性限制, 降低模型复杂度的同时提高模型的泛化能力. 通过对开源数据集进行短文本分类实验, 验证了模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号