首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
社交媒体话题检测一直是个热点问题,由于社交数据杂乱异构,且具有时效性,语义模糊性等特点,话题检测也是个难点问题.研究利用复杂网络对社交文本数据进行建模,并结合一种基于极大团凝聚层次聚类的重叠社团发现方法实现了社交话题的检测.文本数据建模中,通过自定义突发系数量化话题词,即把话题词看作具有时域分布偏好的关键词,并通过自定义相关系数连接话题词,构建话题网络.为使自定义系数更适用于动态数据环境,实验结合真实数据进行了适应性测试优化系数.文章把采用EAGLE重叠社团发现方法在公开数据集上评测,根据Q函数值显示结果明显优于当前一些重叠社团发现策略,研究对采样的60万条青少年社交数据进行了话题分析并可视化了分析结果.  相似文献   

2.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

3.
通过建立模型对电商企业的客户查询信息进行文本分类分析,帮助企业掌握用户的消费习惯,同时帮助用户及时找到需要的商品.本文首先获取客户查询数据并对该文本数据进行预处理,利用改进的TF-IDF方法获得文本特征向量,最后结合朴素贝叶斯文本分类及半监督的EM迭代算法建立分类模型,并应用各种标准对模型进行评估,验证模型的有效性.多类别文本集选取文本特征时,关键词权值容易产生波动,本研究改进关键词权值计算公式来改善分类结果.实验结果表明分类器具有良好的分类效果.  相似文献   

4.
在利用文本信息预测用户大五人格的普遍方法中,对于文本特征的提取未充分考虑上下文语义信息,存在对语义特征提取不够精准的问题.针对该问题,提出了一种结合深度学习与上下文语义的方法:在TF-IDF中加入单词的上下文语义信息来计算单词权值,然后结合基于文本的卷积神经网络模型和由单词权值构成的上下文语义特征向量进行用户大五人格预测.实验数据使用Facebook中myPersonality应用的用户社交记录,实验结果表明:将文本上下文语义加入到深度学习预测模型后,人格预测的准确率有所提高.  相似文献   

5.
通过采用Cross-Validation实验模型对多种XML分类算法进行对比,设计了实验平台,给出了各种分类算法的适用场合.本文的分析和数据表明如果有效地将XML中的结构信息以及文本信息结合起来,设计出更加适合XML文本本身的相似度量模型将是未来XML分类研究中的重要研究方向.  相似文献   

6.
针对基本话题模型只能抽取粗粒度上下文信息的问题,通过对潜在狄里克雷分配(LDA)模型进行扩展,建立了一种利用词序信息的多粒度话题情感联合模型(MTSU-Col)。MTSU-Col模型客观表达了词汇、全局/局部话题、情感标签和词序信息之间的关联关系,使模型中话题和情感的建模更加符合文本的语义表达,有效解决了现有话题、情感分析方法存在的领域依赖问题,从而实现了文本多粒度话题信息和情感倾向信息的同步非监督获取。实验表明:利用MTSU-Col模型对文本进行情感倾向性分类,可使综合评价指标F1值达到84%,整体性能与监督分类方法支持向量机(SVM)类似,均优于未采用词序信息的分析方法。由于挖掘话题集合具有层次化、语义相关的特点,因此MTSU-Col模型对观点挖掘是可行、有效的。  相似文献   

7.
立场检测是分析文本作者对某一话题所表现的立场倾向性是支持、反对还是中立,是舆情分析的重要研究方向。本文针对现有的大部分立场检测方法无法充分建模话题信息,很难联合分析话题与相应文本的现状,提出了一种两阶段注意力机制的立场检测方法。第一阶段利用注意力机制学习话题整体语义表示,第二阶段将话题表示与文本表示进行注意力匹配,进而得到融合特定话题的文本表示向量,最后对该语义表示进行分类。实验结果表明,该模型在新疆反恐话题的语料上Acc和F值指标分别提高了0.4%和1%,在NLPCC-2016立场检测任务数据集的4个话题上取得了较优的效果。  相似文献   

8.
传统的关键词抽取算法不能够抽取那些没有在文本当中出现过的关键词,因此在抽取法律问题(短文本)的关键词任务上效果不佳。该文提出了一种基于强化学习的序列到序列(seq2seq)模型来从法律问题中抽取关键词。首先,编码器将给定法律问题文本的语义信息压入一个密集矢量;然后,解码器自动生成关键词。因为在关键词抽取任务中,生成的关键词的前后顺序无关紧要,所以引入强化学习来训练所提出的模型。该模型结合了强化学习在决策上的优势和序列到序列模型在长期记忆方面的优势,在真实数据集上的实验结果表明,该模型在关键词抽取任务上有较好的效果。  相似文献   

9.
互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,利用文字云和主题模型文本挖掘方法,对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言,以多年粗糙集会议纪要为实验数据进行了相关统计分析,并对比了 Tagxedo文字云生成器,结果表明,从文字云中比较容易获取文本的重要信息如主题模型等,挖掘效果较好。  相似文献   

10.
通过对社交网络新浪微博的数据的统计分析,得知微博数据具有高度的聚集性,即一个流行微博的只被转发一次的转发数占总转发数量的50%以上.因此,提出了对信息级联分层的STIC模型,该模型的第一层级联和第二层级联分别使用SVM分类算法和基于主题的信息级联模型对话题传播进行预测.实验结果表明,STIC模型的预测结果优于基于主题的信息级联模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号