排序方式: 共有10条查询结果,搜索用时 0 毫秒
1
1.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率. 相似文献
2.
中文文本挖掘中最长频繁序列的发现算法 总被引:1,自引:0,他引:1
本文对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的发现所有最长频繁序列的算法.该算法基于"找最长字共现"的原则,可以准确地将文本中的词汇切分出来. 相似文献
3.
4.
5.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率. 相似文献
6.
文本挖掘中的姓名特征具有很强的文本表达能力,本文设计的姓名特征提取算法是利用词与词的上下文关系及中文姓名本身的统计信息对文本中的姓名特征进行提取,通过对样本的测试,表明该项技术能比较准确地提取文本中的姓名特征,基本达到了预期的目标. 相似文献
7.
8.
9.
关联规则算法在中文文本挖掘中的应用研究 总被引:4,自引:0,他引:4
本文介绍了关联规则的主要概念及关联规则的经典算法,并将关联规则算法应用于中文文本挖掘中,目的是通过计算文本特征词间的支持度、可信度关系了解文本间的关联关系. 相似文献
10.
关于民族院校计算机专业英汉双语教学的思考 总被引:1,自引:0,他引:1
民族院校学生英语水平参差不齐,计算机专业双语教学势在必行.本文提出加强教师专业素质,提高教师英语水平,转变教师角色、情感教学,激发学生的学习兴趣,帮助学生形成学习动机,培养学生创造性思维等方面实施英汉双语教学,旨在对民族院校计算机专业开设双语教学起到抛砖引玉的作用. 相似文献
1