期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张开旭夏云庆宇航《清华大学学报(自然科学版)》2009,(10)

标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。相似文献

2.

面向文本知识管理的自适应中文分词算法

冯永贺迅唐黎陈显勇陈贞《重庆大学学报(自然科学版)》2010,33(10):110-117

针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局部概率与全局概率相结合来识别生词和消歧。通过在不同领域语料库的实验表明,SACWSA能准确、高效地自动适应不同行业领域的文本知识管理要求。相似文献

3.

融合遗传算法的特定领域情感词库构建

杜茂康李晓光刘岽《重庆邮电大学学报(自然科学版)》2022,34(4):576-584

为提高情感词库在特定领域情感分析的性能,针对情感词的强度和极性随着领域不同而变化的问题,采用遗传算法构建特定领域专用的情感词库。提出了基于遗传算法的情感词库构建框架,将词库预测特定领域文本情感趋向的准确率作为优化目标,并不断对情感词分值进行调整。利用遗传算法强大的搜索能力,实现对情感词分值的调整,结合情感词对文本的影响,设计并改进了变异策略以提升情感分类的准确率。设计了精英策略以提升算法的收敛速度。通过在中文和英文评论数据集上的对比实验表明,相较于已有的情感词库,构建的词库在特定领域文本情感分类的准确率和F1值都在80%以上,具有明显优势,证明了方法的有效性。该方法构建的情感词库在特定领域具有良好的性能,有效提升了情感词的覆盖率,能很好地扩展到其他领域。相似文献

4.

基于BERT的金融文本情感分析模型

朱鹤陆小锋薛雷《上海大学学报(自然科学版)》2023,(1):118-128

在金融领域,越来越多的投资者选择在互联网平台上发表自己的见解.这些评论文本作为舆情的载体,可以充分反映投资者情绪,影响投资决策和市场走势.情感分析作为自然语言处理(natural language processing,NLP)中重要的分支,为分析海量的金融文本情感类型提供了有效的研究手段.由于特定领域文本的专业性和大标签数据集的不适用性,金融文本的情感分析是对传统情感分析模型的巨大挑战,传统模型在准确率与召回率上表现较差.为了克服这些挑战,针对金融文本的情感分析任务,从词表示模型出发,提出了基于金融领域的全词覆盖与特征增强的BERT(bidirectional encoder representations from Transformers)预处理模型. 相似文献

5.

基于情感字典与连词结合的中文文本情感分类

刘玉娇琚生根伍少梅苏翀《四川大学学报(自然科学版)》2015,52(1):57-62

本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语。而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,对于无感情词的句子,采用连词的方法来进行感情的判别。实验结果表明,该方法能够对不同领域的评论得到较好的感情分类效果。相似文献

6.

融合VAD情绪知识的文本情感分布标签增强方法

王耀琦万中英曾雪强左家莉《清华大学学报(自然科学版)》2024,(5):789-800

情感分布学习(emotion distribution learning, EDL)采用情感分布记录给定样本在各个情绪上的表达程度,在处理具有模糊性的多标签情绪分析任务时具有明显优势。情感分布标签增强技术将已标注的情绪单标签增强为情感分布,可以解决EDL缺乏已标注情感分布的实验数据集的问题。然而,已有的情感分布标签增强方法采用离散空间情绪模型表示情绪,存在情绪间的相关信息丢失和情绪表达不连续等问题。针对上述问题,该文引入基于连续维度的效价-唤醒-支配(valence-arousal-dominance, VAD)心理学情绪模型,提出融合VAD情绪知识的文本情感分布标签增强方法(VAD emotion knowledge-based text emotion distribution label enhancement, VADLE)。VADLE方法基于先验的VAD情绪模型中的情绪距离,先为英文句子的真实情绪标签和句中情感词的情绪标签分别生成先验情感分布,再通过分布叠加将2种先验情感分布统一。通过英文单标签文本情感数据集的对比实验表明：VADLE方法在情绪预测任务方面的性能优于已有的情感... 相似文献

7.

基于BERT预训练语言模型的电网设备缺陷文本分类

田园原野刘海斌满志博毛存礼《南京理工大学学报(自然科学版)》2020,44(4)

电网设备缺陷部位识别是设备故障分析的关键环节。该文提出一种基于预训练语言模型双向Transformers偏码表示(Bidirectional encoder representation from transformers,BERT)的电网设备缺陷文本分类方法。基于BERT预训练语言模型对电网设备缺陷部位文本进行预训练生成具有上下文特征的词嵌入(Word embedding)向量作为模型输入,然后,利用双向长短时记忆(Bi-directional long short-term memory)网络对输入的电网设备缺陷文本向量进行双向编码提取表征缺陷文本的语义表征,并通过注意力机制增强电网设备缺陷文本中与缺陷部位相关的领域词汇的语义特征权重,进而得到有助于电网设备缺陷部位分类的语义特征向量。通过模型的归一化层实现电网设备缺陷部位文本分类。在主变压器、SF6真空断路器这两种设备缺陷文本数据集上实验结果表明,提出的方法比基于BiLSTM-Attention模型的F_1值分别提升了2.77%和2.95%。相似文献

8.

基于XLNet+BiGRU+Att(Label)的文本分类模型

下载免费PDF全文

刘柏霆管卫利李陶深《广西科学院学报》2022,38(4):412-419

传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。相似文献

9.

基于对话的中文正面情感风格迁移

胡玉婷左家莉刘江盛万剑怡王明文《清华大学学报(自然科学版)》2024,(5):780-788

文本风格迁移旨在保留文本内容的前提下,通过编辑或生成的方法使得目标文本带有某些特殊属性,如礼貌、情感、性别等。现有的情感风格迁移研究主要集中在英文数据集上,在中文数据集上的研究相对较少。该文构建了一个基于对话的中文情感文本数据集,该数据集的部分原始数据源自电视连续剧《家有儿女》中的对白,并对其进行人工标注和循环模型标注。目前该数据集的负面情感文本和正面情感文本句子共30 836个。根据该数据集中大多数情感词是显性的特点,在编辑类的模型上开展了基于对话的中文正面情感风格迁移的研究。实验结果表明：在该数据集上,编辑类的模型可以较好地识别文本的情感属性,并实现文本正面情感风格迁移。相似文献

10.

基于POS-CBOW语言模型的相似词分析

下载免费PDF全文

阮冬茹潘洪岩高凯《河北科技大学学报》2015,36(5):532-538

相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。相似文献

11.

《中国图书馆分类法》(第五版)附表修订的特色与不足

周德堂《科技情报开发与经济》2011,21(25):77-80,97

分析了《中国图书馆分类法》(第五版)通用复分表修订的特色与不足,并提出了相关建议。相似文献

12.

中图分类号在科技期刊论文中的标引检索分析

张丽《天津科技》2014,41(8):97-99

介绍了在科技期刊论文中标引中图分类号的原则及步骤,分析了中图分类号在标引论文、检索文献、分类统计中的作用,并探讨了目前科技期刊论文中中图分类号标引不当的现象,以及因其自身局限、普及不够、标引不当等造成的中图分类号检索弱化现象。指出了编辑人员应重视中图分类号的标引工作,加强相关知识学习,为期刊论文的族性检索和分类统计创造条件。相似文献

13.

浅谈《中国图书馆分类法》（五版）计算机应用软件（TP317）类的修订

排立军《科技情报开发与经济》2013,23(17):68-70

介绍了《中国图书馆分类法》（五版）计算机应用软件（TP317）类的修订情况,分析了计算机应用软件（TP317）类设置中存在的不足,结合分类标引工作的实践,探讨了改进计算机应用软件（TP317）类设置的具体措施。相似文献

14.

《中图法》网络版研究 总被引：3，自引：0，他引：3

王崇良《咸宁学院学报》2004,24(5):189-192

分析了《中图法》作为网络信息分类法的主要原因，探讨研究了《中图法》网络版的编制原则、《中图法》网络版的特征以及《中图法》网络版的编制。目的是促进对《中图法》网络版的研究，实现图书分类与网络信息分类的规范与统一。相似文献

15.

《中国图书馆分类法》戏剧类类目设置的探讨

张长秀《科技情报开发与经济》2006,16(2):62-63

运用中国戏剧学和图书馆分类学的专业知识，结合图书分类工作的实践经验，对《中国图书馆分类法》戏剧类类目设置及相应的主题词对照索引中主题的设置进行了探讨并提出了几点建议。相似文献