首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。  相似文献   

2.
针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局部概率与全局概率相结合来识别生词和消歧。通过在不同领域语料库的实验表明,SACWSA能准确、高效地自动适应不同行业领域的文本知识管理要求。  相似文献   

3.
为提高情感词库在特定领域情感分析的性能,针对情感词的强度和极性随着领域不同而变化的问题,采用遗传算法构建特定领域专用的情感词库。提出了基于遗传算法的情感词库构建框架,将词库预测特定领域文本情感趋向的准确率作为优化目标,并不断对情感词分值进行调整。利用遗传算法强大的搜索能力,实现对情感词分值的调整,结合情感词对文本的影响,设计并改进了变异策略以提升情感分类的准确率。设计了精英策略以提升算法的收敛速度。通过在中文和英文评论数据集上的对比实验表明,相较于已有的情感词库,构建的词库在特定领域文本情感分类的准确率和F1值都在80%以上,具有明显优势,证明了方法的有效性。该方法构建的情感词库在特定领域具有良好的性能,有效提升了情感词的覆盖率,能很好地扩展到其他领域。  相似文献   

4.
在金融领域,越来越多的投资者选择在互联网平台上发表自己的见解.这些评论文本作为舆情的载体,可以充分反映投资者情绪,影响投资决策和市场走势.情感分析作为自然语言处理(natural language processing,NLP)中重要的分支,为分析海量的金融文本情感类型提供了有效的研究手段.由于特定领域文本的专业性和大标签数据集的不适用性,金融文本的情感分析是对传统情感分析模型的巨大挑战,传统模型在准确率与召回率上表现较差.为了克服这些挑战,针对金融文本的情感分析任务,从词表示模型出发,提出了基于金融领域的全词覆盖与特征增强的BERT(bidirectional encoder representations from Transformers)预处理模型.  相似文献   

5.
本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语。而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,对于无感情词的句子,采用连词的方法来进行感情的判别。实验结果表明,该方法能够对不同领域的评论得到较好的感情分类效果。  相似文献   

6.
情感分布学习(emotion distribution learning, EDL)采用情感分布记录给定样本在各个情绪上的表达程度,在处理具有模糊性的多标签情绪分析任务时具有明显优势。情感分布标签增强技术将已标注的情绪单标签增强为情感分布,可以解决EDL缺乏已标注情感分布的实验数据集的问题。然而,已有的情感分布标签增强方法采用离散空间情绪模型表示情绪,存在情绪间的相关信息丢失和情绪表达不连续等问题。针对上述问题,该文引入基于连续维度的效价-唤醒-支配(valence-arousal-dominance, VAD)心理学情绪模型,提出融合VAD情绪知识的文本情感分布标签增强方法(VAD emotion knowledge-based text emotion distribution label enhancement, VADLE)。VADLE方法基于先验的VAD情绪模型中的情绪距离,先为英文句子的真实情绪标签和句中情感词的情绪标签分别生成先验情感分布,再通过分布叠加将2种先验情感分布统一。通过英文单标签文本情感数据集的对比实验表明:VADLE方法在情绪预测任务方面的性能优于已有的情感...  相似文献   

7.
电网设备缺陷部位识别是设备故障分析的关键环节。该文提出一种基于预训练语言模型双向Transformers偏码表示(Bidirectional encoder representation from transformers,BERT)的电网设备缺陷文本分类方法。基于BERT预训练语言模型对电网设备缺陷部位文本进行预训练生成具有上下文特征的词嵌入(Word embedding)向量作为模型输入,然后,利用双向长短时记忆(Bi-directional long short-term memory)网络对输入的电网设备缺陷文本向量进行双向编码提取表征缺陷文本的语义表征,并通过注意力机制增强电网设备缺陷文本中与缺陷部位相关的领域词汇的语义特征权重,进而得到有助于电网设备缺陷部位分类的语义特征向量。通过模型的归一化层实现电网设备缺陷部位文本分类。在主变压器、SF6真空断路器这两种设备缺陷文本数据集上实验结果表明,提出的方法比基于BiLSTM-Attention模型的F_1值分别提升了2.77%和2.95%。  相似文献   

8.
传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。  相似文献   

9.
文本风格迁移旨在保留文本内容的前提下,通过编辑或生成的方法使得目标文本带有某些特殊属性,如礼貌、情感、性别等。现有的情感风格迁移研究主要集中在英文数据集上,在中文数据集上的研究相对较少。该文构建了一个基于对话的中文情感文本数据集,该数据集的部分原始数据源自电视连续剧《家有儿女》中的对白,并对其进行人工标注和循环模型标注。目前该数据集的负面情感文本和正面情感文本句子共30 836个。根据该数据集中大多数情感词是显性的特点,在编辑类的模型上开展了基于对话的中文正面情感风格迁移的研究。实验结果表明:在该数据集上,编辑类的模型可以较好地识别文本的情感属性,并实现文本正面情感风格迁移。  相似文献   

10.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

11.
分析了《中国图书馆分类法》(第五版)通用复分表修订的特色与不足,并提出了相关建议。  相似文献   

12.
张丽 《天津科技》2014,41(8):97-99
介绍了在科技期刊论文中标引中图分类号的原则及步骤,分析了中图分类号在标引论文、检索文献、分类统计中的作用,并探讨了目前科技期刊论文中中图分类号标引不当的现象,以及因其自身局限、普及不够、标引不当等造成的中图分类号检索弱化现象。指出了编辑人员应重视中图分类号的标引工作,加强相关知识学习,为期刊论文的族性检索和分类统计创造条件。  相似文献   

13.
介绍了《中国图书馆分类法》(五版)计算机应用软件(TP317)类的修订情况,分析了计算机应用软件(TP317)类设置中存在的不足,结合分类标引工作的实践,探讨了改进计算机应用软件(TP317)类设置的具体措施。  相似文献   

14.
《中图法》网络版研究   总被引:3,自引:0,他引:3  
分析了《中图法》作为网络信息分类法的主要原因,探讨研究了《中图法》网络版的编制原则、《中图法》网络版的特征以及《中图法》网络版的编制。目的是促进对《中图法》网络版的研究,实现图书分类与网络信息分类的规范与统一。  相似文献   

15.
运用中国戏剧学和图书馆分类学的专业知识,结合图书分类工作的实践经验,对《中国图书馆分类法》戏剧类类目设置及相应的主题词对照索引中主题的设置进行了探讨并提出了几点建议。  相似文献   

16.
困惑与思考——第四版《中图法》法律类目小议   总被引:1,自引:0,他引:1  
罗琼珍 《科技信息》2008,(10):283-283
本文作者就有关法律类图书分类实践中遇到的问题,指出了《中图法》第4版法律类类目中D925.1/7存在的一些问题,就此提出了自己的看法。  相似文献   

17.
这篇文章从高校图书馆信息公平的概念着手,描述了信息公平的现状,并找出导致信息不公平的原因,最终列出促进信息公平的四个措施:①建立信息公平的制度;②完善高校图书馆机制;⑤提高信息主体的接收能力;④对信息弱势群体的特殊服务。  相似文献   

18.
实现广东省图书馆文献资源共享之战略   总被引:4,自引:0,他引:4  
通过分析广东省文献资源共享的现状及存在的问题,从总体目标、管理体制、运行机制等几方面提出了实现广东省图书馆文献资源共享的战略。  相似文献   

19.
结合文献编目工作实践,通过实例,对《中图法》第4版的类目体系变化、特点、类目修改、类目注释等进行了分析评价,并对其存在的不足之处提出了改进建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号