共查询到20条相似文献,搜索用时 359 毫秒
1.
2.
同其他语言一样藏语词性的兼类现象普遍存在,这给词性标注工作带来了巨大困难,对兼类词的处理是藏语词性标注的关键所在。文章利用传统和现代藏语语法理论,在分析藏语真实文本的基础上,归纳了藏语兼类词的种类,提出了兼类词的标注原则。并根据词语搭配关系和词的组合结构构建了兼类词的识别规则库,利用该规则库可对兼类词的词性进行较准确的标注。 相似文献
3.
在ActiveX Automation规范下,通过编程实现了自动提取AutoCAD的标注对象,如尺寸、引线和公差标注的内部属性信息,解决了协同设计时,不能完整获取标注对象数据的问题。根据上述三种标注对象所含属性组合方式的不同,给出了不同的查寻和提取属性信息的具体方法。 相似文献
4.
数据标注最重要的考虑因素是标注数据质量和标注成本。该文调研发现自然语言处理领域的数据标注工作通常采用机标人校的标注方法以降低成本,但很少有工作严格对比不同标注方法,以探讨标注方法对标注质量和成本的影响。该文依托一个成熟的标注团队,以依存句法树标注为案例,实验对比了机标人校、双人独立标注及该文通过融合前两种方法所提出的人机独立标注方法,结果发现:人机独立标注能有效结合机标人校和双人独立标注的优点,在利用机器降低标注成本的同时解决了校对者的认同倾向问题,从而提高了标注质量。 相似文献
5.
数据标注是Deep Web数据集成系统的重要组成部分.建立了领域标注模型,描述数据标注的思想,根据不同的数据,使用领域知识和决策树两种标注方法,给出标注算法描述,最后以图书领域作为标注对象进行实验.实验结果表明该方法可高效、准确地对Deep Web数据进行标注. 相似文献
6.
7.
阐述尺寸基准选择的重要性,说明影响产品质量的重要原因是尺寸标注,研究不同机械零件尺寸标注的合理性,分析尺寸标注与加工工艺之间的密切关系。 相似文献
8.
9.
近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好. 相似文献
10.
为了改变元数据创建还处于手动、半手动的现状,要提高Web页元数据的精确度。首先基于语义标注理念,以群体共享的形式对Web页语义信息进行标注。生成过程中利用自动聚类算法,侧重于分析标注者不同特点对提高元数据质量所起的作用,提出了一种自动生成元数据方案。最后,通过实验证明,元数据结果会因标注者特点的不同而异,并且当标注者影响超过了临界值会提高元数据的质量。 相似文献
11.
《郑州大学学报(理学版)》2020,(2)
提出了充分利用未标注样本的样本信息的双语对抗学习方法。具体而言,中文的标注样本和未标注样本分别通过不同的LSTM进行编码,再经过分类器和判别器进行对抗学习。其中,分类器的作用是使标注样本和未标注样本处于同一分布,而判别器用来区分输入样本是标注样本还是未标注样本。最后,构建一个相同的英文语料的对抗神经网络,通过联合学习中英文对抗神经网络提升半监督情感分类的性能。实验结果表明,所提出的基于双语对抗学习的半监督情感分类方法在不同标注样本数量的训练集上都取得了较好的准确率,与其他基准方法相比有明显提升。 相似文献
12.
13.
《大连海事大学学报(自然科学版)》2020,(2)
正《大连海事大学学报》参考文献标注方法采取顺序编码制,各篇文献要按正文部分标注的序号依次列出,连续编码,并将序号置于方括号中。参考文献的页码一般置于参考文献表中,如多次引用同一著者的同一文献,则在正文中标注首次引用文献的序号。参考文献为中文的,请给出该文献 相似文献
14.
15.
《大连海事大学学报(自然科学版)》2015,(1)
<正>《大连海事大学学报》参考文献标注方法采取顺序编码制,各篇文献要按正文部分标注的序号依次列出,连续编码,并将序号置于方括号中。参考文献的页码一般置于参考文献表中,如多次引用同一著者的同一文献,则在正文中标注首次引用文献的序号。参考文献为中文的,请给出该文献 相似文献
16.
该文提出了一种基于Viterbi解码的中文合成音库韵律短语边界自动标注方法,以降低大语料库单元拼接合成系统的构建成本。该方法分为模型训练和韵律标注两阶段:模型训练阶段得到频谱、基频和音素时长的上下文相关隐Markov模型(hidden Markov model,HMM);标注阶段借助训练得到的模型采用Viterbi解码完成韵律短语自动标注。实验结果表明:该方法进行韵律短语边界标注时的F-score值达到77.64%,超过了人工标注时不同标注人员之间的一致性水平;另外该方法可以方便地增加待标注韵律属性,具有良好的扩展性。 相似文献
17.
18.
科技查新报告的有效期一般为一年。为了真正发挥科技查新报告为科技服务的作用,利用世界上两个最大、最有影响力的生物医学数据库PubMed与BIOSIS Previews,分别用同一检索策略检索,比较两个数据库6个月、12个月检出的文献量,以探讨查新报告的合理有效期,为科研工作者和查新员掌握查新的最佳时间提供参考依据。 相似文献
19.
软件缺陷预测数据集在搜集过程中存在标注成本较高的问题,引入主动学习有利于选择有价值的数据样例来快速构建数据集,但是主动学习一般选出不确定度最高的样例进行人工标注,并未考虑低不确定度样例。为了进一步降低数据标注的成本,融合信息熵与相对熵提出一种基于代价敏感的混合式主动学习策略。该策略首先使用基于信息熵的主动学习策略,将信息熵最高的样例交由领域专家进行人工标注;对于信息熵最低的样例,借助查询委员会进行二次分析,若满足阈值则进行伪标注。实证研究表明,在同等标注样例的情形下,该策略的AUC值要优于其他3种经典的主动学习策略。使用基于代价敏感的主动学习查询策略可以有效提高软件缺陷预测领域的标注效率并降低标注成本。 相似文献
20.
参考文献著录格式的常见差错评析 总被引:6,自引:0,他引:6
参考文献是学术论文不可缺少的组成部分,但在一定程度上不能引起作者的足够重视,存在诸多不规范之处.在正文中,参考文献的标注普遍存在引文序号不加以标注或不放入方括号中、序号是否为上角标不加以区分、引文顺序编码混乱等差错;文后参考文献表的著录一般存在表题不规范、责任者及文献类型标志代码标注不规范等差错;作者在标注专著、期刊(报纸)析出文献及电子文献时,还不能达到标准化、规范化的要求. 相似文献