首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。  相似文献   

2.
本论述采用藏语三级切分体系对藏文文本进行分词和词性标注,并借助手工建立的藏文情感分析用词表,与已有的特征选择方法相结合提取情感特征,用相似度分类算法进行藏文文本的情感分类,达到了较好的分类效果.  相似文献   

3.
以藏族格言作为输入语料,用藏文CRF自动分词系统将文本自动分词后,利用语料分析软件,统计和分析文本中的方位词词性和词频.在词汇语境共现中筛选方位词单独作语法成分的具体实例,进一步分析方位词的语义特点、句法功能及搭配情况.通过分析发现,方位词在句法中,其语义包括定性和泛性两种,承担了普通名词(nn)、不及物动词(vi)、及物动词(vt)、时间名词(nt)等语法成分,在作名词时主要强调地点义,而方向义并不明显.在句法功能中,可作主语、宾语、地点状语等.从搭配情况来看,它与位格、属格和从格助词搭配构成方位短语表示处所和范围,与动词搭配表示一定的趋向性,也作修饰动词的地点状语.  相似文献   

4.
语义词典是人工智能、语义网与知识工程等研究领域的热点,它可以支持机器学习、自然语义理解、数据挖掘及机器翻译等技术。文章在藏语独特的文法理论研究基础上,利用对比英文和藏文词之间的语义关系、构建双语大型数据库和制定映射过程中词汇空缺等方法,构建了基于半自动匹配的藏文语义词典。本语义词典既兼容了国际通用的英文WordNet,又保留了藏语的特点,为藏文信息处理提供了重要的数据资源。  相似文献   

5.
以Wordnet2.0导出的动词表为词汇主体,借鉴Wordnet中以词义为基础构建的词义网络系统的结构,运用Access 2007数据库建设和管理技术来建构一个高级动词词表,这个动词词表通过词义之间的关系来反映词汇概念和词汇关系结构,符合使用者特别是学习者的心理词汇表征。在英语资源库中可以广泛地应用Access2007的数据库开发技术,将所有的语料联成一个整体,可为辞书编纂和英语教学提供词汇和数据库技术方面的支持和参考。  相似文献   

6.
常用的基于特征表达的跨领域文本倾向性分析的基本思想是通过统计的方法对源领域和目标领域的数据进行特征对齐,再根据特征间关联构建目标领域的分类器。从词汇倾向性计算入手,提出了一种基于领域基准词表的跨领域倾向性计算的方法。与传统的词汇倾向性计算方法不同的是,该方法在构建基准词表时,同时考虑词性和领域信息,在计算倾向性时,根据词汇当前的词性和领域信息采用相应的领域基准词表进行计算。实验结果表明:与传统的跨领域倾向性分析算法相比,虽然该方法在准确率上的优势不明显,但可以不依赖源领域和目标领域文本数据;与传统的基于基准词表的倾向性计算方法相比,该方法能够大幅提高倾向性分析的准确率。  相似文献   

7.
以《汉语水平词汇与汉字等级大纲》甲级词中的单音节动词为对象,同与之同义的单音节动词(包括非大纲甲级词甚至非大纲中的词)组成了297组同义词,对词义进行比较发现,《现代汉语词典》对297组同义词的解释可以分为两大类:义项相同的同义单音节动词和义项相近的同义单音节动词。  相似文献   

8.
文章用GOOGLE开源的Word2Vec工具把藏文文本《贤者喜宴》经过分词后的语料作为输入,将文本中的词映射到一个K维空间,利用词汇的上下文信息将词转变为词向量.Word2Vec工具再通过学习得到一个向量模型,每一个词都用一个独特的词向量来表示.训练文本数据构造一个词表,然后学习词的向量表示.词向量能够捕获许多语言的规律,从而得出词与词之间的距离即相似度.进一步通过高频词汇作为输入,通过训练即可输出与高频词汇距离最近的词汇,以高频词和与其相近的词汇作为重要信息去预测文本的大致语义.实验结果表明基于Word2Vec训练模型的准确率和召回率都很高.  相似文献   

9.
现代汉语家具类词颇具特色。在语音形式上,家具类词语以单音节和双音节居多,三音节相对较少,四音节很罕见。在词义架构上,单义词占优势,多义词只占少数一部分,词义架构简单。从词的内部语素构成来看,家具类词语中合成词占有绝对的优势。单纯词中以单音节单纯词为主。合成词中不存在重叠式合成词。复合式合成词中,偏正型占有主要地位,联合型次之。附加式合成词中,以"词根+词缀"型为主。《现汉》在家具类词语的诠释中较之《汉语大词典》和《现代汉语规范词典》还存在一些有待改善的地方,尤其在遵循统一性方面还有许多问题可以讨论。  相似文献   

10.
英语核心词汇具有特定的内涵和一定的数量,其确定方法也并不复杂,但如何确定英语核心词汇在英汉学习词典里却需要综合考虑多方面的因素,如一词多义、多词性、产出性英语词汇、英语国家和我国的文化特色词汇、我国日常生活使用频率很高的词汇等。  相似文献   

11.
藏语句子边界识别是一项重要的基础性工作,它的准确率直接影响藏语句法分析、汉藏(或藏汉)平行语料库和藏汉(或汉藏)机器翻译等的研究工作。文章通过分析藏文文法知识,提出了一种比较简单而实用的词性规则法,其主要思想是:单垂符或双垂符的前后词性来判断句子是否结束。经测试,文章提出的藏语句子边界识别方法在文学类、诗歌类、医学类和新闻类等536句藏语语料中句子边界的识别准确率达到96.37%。  相似文献   

12.
提出一种基于词频-极性强度值的情感词挖掘方法构建中文抑郁症情感词典。首先,对抑郁症患者评论语料进行有效分词,采用双向最大匹配和互信息方法选出候选情感词,再通过计算词频-极性强度值得到种子词集;然后,通过计算基础中文情感词典与种子词的语义相似度,得到抑郁症领域情感词表,将词表与种子词集合并,得到中文抑郁症情感词典。结果表明:本文提出的方法可准确地挖掘抑郁症专有领域情感词。  相似文献   

13.
本文采用统计学的研究方法,建立了藏文单音节动词词库,并对每一个动词形态变化类型进行标注。根据动词形态同形方式的不同,对4种4式和3种3式动词简化模式进行统计,从实证的角度对藏文动词的屈折变化进行量化分析,得出其简化规律,也为藏语语音和词汇的演变提供基础性的研究。  相似文献   

14.
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制.  相似文献   

15.
词、格助词、藏文信息和分词单位等概念是藏文分词过程中必须提及的几个专业术语。文章依据《咨询用中文信息处理分词规范》、《中文信息处理分词之基本词表》、《信息处理用现代汉语分词规范》和《分词词表》等地区和国家标准,结合藏文传统语法典籍和汉语语义分类体系,对这几个概念进行了论述。  相似文献   

16.
汪昱 《科技信息》2008,(18):12-12
地名是区别人类生活居住的社会环境的符号和标志,具有语言符号的特点。本文通过语言学的视角,在收集大量语料的基础上,分析合肥地名的语音特征和词汇特征,描述合肥地名的音节特点、平仄现象和谐音演变及词汇结构特征、词性(语素性)特征,以全新的视角整理、发掘合肥地名这一专有词语所特有的音、形、义间的规律。  相似文献   

17.
藏文语料库是计算机研究藏语规律的素材,建设藏语语料库是藏文信息处理研究的基础和前提。语料库建设中样本的类别号是识别样本类别的依据,也是关联藏文语料信息库、样本文档和使用者的纽带,在语料库建设中非常重要。文章结合藏语平衡语料库的建设,设计了藏文语料数据库,划分了藏文语料库的类别并设计实现了样本类别号的产生方法。  相似文献   

18.
藏文音节字检错是藏文文本校对的重要环节。文章通过分析现代藏文音节字,将藏文音节字分为规则音节字(遵循组件组合规则的藏文音节字)和不规则音节字(不遵循组件组合规则的音节字)两种。对规则音节字采用了音节字组件组合规则进行检错,对非规则音节字采用建立梵源藏文词典、音译藏文词典和本体非规则音节字词典进行检错。实验表明,文章提出的藏文音节字检错方法对报纸类藏文的检错率为100%。  相似文献   

19.
藏文语料库是计算机研究藏语规律的素材,建设藏语语料库是藏文信息处理研究的基础和前提.语料库建设中样本的类别号是识别样本类别的依据,也是关联藏文语料信息库、样本文档和使用者的纽带,在语料库建设中非常重要.文章结合藏语平衡语料库的建设,设计了藏文语料数据库,划分了藏文语料库的类别并设计实现了样本类别号的产生方法.  相似文献   

20.
在藏文网络语料的基础上,文章就"N1+N2"结构的名词短语进行举例分析,其中包括它的结构类型、组成成分、句法及语义功能的分析,给出了名词短语的线性结构组合形式和词性结构扩展模式,细化了它的主要组成成分.从句法和语义的层面出发,挖掘了该结构所蕴涵的句法关系和语义特征.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号