共查询到20条相似文献,搜索用时 46 毫秒
1.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象. 相似文献
2.
在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。 相似文献
3.
4.
基于关系触发词与单层门控循环单元模型进行关系抽取, 以降低关系抽取模型结构的复杂度, 并提高模型的训练效率. 通过计算单词的依存距离与序列距离得到关系触发词, 利用单层门控循环单元模型进行关系抽取, 并在SemEval 2010 Task 8数据集上进行实验. 实验结果表明, 该方法能有效提取出关系触发词, 并具有较高的关系抽取准确率. 相似文献
5.
《郑州大学学报(理学版)》2017,(1)
针对微博话题观点摘要问题,提出一种基于LDA与评价对象相结合的微博观点摘要方法.首先,利用LDA模型得到话题的词分布矩阵和文档的话题分布矩阵,把两个矩阵的乘积作为各个词在句子中的权重分布矩阵,再利用词频与词权重分布矩阵的乘积作为词的重要度;然后,通过词的词性标注规则从句子中选择候选评价对象,再计算句子中候选评价对象的稳定性;最后,把句子中所有词的重要度与句子中所有候选评价对象的稳定性的总和作为句子权重,并从大到小排序,再进行观点句识别,并去除相似性较大的句子,抽取前20个句子作为话题观点摘要.实验结果表明,此方法可以有效地抽取微博观点摘要. 相似文献
6.
提出了一种基于柬汉双语词对齐语料构建柬埔寨语依存树库的方法。首先构建柬汉词对齐语料库,在该过程中不仅使用GIZA++模型进行词对齐,还利用词典模糊匹配和词向量相似性比较的方法进行双语词对齐语料库的构建;其次根据哈工大LTP平台构建中文依存树库;最后结合柬汉词对齐语料库和中文依存树库通过映射的方式构建柬语依存树库,再经过人工调整得到最终的柬语依存树库。实验表明,该方法简化了人工标注柬埔寨语句子依存关系的过程,减少了昂贵的人工标注工作,有效地提高了依存树库的构建效率。 相似文献
7.
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度.距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。 相似文献
8.
针对互联网中的产品评论信息,提出一种三层过滤的评价对象抽取方法.该方法采用一个自举式的抽取算法在评论文本中得到候选的评价对象和情感词;利用评价对象与情感词之间的关联度对候选词进行关联置信度计算,提取关联置信度高的评价对象以提高识别的准确率;引入一个不相关的平行领域对剩余的候选词进行领域置信度计算,挖掘低频的评价对象.3个公开数据集中的实验结果表明该方法能够显著地提高评价对象的识别效果. 相似文献
9.
描述基于统计机器翻译的汉语到维吾尔语的一对一词对齐系统。系统进程分为两个模块:预处理和词字对齐。预处理过程,包括中文文本预处理和维吾尔语文本预处理过程:首先将维吾尔语通过专用工具转换为拉丁维文,然后将拉丁维吾尔语中的特殊文字转换成无歧义的字符。词对齐的实现过程:首先使用IBM模型1,其次利用IBM模型2,构建出一个词对齐系统。实验表明,该系统实现的词对齐比GIZA++中实现的正确率可以提高2.6个百分点。 相似文献
10.
针对中文的语料,采用基于条件随机场的方法,在词、词性特征的基础上结合最近名词、句法依赖关系和句子倾向性等特征,分析不同特征对于评价对象抽取的影响.实验结果表明,结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对于中文句子评价对象的抽取更有效. 相似文献
11.
12.
提出了一种广义意见动态模型(GODM),此模型可以通过动态计算每个人的表达意见来解决社交信任网络中的意见最大化问题。在模型中提出了一个新的、合理的、可解释的自信指数${\alpha _{{i}}}$,${\alpha _{{i}}}$由个人的社会地位与其周围人的评价共同决定。并且利用对角占优理论,得到模型达到纳什均衡状态时的最优解析解。设计了一种具有l1 形式的交替方向乘子法来最大化现有的总体意见。进行了一系列实验,实验结果表明,此方法在4个数据集上都有较好的结果。在4个数据集上,解决内部意见问题的平均效益分别提升了 66.4%,88.7%,47.8% 和 34.1%。实验结果充分验证了所提模型的优越性。 相似文献
13.
14.
15.
16.
17.
针对观点检索问题,把主题检索和情感分析相结合,通过构造情感词典、程度词典等,利用SVM对文本进行主客观分类,构造正则表达式进行中文句式识别,提出了计算文本褒贬倾向的方法,结合主题相关性和情感强度计算置信度.在COAE2009的任务5-观点检索的评测中,取得了较好的结果. 相似文献
18.
19.
贾凡 《北京交通大学学报(自然科学版)》2011,35(2)
针对现实生活中个体观点形成中的理性推理过程,提出了一种基于DS(Dempster-Shafer)证据理论的观点更新规则,并在连续观点离散决策的框架下,对个体如何利用其他个体的意见和相关知识来形成自身意见的过程进行建模.实验仿真结果表明,群体中能够出现观点一致、分散等常见的舆论现象,观点演化过程中伴随着知识由确定性个体向不确定性个体的扩散,同时发现在规则网络中,意见领袖的观点的影响力在扩散过程中是逐渐减弱的,其影响范围与个体对知识不确定性的接受程度密切相关. 相似文献
20.
观点挖掘能自动对网络上大量的非结构化文本进行分析,得到有价值的观点态度,因为中文在机器语言处理中存在一些自身的特点和难点,相关研究进展较缓慢。本文提出了中文依赖语法的观点挖掘模型,介绍了文本爬取和文本预处理技术;采用了向量空间模型表示文本向量,介绍了基于中文依赖语法的特征抽取方法,在此基础上加入了评价对象提取的思想;采用知网情感词典作为判别主观字极性的基础,并对主观字极性评估方法做了相关改进。以建立一个全面、准确的中文观点分析模型为目标。 相似文献