首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
跨境民族文本分类任务是跨境民族文化分析中的基础性工作,其目的是将跨境民族文化文本进行归类处理。针对跨境民族文化数据分类面临类别交叉的问题,提出融合领域知识图谱的跨境民族文本分类方法,利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。此外,通过掩码自注意力机制分别对文本的词级、句子级进行特征提取以此得到文本中句子的局部特征和全局特征。实验表明,本文方法在跨境民族文化数据集中相比基线模型的F1值提升了11.9%。  相似文献   

2.
胡坚 《科技资讯》2006,(34):175-176
随着网络信息的飞速发展,纯手工的信息归类手段已经严重影响信息处理的进程。因此自动化的信息归类处理越来越受到人们的重视,其中文本自动归类系统是信息归类处理的重要研究方向,它的功能是在给定的归类体系下,根据文本的内容自动判别文本的类别。本文在研究传统文本归类技术的基础上,包括向量空间模型、特征提取和TF/IDF分词算法,引入了领域本体知识推理和领域事件构造等关键技术,提出了基于本体领域事件驱动的文档自动归类算法,并给出了较满意的实验结果和评价。  相似文献   

3.
随着网络信息的飞速发展,纯手工的信息归类手段已经严重影响信息处理的进程。因此自动化的信息归类处理越来越受到人们的重视,其中文本自动归类系统是信息归类处理的重要研究方向,它的功能是在给定的归类体系下,根据文本的内容自动判别文本的类别。本文在研究传统文本归类技术的基础上,包括向量空间模型、特征提取和TF/IDF分词算法,引入了领域本体知识推理和领域事件构造等关键技术,提出了基于本体领域事件驱动的文档自动归类算法,并给出了较满意的实验结果和评价。  相似文献   

4.
分类是一个映射的过程,它将未标明类别的对象映射到已有的类别中.分类算法是数据挖掘研究中十分关键的问题.通过对常用Web分类方法研究现状的分析,发现这些方法在解决多类别网页文本分类问题方面存在一定的局限.  相似文献   

5.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

6.
针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能.  相似文献   

7.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

8.
在信息检索领域,查全率与查准率是一对相互制约的指标.为了研究文本分类领域查全率和查准率的关系,在此从理论和实验两方面分析查全率及测试集对查准率的影响.理论分析与实验结果一致得出,在文本分类中查全率和查准率是两个一致的指标.另外,在查全率确定的情况下,测试集中各类别文档比例的变化也会导致查准率的变化.  相似文献   

9.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支.本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的主要研究方法以及实例, 最后对该领域研究中存在的问题和方向进行了分析.  相似文献   

10.
刘洋 《科技信息》2007,(3):54-54
文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。  相似文献   

11.
"体裁分析"简析   总被引:3,自引:0,他引:3  
从体裁的概念分析得出:体裁具有社会交际目的特征和特定宏观结构模式;而具体分析某一体裁的宏观结构时,可参照体裁分析理论提出的七个步骤和五种语篇模式的特定结构进行分析,从而达到理解和写作某一体裁的目的。体裁分析理论对第二语言教学有全新的启示。  相似文献   

12.
体裁教学法是在体裁与体裁分析理论基础上发展起来的一种教学方法,它为英语阅读教学提供了一种全新的方法。体裁分析法以全方位多层次的语篇分析为大学英语阅读教学提供了新的发展契机。将体裁教学法与大学英语阅读相结合,可提高学生学习的积极性,进而提高学生的阅读能力。  相似文献   

13.
一般认为,一个特定的语类在结构形式上是相对固定的,但现实生活中理想化的简单的语类结构是很少的,而实际情况是语类在不断变化动态地发展,语篇世界也是复杂的、多样化的和不可预测的.语篇中的语类转换现象与以下因素有关:语境因素的不断配置、与语篇的目的性不单一以及与社会生活的发展有关.  相似文献   

14.
This paper focuses on two aspects. One is the introduction of the semiotic systemic functional approach to the notion of genre, and the other is its practical use in the text analysis. For the latter, the experiments are mainly carried out from the examination of the relation between the social purpose of the text type and the generic structure potential. One of the most important implications of this study is closely related to English teaching. As genre analysis can help the students understand the macrostructure of a text so as to help them improve both their reading comprehension and writing competence, genre teaching will become necessary. Cultivating genre competence is very important in cultivating linguistic competence.  相似文献   

15.
研究了中文网页体裁分类的特征项选取问题及权重计算方法,探讨不同特征空间对体裁类别的判别能力问题,给出了一种评价方法。据此,提出一种特征项的权值调整策略,实验结果验证了该方法的有效性。  相似文献   

16.
选择学术论文语篇和学术演讲语篇作为研究的对象,考察、对比和分析语境配置变量和语域变量的改变对语篇体裁结构潜势的影响,揭示语境因素与语篇体裁多样性之间的关系,从而进一步证实语言形式是“意义潜势的体现”。  相似文献   

17.
基于功能语法理论和语体分析理论,对随机抽取的世界500强中的50个国际著名公司的介绍进行定性和定量分析,分析此语体的结构特征及功能语法中的三大元功能在这一语体中的实现途径。旨在丰富语体研究的内容,拓宽功能语言学理论的应用范围,同时,为语体分析和语体写作教学提供有价值的依据。  相似文献   

18.
撇开非此即彼的二元论观念,杂文可以定义为一种兼容现实功利性和文学审美性的独立文章样式,它既非单纯的文学文体,也非纯实用的应用文章。杂文的文学性可以通过杂文艺术形象的真实存在得以佐证,但并不因此就证明杂文是文学文体。杂文区别于他种文体的突出特点有二,一日重“胆”,二日杂文创作的思维品质具有二重性。  相似文献   

19.
探讨了体裁的概念和体裁分析的特点,并运用体裁分析的方法对30封中文求职信进行具体的分析,总结了该体裁的宏观结构以及它在功能、释义、语言三个层面上的一些特点。  相似文献   

20.
颜碧洪 《长春大学学报》2014,(11):1556-1559
美国华裔作家汤亭亭的作品《女勇士》,自出版之日起就一直饱受争议。对于该作品是小说还是自传,对中国文化的误读是有意为之还是无意之过,评论界一直莫衷一是。从《女勇士》的文体定性以及作品中对中国文化的误读误译角度,对汤亭亭虚实相间的写作风格进行分析,表明了汤亭亭借助作品文体的模糊性和中国文化的解构建构来揭示少数族裔和中国女性寻求自我、寻求发展的艰难历程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号