首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
针对中文文本分类任务中N-Gram,素贝叶斯、K最近邻和TF-IDF等经典而广泛使用的文本分类模型的选择困惑问题,基于万余篇中文新闻文本语料数据,设计了一系列的对比实验,考察了各模型在不同参数、不同训练数据规模、不同训练文本长度、类别是否偏斜等多种情境下分类性能的表现,总结了各模型的特性,为中文文本分类模型的选择和应用提供了实践依据和参考.  相似文献   

2.
在因特网高速发展的信息时代,人们需要快捷、方便地从网上获取有用信息.文章针对因特网上信息庞杂的现状,分析了网上中文文本的特征,介绍了文本内容分析与结构分析的方法,并提出通过两者的有效结合,达到对文本准确分类的目的,从而提高因特网中文文本信息检索的速度和准确度.  相似文献   

3.
用于中文色情文本过滤的近邻法构造算法   总被引:2,自引:0,他引:2  
从不良信息中最为普及的中文色情文本过滤入手,用近邻法(KNN)算法构造对比了4种特征项选择的方法在中文色情文本中的应用,它们分别是字、词、标点符号和词性等特征.试验表明,中文色情文本不同特征项的选择对中文色情文本的分类效果起到了重要的作用.实验同时表明,所设计的过滤器在保证速度的前提下,很好地完成了基于内容的高精度过滤.  相似文献   

4.
中文文本压缩的LZW算法   总被引:8,自引:0,他引:8  
本文报告两个关于中文信息处理研究的结果:(1)采用Cover的方法,猜估中文信息熵,实验表明,中文信良熵不大于4.1bits/字。(2)根据中文的结构特性,选择Welch型的Lemple-Ziv数据压缩算法,把它移植、扩展于中文文本压缩上。应用该算法于不同类型的中文文本,本文获得一些中文文本压缩实际性能值。  相似文献   

5.
基于关联规则的中文文本分类算法的改进   总被引:4,自引:1,他引:4  
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.  相似文献   

6.
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台.该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究.实验结果表明: 该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题.  相似文献   

7.
本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.  相似文献   

8.
针对目前短文本词汇量少、 表达形式多样, 导致同种类文本聚类方法无效的问题, 提出一种利用中文维基百科的丰富词汇间关系对短文本的隐喻词进行扩充的方法, 以解决短文本包含信息少、 词汇表达形式多样的不足. 实验结果表明, 该算法可有效提升短文本的聚类效果.  相似文献   

9.
任小燕 《科技信息》2011,(31):202-203
本文从中文词汇褒贬性判别、文本属性倾向性分析、中文文本的褒贬性判断三个方面对现有中文文本倾向性分析技术进行介绍和概括,比较和分析,以期对后续研究有所助益。  相似文献   

10.
在提出了将STC应用到中文文本聚类上的算法的基础上,设计并实现了一个中文文本聚类系统,通过实验验证得出结论:从时间复杂度和查准率两个方面,基于STC的改进后的中文文本聚类算法拥有比经典的K-MEANS算法应用到中文文本聚类上有较好的聚类质量。  相似文献   

11.
翻译是一个以译入语再现原语内容的过程。由于两种语言的文化差异,势必在表达上存在不同。拟运用英汉对比的方式,从语篇定义入手,通过语篇特征分析,研究英汉语语篇结构的差异,探讨合适的语篇翻译策略,提高语篇翻译质量。  相似文献   

12.
一种改进的中文分词歧义消除算法研究   总被引:1,自引:1,他引:0  
随着信息技术的飞快发展,今天的互联网上信息已成爆炸式增长,文本挖掘技术成为目前研究的热点.文章概述了中文分词的算法,通过介绍歧义存在的种类,分析了分词结果歧义性存在的必然性;在中文分词基础上,提出了一种采用"动词优先"的歧义消除算法,使分词结果最大程度地消除歧义,从而提高了分词的精度,为文本挖掘之后的环节打下了基础.  相似文献   

13.
 基于拇指操作的键盘输入在当前以及未来都将作为一种不可替代的文本输入模式应用在手机上,因此,手机键盘文本输入效率的高低成为了衡量手机可用性水平的重要标志之一。从手机键盘文本输入法的改进研究、中文文本输入法的研究、模型预测与评价等多个角度归纳了国内外有关手机键盘文本输入法的研究动态,在此基础上,指出了目前研究存在以下不足:基于西方文字设计的手机键盘不适合中文输入;新的中文输入法在应用上存在诸多不足;大多数手机的键盘改进没有考虑用户的操作特点。并提出了今后的研究发展方向:根据用户操作特征以及中文输入特点来优化现有中文手机键盘的设计,对提高中文文本输入绩效,具有很高的应用价值和较强的可操作性。  相似文献   

14.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

15.
中文文本的可视化表示   总被引:5,自引:1,他引:4  
由于辅助阅读的需求,给出了中文文本的可视化表示,以直观的方式逐级显示文本内容·其基本思想是:利用潜在语义索引的方法,改进文本分类的效果·利用文本层次分析方法,进行文本结构分解,给出了文本结构中各单元的标记信息,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能,帮助用户有目的、有选择地浏览文本,有助于信息处理的个性化  相似文献   

16.
文本解读是语文学科利用教材实施课程最重要的方式之一。然而在现实的语文教学中,架空分析的存在却使文本解读的深度大大降低。过多的串讲、分析,进入文本太快以及过于追求政治、思想意义等因素的存在,给语文教学带来了众多的负面影响。只有真正落实以人为本的教育理念,在深化阅读教学认识的基础上加强自身修养,用高质量的问题引导学生才能避免架空分析这一教学难题。  相似文献   

17.
目的 通过对现有聚类常用算法的研究,给出一种适用于大规模中本数据集聚类的算法DBTC(density-based text clustering)。方法 采用在DBSCAN算法基础上改进提出的DBTC算法,对中本数据集进行聚类。结果 DBTC算法可以发现任意形状的簇,对中本聚类的准确率高达80%以上。结论 经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。  相似文献   

18.
本文论述了法规全文检索系统设计思想、系统的特点、主要功能和实现的方法 ,介绍了系统提供的包括自由文本检索、逻辑组合检索、程序检索在内的多种手段和方式 ,以及 B+树索引文件结构 .并进一步分析了采用超文本检索、多 B树结构、汉语词的切分和自动标引等可行方法 .  相似文献   

19.
一种新的文本预处理方法研究   总被引:2,自引:0,他引:2  
文本预处理是整个字符识别系统的重要组成部分.它的性能的优劣,对整个字符识别系统的识别率和识别速度至关重要.由于汉字印刷文稿版面的复杂性,其文本预处理远比西文困难.本文提出了一种新的文本预处理方法.实现了含有文字字符,图形,图片和表格的、版面结构复杂的数字图象的分割.整个算法分为两个阶段完成:首先,从图形的连通原则出发,定义了扩展连通域的概念,对整个文本图象逐行扫描,搜索出所有的扩展连通域,进而通过集合的交、并操作,将属于一个字符或图象、图片和表格的若干个扩展连通域合并.这时扩展连通域已标记文本图象中的字符尺寸大小和位置.然后,基于同一行字符的间距的知识,将扩展连通域合并为逻辑字符行(横,竖);由字符行的高(宽)度的一致性及间距的知识,将逻辑字符行合并为逻辑块:按照印刷文稿的排版规律完成版面的结构识别、并将标记字符位置和大小的扩展连通域的顺序按版面结构信息重新组合,最后把字符规范为一定尺寸的点阵图象输出到字符识别器.本文提出的文本预处理方法已经实现.经实际运行测试表明,系统对于复杂版面的文件,书刊和报纸的文本图象的分割,具有较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号