首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
中文文本的可视化表示   总被引:5,自引:1,他引:4  
由于辅助阅读的需求,给出了中文文本的可视化表示,以直观的方式逐级显示文本内容·其基本思想是:利用潜在语义索引的方法,改进文本分类的效果·利用文本层次分析方法,进行文本结构分解,给出了文本结构中各单元的标记信息,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能,帮助用户有目的、有选择地浏览文本,有助于信息处理的个性化  相似文献   

2.
文本分类技术是文本挖掘的核心,本文简单介绍了该研究热点的研究动态、定义并针对其系统结构给出了一个简要的概述,然后分析了文本分类处理过程中的关键技术,最后对依然存在的某些问题进行了展望。  相似文献   

3.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

4.
基于VSM的中文文本分类系统的设计与实现   总被引:25,自引:0,他引:25  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。  相似文献   

5.
在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。  相似文献   

6.
中文文本分类相关算法的研究与实现   总被引:2,自引:0,他引:2  
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
 实验结果表明, 改进后的权重计算方法性能更优越.  相似文献   

7.
用文本分类的方法找出中文评教信息的情感倾向,使学生主观评价里蕴含的信息得到有效利用,是对现有评教系统的必要补充.采用基于潜在语义分析的方法对文本向量降维,并用支持向量机的分类方法对目标文本进行分类,得到每一条主观评价的情感倾向.分析了特征选择、特征抽取方法、降维维数、词性、训练集合与测试集合样本的比例等几方面对分类的影响,找到了较好的中文评教文本分类模型.  相似文献   

8.
针对传统的基于向量的中文文本表示方法预处理过程比较复杂,应用于高维数据容易产生维数灾难的局限性,文章提出了一种基于张量空间模型的中文文本分类方法,用三阶张量表示文本集,将基于向量的kNN分类器扩展到张量上以构建分类器。该方法简化了预处理过程,提高了准确率,并使得更多张量学习方法能够在中文文本分类中得以应用。实验证明其具有较高的分类准确率,有一定的实用价值。  相似文献   

9.
分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%.  相似文献   

10.
从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理解且分类效果不错的文本分类系统。  相似文献   

11.
史岩 《科技信息》2010,(32):142-143
网络聊天室为人们的交流提供了更加快速而方便的通道。本文主要是以中文聊天室的聊天记录作为研究对象,从社会语用学的角度分析聊天室对话,确认了汉语网络聊天语言的某些特征,提出了违反语用原则相关准则的主要原因。  相似文献   

12.
中文财经文本中公司名简称的自动识别   总被引:1,自引:0,他引:1  
命名实体识别是当前自然语言处理的热点问题之一,对信息检索、信息抽取等具有重要意义.然而,目前多数研究都集中在对命名实体全称的识别上.本文以财经为领域背景,对从文本中识别简称,并将其映射成全称问题进行了研究,提出了一个启发式算法用于解决该问题.所提出的算法首先提取文本中每个N元组(Ngram)作为候选的公司名简称,然后建立n元组与全称表中每个全称的最优对齐关系,最后对每对“N元组全称”对齐关系进行评价和筛选,识别出文本中的简称及每个简称对应的全称.在随机获取的网页文本集上对所提出的算法进行了实验测试,算  相似文献   

13.
谈英汉网络语言之比较   总被引:1,自引:0,他引:1  
分析了网络英语对网络汉语的影响力,认为二者同时又受互联网时速性和可视性的影响,各自发生着不可思议的变化,而二者的变化又有着惊人的相似之处。  相似文献   

14.
针对中国互联网的现状和未来发展趋势,提出了中国互联网未来发展的六大问题.其中包括介绍互联网发展史,并且分析了我国互联网发展现状和阻碍因素,最后对我国互联网的未来发展趋势进行了讨论.  相似文献   

15.
基于支持向量机的中文文本中地名识别   总被引:2,自引:0,他引:2  
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69% 和93.82%,F-值为90.12%.  相似文献   

16.
基于隐Markov模型的汉语词类自动标注的实验研究   总被引:3,自引:0,他引:3  
汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。  相似文献   

17.
通过比较法、汉语篇中三种主要的替代类型:名词替代、动词替代和小句替代,可以发现替代的确是汉语的一种衔接手段,而非为英语法语所独有。  相似文献   

18.
在调查我国1991—2006年发表的有关网络信息资源版权研究论文的基础上,对文献进行了分析,并展望了网络信息资源版权研究的发展趋势。  相似文献   

19.
迄今为止,国内尚没有人将中学语文课本关于战争题材的文艺作品进行集约化的研究.笔者认为:对于这类作品的编排状况、德育信息、正负心理反应及德育方法进行探索,对于提高中学生的思想素质、语文能力有着重要的理论意义和实践价值.  相似文献   

20.
入世给中国的互联网行业带来机遇,同时也带来挑战。通过对机遇与挑战的客观分析,提出了具体的应对策略,以期促进中国互联网业的更大发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号