首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的...  相似文献   

2.
随着Internet技术的不断发展,Web信息不断的变化和增长.为有效查找用户所需要的信息,需将传统的信息检索向Web信息检索方向发展.如果预先对网页文本进行分类,则面对用户的检索需求就可以在相应的类别中进行查找,这样大大提高了检索的效率.文章通过对网页进行预处理,中文分词,特征提取,再使用KNN分类算法对网页进行智能分类,并采用了PSO算法快速寻找K近邻.实验结果表明:该方法不仅减少了网页分类时间,准确率、召回率和F1标准也明显提高,有效地提高了网页智能分类的效率.  相似文献   

3.
网页分类是使用机器学习算法实现网页类别的自动标注。提出了一种基于SVM的日文网页分类方法,针对日文的特点,设计日文词素词典与规则库,并以此为基础进行日文分词和特征表示,然后使用互信息度进行特征选择,最后应用SVM来构造分类超平面,对日文网页进行分类。最后通过实验进行了验证。  相似文献   

4.
基于最大概率分词算法的中文分词方法研究   总被引:1,自引:0,他引:1  
丁洁 《科技信息》2010,(21):I0075-I0075
本文提出了一种基于最大概率分词算法的中文分词方法,以实例贯穿全文系统描述了最大概率分词算法的基本思想与实现,根据针对大规模真实语料库的对比测试,分词运行效率有较大提高,该方法是行之有效的,并且提出了该算法的改进方向。  相似文献   

5.
针对中文网页分类问题,提出一种基于KM和CV的KNN改进算法——KNC算法.基于该方法的网页分类实验结果表明,KNC算法在保持分类质量的情况下,较大地提高了分类的速度.  相似文献   

6.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

7.
中文分词技术研究   总被引:1,自引:0,他引:1  
随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。  相似文献   

8.
通过搭建Hadoop平台,将MapReduce编程思想应用到中文分词的处理过程中,使中文分词技术在云计算环境中实现。研究可以在保证原来分词准确率的基础上,显著提高中文分词的处理速度。  相似文献   

9.
介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果.  相似文献   

10.
刘勇  范丽辉 《科技信息》2012,(8):264-265
中文分词技术是一项在搜索引擎中广泛应用的关键技术,也是中文信息处理中的一项关键技术。文章通过对中文分词系统中预处理模块的改进提高了分词的速度,改进了分词系统。  相似文献   

11.
用于文本分类的快速KNN算法   总被引:1,自引:0,他引:1  
KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量.  相似文献   

12.
随着商业广告短信、色情短信、骚扰短信等通过手机不断地蔓延,严重地影响了人们日常生活和社会的稳定.因此短信分类已经成为自然语言处理的一个重要领域.分析了近年来垃圾短信内容的发展,提出了一种基于字特征的短信分类方法.实验结果表明,和词特征相比,该方法使有用短信的错判率有了明显的降低.总之,字特征用于短信分类是可行的.  相似文献   

13.
人名、机构名在基于概念的文本分类中的应用研究   总被引:1,自引:0,他引:1  
基于概念的文本分类方法,能对同义词、多义词进行比较好的处理,是一种比较优秀的文本分类算法.但是此方法往往对人名、机构名等具有分类特征的词不能很好地处理,依然停留在关键词的层次.提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法,并经过实验验证了其有效性.  相似文献   

14.
中文文本分类技术比较研究   总被引:2,自引:0,他引:2  
文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。  相似文献   

15.
为了实现网络信息审计系统中的实时网页分类,提出了一种基于Dempster-Shafer证据理论的分类新方法.其基本思路是:不进行IP分片包重组,直接将网页地址特征和分片数据包作为分类的证据,计算各个证据对类的支持度,然后利用Dempster证据组合规则将各种证据提供的信息进行不断地在线融合判决,并最终给出网页的分类结果.当已有证据可以对网页进行有效分类时,对后续数据包不再做进一步处理.实验结果表明,所提方法的查准率大于83%,查全率大于90%,在分类性能和运行时间上均优于已有的基于分片的模糊K最近邻分类算法.  相似文献   

16.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

17.
首先介绍了几种常见的特征选择和特征抽取方法,并结合K-近邻分类算法对4种特征选择方法进行了分类测试,同时通过测试分析,提出了一些改进的、可行的互信息评价函数.  相似文献   

18.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

19.
使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究,对目前应用较多的k近邻、支持向量机和最大熵模型,分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示,在相同的条件下最大熵方法的分类性能最好,支持向量机次之,k近邻稍差。同时发现,在分类过程中引入了词语频率信息时,分类器的性能略有变化,对于最大熵分类准确率下降1%~2%,对于k近邻有所上升,对于支持向量机则相当。除去文本的特殊性影响,这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。  相似文献   

20.
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号