首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的...  相似文献   

2.
随着Internet技术的不断发展,Web信息不断的变化和增长.为有效查找用户所需要的信息,需将传统的信息检索向Web信息检索方向发展.如果预先对网页文本进行分类,则面对用户的检索需求就可以在相应的类别中进行查找,这样大大提高了检索的效率.文章通过对网页进行预处理,中文分词,特征提取,再使用KNN分类算法对网页进行智能分类,并采用了PSO算法快速寻找K近邻.实验结果表明:该方法不仅减少了网页分类时间,准确率、召回率和F1标准也明显提高,有效地提高了网页智能分类的效率.  相似文献   

3.
随着互联网的迅速发展,人们在浏览网页的时候容易受到网页恶意代码的攻击.针对这些问题,提出了一种基于多策略的网页恶意代码检测方法.对恶意网页代码特征进行分析,通过运用词频统计的方法对网页代码进行特征挖掘,获取关键特征值后,分别利用支持向量机算法、朴素贝叶斯算法、神经网络算法和多策略的算法建立分类模型,设计实验对4种分类模型进行性能测试.实验表明,提出的基于多策略的网页恶意代码检测方法比单一的检测方法准确率和精准率要高,召回率较低.  相似文献   

4.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

5.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.  相似文献   

6.
研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能.  相似文献   

7.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

8.
针对中文网页分类问题,提出一种基于KM和CV的KNN改进算法——KNC算法.基于该方法的网页分类实验结果表明,KNC算法在保持分类质量的情况下,较大地提高了分类的速度.  相似文献   

9.
页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用.由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词.通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)方法相比,此算法召回率平均提高了7.15N,准确率平均提高了7.075%.  相似文献   

10.
基于序列数据挖掘的中文网页特征选择方法   总被引:1,自引:0,他引:1  
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型. 该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征. 实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.  相似文献   

11.
从分析主页的拓扑结构入手,提出了主页树等概念,在此基础上运用面向对象数据库理论和动态服务器页的知识分析了制作完全动态的主页的可行性,经实践验证,所给出的一种设计和实现方法是可行的,它运用了关系数据库和面向对象的数据库编程的相结合来实现。  相似文献   

12.
图书馆主页FAQ作为为读者答疑解惑的重要部分,在中英文主页上都扮演着重要的角色。从FAQ的概念入手,对英文地区几所有代表性的图书馆主页FAQ进行了分析,并在此基础上指出我国高校图书馆英文主页FAQ编写中需注意的几大问题。  相似文献   

13.
汉字笔画若干数据的统计方法研究与应用   总被引:5,自引:0,他引:5  
统计汉字笔画信息的各种数据,这些数据主要包括:每个汉字的平均笔画数及按使用频度加权的平均笔画数、以各种笔画起笔的汉字数目、各种笔画在汉字字库中的出现次数、汉字字库中笔画相同的汉字、能与其他字区分开的汉字前若干笔画数的平均数与加权平均数以及汉字字库中相邻笔画的频度等。统计的数据对于基于笔画的汉字输入法和汉字的联机手写识别等方面具有重要的指导意义,我们根据这些统计资料设计了标准键盘和数字键盘,并在Windows下实现了以上两种笔画输入法。  相似文献   

14.
高校网站是公众了解学校的重要途径。从用户体验角度,对国内外六所高校网站主页进行比较分析,建议国内高校网站主页在用户定位、版式设计、内容等几个方面加以改进。  相似文献   

15.
基于特定问题类别的汉语问答系统查询扩展   总被引:1,自引:0,他引:1  
针对汉语问答系统的特点,提出一种通过统计问答对方式获得各种问题类别的关联词,并根据类别关联词进行查询扩展的方法.在计算问题和答案文本相似度时,实现了一种基于最小匹配距离的计算方法,该方法充分考虑了查询词及查询扩展词在文本中的词频及位置分布信息.实验结果说明在汉语问答系统答案文本检索中,按照问题类别关联词进行查询扩展比未进行查询扩展在性能上有很大的改进.  相似文献   

16.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

17.
基于人工标引的中文学术期刊文献自动分类算法   总被引:3,自引:0,他引:3  
为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率  相似文献   

18.
通过统计具有图像增强能力的局部区域信息,提出了一种改进的水平集主动轮廓模型.结合非负核函数和具有矫正图像误差特点的灰度集群思想,定义了一种新的符号压力函数(SPF),此函数能够很好处理灰度不均匀、对象边界不明确的问题.并且,引入惩罚项,确保水平集函数的适应性.真实图像和合成图像的实验结果表明,该模型收敛迅速,具有抗噪性,对分割目标图像敏感,能够处理弱边界的多目标图像.  相似文献   

19.
基于语言特性的中文领域术语抽取算法   总被引:2,自引:0,他引:2  
提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高.  相似文献   

20.
Efficient SVM-based Recognition of Chinese Personal Names   总被引:1,自引:0,他引:1  
This paper provides a flexible and efficient method to identify Chinese personal names based on SVM (Support Vector Machines). In its approach, forming rules of personal name is employed to select candidate set, then SVM based identification strategies is used to recognize real personal name in the candidate set. Basic semanteme of word in context and frequency information of word inside candidate are selected as features in its methodology, which reduce the feature space scale dramatically and calculate more efficiently. Results of open testing achieved F-measure 90.59% in 2 million words news and F-measure 86.67% in 16.17 million words news based on this project.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号