首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
问答对过滤是准确自动获取问答对的句法结构关系和领域特征,选取句子主干与领域词汇作为分类特征,采用贝叶斯分类学习方法进行领域问答对过滤;根据中文语言相关性,融合句法、词法及语义要素,计算句子与问答对相关性,以相关性为基础,过滤面向句子相关的问答对.实验结果表明,提出的过滤方法均取得了较好的效果,相对传统过滤方法,能够提高问答对过滤的准确率.  相似文献   

2.
个性化Web推荐系统是利用用户的浏览行为定制符合用户结构和内容的过程。在综合应用协作过滤和内容过滤方法的基础上,通过对网站网页关键词的评估,提出了一种新的个性化Web推荐算法,研究了基于网页关键词的个性化模型,网站页面中关键词的权重计算,基于协作过滤的新用户推荐,基于内容过滤的再次推荐方法,以及基于用户群的用户兴趣调整方法。实验证明,本算法能够以较高的效率对用户进行网页推荐。  相似文献   

3.
基于Boosting算法的垃圾邮件过滤方法研究   总被引:2,自引:2,他引:0  
为解决垃圾邮件过滤的精确度和有效性问题,提出了一种基于邮件内容过滤的垃圾邮件过滤方法,该方法采用Boosting算法构造了一种垃圾邮件过滤器,利用该垃圾邮件过滤器实现对垃圾邮件的过滤. 本文借鉴文本分类和信息检索领域所使用的评价指标,构建了垃圾邮件过滤器的评价体系,利用该评价体系,针对基于Boosting算法所构造的垃圾邮件过滤器对垃圾邮件的过滤实验所得到的数据进行了测试和评估,测试和评估的结果验证了Boosting算法在垃圾邮件过滤中的有效性,其性能优于传统的贝叶斯算法.   相似文献   

4.
基于语义Web的网页推荐模型   总被引:4,自引:1,他引:4  
如何使用语义 Web技术构建网页推荐模型是一个有着广泛应用前景的研究课题。语义 Web下的网页用本体标注 ,该模型自动采集被标注网页上的语义信息 ,利用网页中的标注信息和相应的本体概念对网页进行分类 ,将分类结果存放在数据库中。同时 ,在这个模型下 ,用户的兴趣存放在DAML (DARPA agent markup language)格式的文件中。通过用户兴趣和网页类别的匹配 ,就能够给用户推荐需要的网页 ,在推荐网页时 ,该模型还采用支持向量机用于分类用户。实验结果显示了该模型比传统的网页推荐模型准确率更高  相似文献   

5.
随着网络上服务资源的规模化增长,如何帮助用户找到所需服务是一个关键问题.研究发现领域本体的构建可帮助用户有效解决该问题,而已有的一些构建方法一般依靠人工,费时费力.针对该问题,提出一种基于关联规则和K-means的领域本体构建方法.该方法首先利用支持向量机进行面向领域的服务分类,从分类得到的领域知识中选取初始领域概念;然后根据关联规则和K-means算法挖掘概念间关系,以得到初始领域本体,并使用Wordnet对其进行语义丰富.最后,通过ProgrammableWeb网站提供的真实服务集进行实验验证.实验结果表明所提出的领域本体构建方法能够识别概念间关系,进而为Web服务语义查询提供相应支持.  相似文献   

6.
基于序列数据挖掘的中文网页特征选择方法   总被引:1,自引:0,他引:1  
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型. 该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征. 实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.  相似文献   

7.
提出了一种面向网络信息的层次过滤模型及其体系架构,该模型分为本体过滤层、需求过滤层和兴趣过滤层.本体过滤层中,利用本体为基础对信息内容进行语义描述,实现信息的计算机理解与过滤;在需求过滤层,模型通过理解用户所提出的需求中所包含的语义,进而更加准确地通过过滤规则进行信息流过滤;在兴趣过滤层,用户兴趣通过特定方式表达,并通过语义相似度计算实现第三过滤层.  相似文献   

8.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

9.
基于改进贝叶斯的垃圾邮件过滤算法综述   总被引:4,自引:0,他引:4  
朴素贝叶斯分类器是机器学习中一种简单而又有效的分类方法,但是由于它的属性条件独立性假设在实际应用中经常不成立,这影响了它的分类性能,为此基于改进贝叶斯的垃圾邮件过滤算法已受到越来越多的研究人员关注.本文通过对当前提出的最新的具有代表性的基于改进贝叶斯的垃圾邮件过滤算法进行分析和比较,总结各个算法的优点和不足,从而便于研究者对已有的算法再进行改进,提出具有更好性能的新的邮件过滤算法,同时方便使用者在应用时对算法的选择和使用.  相似文献   

10.
研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能.  相似文献   

11.
为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。  相似文献   

12.
特征抽取是网络舆情分析中最重要的环节之一,优秀的特征抽取算法能够极大的提高舆情分析的效率和准确率.对旅游网络舆情进行分析和监管,能够及时发现云南旅游中的突发事件,可提供给相关部门以便迅速采取正确的应对方式,对云南的旅游业发展有很大的帮助,分析了传统特征抽取算法正确率低下、运行效率不高等方面的不足,将领域本体知识应用在旅游网络舆情分析的特征抽取算法之中,建立旅游网络舆情领域本体,根据领域本体优化特征抽取计算特征词权重,经过多次大数据量试验验证,优化后的方法显著提高了特征抽取的正确率和运行效率,证明基于领域知识的特征抽取的正确率和运行效率得到很大的提升.  相似文献   

13.
当对三支决策边界域进一步划分时,边界域知识存在划分信息不足,从而导致分类精度不高,针对上述问题提出一种新的基于三支决策的二阶段分类模型(TWD-TP).第一阶段根据贝叶斯规则构建三支决策中样本的条件概率,通过求解最优化损失函数得到所需阈值,然后按照三支决策规则对数据集进行划分.三支决策是基于最小风险贝叶斯决策理论的划分,在其正域、负域中包含一定的误分类样本;在第二阶段通过类标签索引分别将正域、负域中误分样本作为增量信息引入延迟决策域,形成重构边界域,最后对重构边界域进行划分.实验结果表明:所提出的TWD-TP模型不仅能在三支决策划分中筛选出高误分类特征的样本,同时其重构边界域中不能被划分的样本得到正确划分,分类精度进一步提高.  相似文献   

14.
基于滑动窗口的优化贝叶斯邮件过滤算法   总被引:1,自引:0,他引:1  
贝叶斯算法在文本分类时需要进行特征提取,传统特征提取算法存在特征提取不够准确,进而导致分类效率不高。为解决此问题,提出一种基于滑动窗口的特征选取方法,该方法能扩大特征的选取范围。实验表明,改进后的方法可以有效地提高文本的分类精度  相似文献   

15.
根据构件自动化组装系统对构件语义检索的需求,介绍了一种面向组装的构件检索方法.该方法将传统的刻面算法与基于领域Ontology的检索匹配算法相结合,借以提高算法的语义检索能力,同时把构件功能采用结构化的描述方式,关联到各个接口.其中详细介绍了构件描述模型和构件检索匹配算法.  相似文献   

16.
为了提高RDF/RDFS本体中特定领域知识的利用效率,提出了一种从源本体中抽取出特定领域本体的算法.将RDF/RDFS本体抽象为图模型;根据RDFS推理规则生成RDFS本体图模型的闭包;应用图理论构建抽取算法,生成以特定领域术语词典中概念为节点的子图,得到所需的领域本体.抽取结果表明,该方法对于RDF层次的领域本体抽取有良好的适用性,可快速有效地构建特定领域本体.  相似文献   

17.
ORB-SLAM算法通过ORB(oriented FAST and rotated BRIEF)描述子匹配特征点,其光照强度鲁棒性不足,难以在光照条件较差时应用。对此,利用HSV空间中色调(Hue)光照强度鲁棒性较强的特点,提出通过高斯混合模型于前端匹配时将色调加入ORB特征匹配的方法,以解决特征匹配时光照强度鲁棒性不足的问题。通过光束平差法(bundle adjustment)进行位姿优化后,基于贝叶斯滤波模型,根据当前场景构建视觉字典以完成回环检测,提高SLAM算法精度。实验结果表明,相比ORB-SLAM算法,在保证实时性不变的情况下,本文算法精度与光照强度鲁棒性有明显提升。  相似文献   

18.
鉴于问题分类是问题分析的主要任务,提出一种结合本体和焦点的问题分类方法.首先依存分析和语义角色标注对问题进行浅层语义分析,再根据预定义的问题焦点结构和焦点抽取规则,获取问题焦点语义表征;然后标示问题的类别为问题焦点中疑问对象在领域本体中的标识;最后,根据焦点不同则问题不同这一事实,将焦点相同的问题归为一类,从而实现问题分类.使用该方法对计算机故障诊断领域1 905个特指问题分类,取得了93.91%的准确率,验证了领域本体和焦点对问题分类方法的有效性.  相似文献   

19.
Aiming at the problem of multi-label classification,a multi-label classification algorithm based on label-specific features is proposed in this paper.In this algorithm,we compute feature density on the positive and negative instances set of each class firstly and then select mk features of high density from the positive and negative instances set of each class,respectively;the intersection is taken as the label-specific features of the corresponding class.Finally,multi-label data are classified on the basis of label-specific features.The algorithm can show the label-specific features of each class.Experiments show that our proposed method,the MLSF algorithm,performs significantly better than the other state-of-the-art multi-label learning approaches.  相似文献   

20.
为弥补特征提取中的语义缺陷,提出了一种利用领域知识规则填补特征与高级语义之间鸿沟的思想,从体育视频中对语义对象进行有效的特征提取,并采用支持向量机元分类器和组合策略对体育视频进行分类的方法.实验表明,该分类方法对大部分体育视频都具有很好的分类效果,平均准确率可达92.23%,优于其他提取特征无语义关联的分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号