首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于向量空间的文档相似度算法假设特征元素间关系为正交,当2篇文档采用了具有相近语义的不同术语描述时,该方法不能准确反映二者的相似性.针对这种情况,文章利用词语的同义关系,在给出术语与术语组相似度、术语组和术语组间相似度的概念及算法的基础上,给出一种基于词语相似关系的文档相似度计算方法.实验采用科技文献类文档和新闻报道类文档作为测试集合,比较新方法和向量空间算法的分类性能,结果显示新方法可提高文档分类的准确性.  相似文献   

2.
提出了一种新的语义相似度计算方法。该算法结合了被评估概念的高度、路径长度和公共细化度(specificity);改进了基于路径的语义相似度算法,利用本体结构,引入基于信息量算法的思想,使得新算法能够获取更多的语义信息,同时又不需要对于文本数据进行预处理;考虑本体中簇的粒度对本体的相似度计算有一定影响,在公式中添加概念在本体中的高度信息,达到低层次的概念间共享的信息要比高层次的概念间共享的信息更多。为了评估所提出的新方法,在实验中,用标准的生物医学系统命名法-临床术语(systematized nomenclature of medicine-clinical terms,SNOMED CT)作为输入本体,用已标注好的概念对集合作为数据集。实验结果表明,所提出的方法不仅保留了基于路径算法的简洁性,还优于现有语义相似度算法,证明了所提出方法的有效性。  相似文献   

3.
基于语言特性的中文领域术语抽取算法   总被引:2,自引:0,他引:2  
提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高.  相似文献   

4.
岳延红 《科技信息》2009,(2):127-128
科技术语的正确翻译是长期困惑翻译界的一大难题,一方面,翻译者不可能通晓较多的专业,另一方面科技术语具有较强的专业性、唯一性和标准性的特征。本文依据语言学、翻译学、术语学理论,在前人研究实践的基础上,较为深入地探论了科技术语翻译方法,即意译法、音译法、音意兼译法及形译法等,在此基础上探讨了科技术语翻译技巧。这将为科技术语翻译,特别是科技术语的标准化提供科学依据。  相似文献   

5.
浅谈中医术语英译的翻译策略   总被引:1,自引:0,他引:1  
本文从中医学语言的特点入手,探讨了中医术语英译总体的翻译原则,并在此基础上提出了七点中医术语的翻译策略。这对于推动中医术语英译标准化,更好地促进中医药的国际交流具有积极的意义。  相似文献   

6.
基于互信息与词语共现的领域术语自动抽取方法研究   总被引:1,自引:0,他引:1  
领域术语自动抽取是本体建设中最基础最重要的工作。领域术语的自动抽取,通常采用基于规则或者基于统计的方法,这些方法是从术语的完备性,或者是检验术语的领域性进行检验。在前人的基础上提出了一种方法,该方法不仅测试领域术语的完备性,同时测试了其领域性,以期获得更好的结果。实验结果表明,该方法获得的术语准确率得到了一定的改进,准确率和召回率分别达到了81.7%和70%。  相似文献   

7.
针对现代应用对于敏感信息日益增长的隐私保护需求,如何保证外包数据库隐私正受到越来越多的关注.本文在综合国内外研究成果的基础上,总结了目前数据库隐私保护方面的研究现状和研究成果,引入可用度的概念,提出了一种利用信息分解与数据加密有效结合保护数据库隐私的改进方法,实现了数据隐私保护,同时提高了方法的实用性.  相似文献   

8.
针对间歇过程的多模式划分问题,提出了一种基于主角度相似度比较的多模式划分新方法,有效克服了噪声或冗余数据对模式划分的影响.该方法的基本思想是利用PCA对间歇数据按时间轴进行主成分建模,然后利用主角度这一用于比较子空间相似度的方法进行主元模型相似度比较,从而对各个模型和过渡过程进行有效辨识和划分;在此基础上,对上述方法进行了深入分析,改进并完善了主角度相似度划分标准,使这一方法更趋完善.仿真结果检验了所提方法的有效性.  相似文献   

9.
基于术语集规模小、内容稳定、入度高、访问频率高、具有整体性的特性,提出了术语集冗余预处理.在此之上设计了符合海量资源描述框架(RDF)数据集特性的划分框架.与经典多层次图划分算法的对比实验结果表明:引入术语集冗余和边权重因子的划分框架适用于海量RDF划分任务,能够以较小的冗余开销有效地降低边切分,从而为上层计算提供了良好的数据分布管理基础.  相似文献   

10.
本书是《高级信息处理》丛书中的一本。文献中的分类和建模通常是建立在数学模型的基础上,因为计算机系统能够容易地处理数学模型。对于使用者来说,理解数学模型并不容易,本书的主要目的就是清楚地解释分类与建模怎样能够以人类可以理解的方式来处理。作者设计了一个方法,该方法首先可以鉴别语言学术语,然后将这些术语与语言学规则相结合,最后从这些语言中提取语言学知识。这一方法还可以与多对象遗传算法、基于遗传的机器学习、模糊神经网络等最新的软计算技术相结合。  相似文献   

11.
基于动态Bayesian网络的基因调控网络建模   总被引:1,自引:0,他引:1  
为了精确建模与推断基因调控网络,提出一种基于动态Bayesian网络的多数据融合方法(SP-DBN).该方法利用结构期望最大算法进行未知结构学习,基于粒子滤波方法完成参数学习,可有效处理数据缺失与噪声问题,更好地捕捉数据中固有的动态特性,并通过其先验结构,在基因表达数据的基础上,自然地融合转录因子绑定位点等多数据源信息.基于酿酒酵母的真实数据,实验结果表明: 对于仅采用基因表达数据的情况, SP-DBN的敏感度与特异度分别提高到19%和95%;融入绑定位点数据后, SP-DBN的敏感度可从19%进一步提升至20%, 而特异度则仍保持在95%的水平.  相似文献   

12.
针对传统缺失值检测方法缺少对多维特性数据全面立体的分析及难以从众多缺失值填补算法中选择合适方法的问题,通过设计缺失值检测方法,在目前常见的数据点缺失度基础上,首次提出数据总体缺失度和加权数据总体缺失度的概念,实现对数据集缺失程度的全面检测,进而通过实验对比分析不同缺失值填补方法性能。实验结果表明,在不同缺失度的情况下,不同缺失值填补算法的性能不同,所提出的方法可为缺失值填补算法的选择提供有效依据。  相似文献   

13.
基于三坐标测量机的圆度误差不确定度评估   总被引:1,自引:0,他引:1  
为了实现圆度误差的不确定度准确评估,提出了一种在快速准确微分进化算法评定基础上的圆度误差蒙特卡洛(MCM)不确定度评估方法.针对最小区域圆圆度误差评定特点,提出了一种基于种群优化的微分进化算法用于圆度误差评定,并在此基础上利用蒙特卡洛方法进行圆度误差的不确定度评估.通过三坐标测量机对圆度零件的实测数据,给出了一个实例,以验证方法的可行性.分析了圆度误差的不确定度来源,给出了不确定度数值和95%置信概率下的不确定度包含区间,并与传统测量不确定度的表示指南评定方法(GUM)进行了比较.结果表明,蒙特卡洛不确定度比GUM方法的不确定度小0.3μm,包含区间也小于GUM.所提出的方法也适用于其他形状误差的评定与不确定度评估.  相似文献   

14.
针对自动化生产线设备的健康度量化评估问题,提出了一种孪生数据和物元信息熵相结合的评估方法.构建了设备健康度评估服务系统,通过分析孪生数据的特征,确定了设备故障数据的分布函数,构造了设备多参数评价指标的复合物元,在融合层次分析法和关联熵法确定主、客观权重的基础上,实现了设备健康度的量化评估.最后以断路器自动化生产线设备为对象进行案例分析和实验验证,结果表明所提出的设备健康度量化评估方法评估结果与设备故障数据统计分析的结果一致,所构建的设备健康度评估服务系统有助于科学指导设备的运行和维护.  相似文献   

15.
为了研究过冷沸腾过程中气泡的脱离特性,基于统计学分析方法,利用公开发表的实验数据和经验关联式构建驱动分析数据库,运用有限混合模型和标准方差分解方法对竖直过热壁面上流动沸腾气泡脱离直径的影响因素进行数据驱动分析研究。将描述流动沸腾的量纲一参数组作为模型的输入变量,气泡脱离直径作为输出变量,采用Kullback-Leibler散度和χ2距离对于输入变量的敏感性程度顺序分别进行评估。初步的数据驱动分析结果表明:雷诺数和气液密度比对气泡脱离直径的影响最为显著,与传统方法取得的结果具有一致性,证明了数据驱动方法在分析物理问题上的可行性;在现有数据库的基础上,有限混合模型比标准方差分解方法更具一般性,可以直接基于数据库进行应用。  相似文献   

16.
潘强  张钢  王春茹 《科学技术与工程》2012,12(30):7931-7936
提出了一种考虑包中样本在概念空间中重要度的多示例核学习方法。引入了包中示例对整个样本空间所包含概念的权重向量。通过数量化的手段表示出每个示例从属于每个概念的重要程度。主要步骤如下:a)通过对所有示例进行聚类,得到能够反映多示例包中所含概念的簇;b)借用文本分类中的r-pattern计算得到每个示例对于概念空间中每个概念的权重向量;c)在多示例核中通过余弦相似度结合示例的权重,得到更能反映概念空间特性的多示例概念核。该方法同时考虑了包层次的概念和示例层次的权重,能够有效度量包中示例对于最终包标记的影响,且本身建立在多示例核的基础上,适用于多种多示例学习的场合。在标准数据集和图像数据集上的实验表明,该算法是有效的。  相似文献   

17.
在分析分形锥,纹理粗细度及二维回归系数共同组成的纹理特征基础上,本运用人工神经网络方法实现了对灰铸铁石墨形态的识别。相对于传统方法,该方法识别速度快,重现性强,数据更为客观准确,避免了由于主观判断所引起的人为误差。在识别过程中,本使用了一种确定隐层节点数的新方法,结果显示良好,对于人工神经网络中隐层节点数确定难的问题具有很好的实用参考价值。  相似文献   

18.
利用 GH 分布性质,采用 Monte Carlo 数据模拟技术,模拟生成一定偏度的偏态分布数据,运用Traditional方法、Jackknife方法、Bootstrap方法和MCMC方法估计概化理论偏态分布数据的方差分量标准误,探讨了数据的不同偏度对概化理论方差分量标准误估计的影响.研究结果显示: Jackknife 方法估计偏态分布数据的方差分量标准误性能较差, Traditional和MCMC方法尚可, Bootstrap方法标准误偏差相对较小,且偏态分布数据的偏度对概化理论方差分量标准误估计有影响, Bootstrap方法对于偏态分布数据表现出良好的“适应性”,偏度对其影响较小.  相似文献   

19.
在分布鲁棒优化的思想基础上,考虑到JS-散度是测量两个概率分布相似性的特点,利用经验数据得到经验分布p_0,考虑经验分布p_0与未知分布p的JS-散度的距离,构造分布p的不确定集,该不确定集缩减了分布p的不确定性.对于定义在不确集下的概率约束优化问题,利用测度转换,将参数ξ对于未知分布p的极小化问题转化为似然比l(ξ)对于经验分布p_0的凸优化问题,应用对偶理论得到求解这一类不确定概率约束优化问题的方法.  相似文献   

20.
《共产党宣言》是马克思恩格斯最集中使用"无产阶级"这一术语的经典著作,以《共产党宣言》在汉语语境中的翻译、传播为线索,对这一术语在汉语语境中引入、翻译、传播、接受、定名的概念史考察,追索这一术语的源流演化,对于马克思主义发展史及中国化研究是基础性的工作.同时,这也为当代中国马克思主义理论术语及话语体系建构奠定理论和实践基础,具有重要的现实意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号