首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC -value算法进行候选领域现象术语抽取,最后在候选领域现象术语中过滤掉名词性术语,进而得到最终结果.实验表...  相似文献   

2.
以学科教材术语语料库建设为目标,实现了一种基于底表的多层扫描术语自动标注算法.该算法首先采用预测性规则模板扫描文本中未登录术语,并进行标注;其次采用最大匹配方法识别出每个可能的候选术语,把每个候选术语看作术语的定位点,扫描其上下文语境,分别调用单位术语规则模板、例外规则、部件规则、部件例外规则、例外校正规则等对扫描结果进行判断,确定候选术语的身份,并进行标注.该方法以规则的预测和限定功能为辅,充分利用了底表术语信息,取得了较高的标注准确率和召回率,开放测试F-指数达到了84%左右.  相似文献   

3.
针对一个术语的多条候选定义, 首次提出术语定义辨析模型并给出一种基于互联网的求解方法。该方法从百度百科和百度搜索构建参考释义, 总结术语及其定义来源语料中的术语定义模板, 根据参考释义和定义的模板从待辨析定义中选出最优定义。实验选取中国知网概念知识元库中部分领域的术语在学术文献和工 具书中的定义作为待辨析对象, 用所提出的模型和方法进行辨析实验, 结果表明, 该方法辨析的准确率为96.1%, 有很好的辨析效果。  相似文献   

4.
基于登录词邻接关系的双条件概率的领域术语抽取算法   总被引:2,自引:2,他引:0  
领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果.  相似文献   

5.
本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法.该方法应用于宾州大学中文树库,取得不错的组块识别效果.在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正....  相似文献   

6.
基于互信息与词语共现的领域术语自动抽取方法研究   总被引:1,自引:0,他引:1  
领域术语自动抽取是本体建设中最基础最重要的工作。领域术语的自动抽取,通常采用基于规则或者基于统计的方法,这些方法是从术语的完备性,或者是检验术语的领域性进行检验。在前人的基础上提出了一种方法,该方法不仅测试领域术语的完备性,同时测试了其领域性,以期获得更好的结果。实验结果表明,该方法获得的术语准确率得到了一定的改进,准确率和召回率分别达到了81.7%和70%。  相似文献   

7.
双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。  相似文献   

8.
基于VIKOR方法解决概率语言术语集语义环境下的多属性决策问题,将概率语言术语集刻画的属性指标与VIKOR方法有机结合,将候选方案的整体效益和个体属性遗憾程度同时纳入决策目标体系,并通过对VIKOR决策的判断准则进行修正,构建PLTS-VIKOR多属性决策模型,克服了以往TOPSIS法、集结算子综合法等在决策机制上的不足.通过决策实例验证了该方法的决策有效性和计算过程的相对简便性.  相似文献   

9.
提出了一种基于扩展语义向量的特征表示方法,利用机器学习的方法来解决基因提及标准化中的消歧问题。首先应用高性能的命名实体识别系统识别文献中的基因提及;其次采用不同的搜索策略生成候选结果;再次以扩展语义信息作为特征用机器学习的方法进行消歧;最后利用Wikipedia构建后过滤器对候选结果进行过滤处理。在BioCreative Ⅱ GN任务测试集上的试验表明,该方法的F值达到了83.2%。  相似文献   

10.
针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反馈技术,选取URL-key为特征,构建URL-key向量,利用SVM对查询串进行分类。实验结果表明,该方法不仅F值比对比方法提高7%,而且资源的使用也远远小于对比方法,提高了系统的时效性。  相似文献   

11.
基于语言特性的中文领域术语抽取算法   总被引:2,自引:0,他引:2  
提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高.  相似文献   

12.
指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷,进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点,给出了计算特征词权重的新方法,提出了新的文本分类方法. 试验表明,该方法能够最大限度保留文本的特征,并且可有效避免向量空间模型中的维数灾难问题,能应用于大规模文本分类.  相似文献   

13.
基于特征域词频的邮件过滤方法的研究   总被引:1,自引:0,他引:1  
出了根据邮件特征域信息和特征词频进行垃圾邮件过滤的新方法,并介绍在该方法中的文本特征选取、特征词典构造以及基于TF的权值计算等相关技术,以及改进的文本相似度计算概率模型.实验表明该方法在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有了明显改善.  相似文献   

14.
在经典特征选择算法的基础上,提出一种带专业词库的特征选择方法.在训练分类模型的时候,适当加重属于专业词汇的特征的权重.这种方法能够有效地避免特征选择时误删有用的低频词,因此,适合用于短文本的分类(电子邮件等).实验结果表明,本方法在抽取特征维数较少时,分类准确率提高约3%.  相似文献   

15.
大多数去混响的算法都是基于短时分析,不可避免地带来了截断效应;如果对混响语音进行逆滤波,则要求房间冲激响应满足最小相位.本文提出了一种针对单通道的语音长时分帧的去混响算法.算法采用长时帧分析,有效减小了截断效应的影响.首先对混响语音信号进行长时分帧计算其最小相位分量倒谱,然后根据纯净语音和房间冲激响应倒谱的不同分布,在倒谱域阻带滤波得到去混响语音最小相位分量的估计,根据最小相位倒谱理论,进而可以估计出去混响语音频域的模,最后利用人耳对相位信息的不敏感性,用估计的去混响语音的模和混响语音的相位合成,傅里叶反变换得到去混响语音时域波形.实验表明,该算法有良好的去混响效果.  相似文献   

16.
提出了一个新的自治超混沌系统,该超混沌系统的非线性特征主要依赖于一个非线性二次双曲余弦项和一个非线性二次交叉项.对系统的基本动力学特性进行了数值模拟和理论分析.研究了实现此超混沌系统同步的一种方法,实现了2个异结构混沌系统的渐进性和全局性同步,而且在同步过程中并未删除驱动系统的非线性项.数值模拟验证了该方法的有效性和可行性.  相似文献   

17.
不同粒度语言评价集的融合方法研究   总被引:1,自引:0,他引:1  
研究了决策过程中将多粒度语言评价集进行融合的问题.分析了现有的两种多粒度语言评价集的融合方法,提出了一种基于隶属度函数进行的多粒度语言评价集融合新方法.该方法把语言评价用二元语义和在[0,1]区间上的有重叠的模糊数进行表示,融合过程避免了原有方法只能从粒度低的评价集向粒度高的评价集转化的不足,并且计算简单.通过具体算例证明该方法能够准确地给出不同备选方案的评价得分,有助于精确解决不同粒度语言评价集的群决策问题.  相似文献   

18.
图像中文字信息的提取和识别具有极大的应用价值,文字定位是文字提取最关键的步骤之一.现有文字定位算法复杂度高,查全率和查准率都有待提高.本文提出一种基于频域纹理特征的图像文字定位方法.在图像频域提取纹理特征后初步定位文字区域,再根据文字区域的几何属性得到最后的定位结果.实验结果证明,该方法在粗定位和精确定位阶段均能取得较好的效果,且计算复杂度较低.  相似文献   

19.
一种基于词共现图的文档主题词自动抽取方法   总被引:11,自引:0,他引:11  
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号