期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

程涛施水才王霞吕学强《广西师范大学学报(自然科学版)》2007,25(2):145-148

中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本相似文献

2.

Lucene 全文索引效率的改进

李胜东吕学强孙军施水才《山东大学学报(理学版)》2015,(7)

Lucene 是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了 Lucene 的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10000篇文档创建索引的平均效率比前人方法提高了19.5％,具有良好的应用前景。相似文献

3.

KNN和SVM并行结合的算法

李胜东吕学强施水才石俊涛《华中科技大学学报(自然科学版)》2013,(Z2):113-116

根据话题跟踪的定义和特点,分析了K最近邻(KNN)算法和支持向量机(SVM)算法的优缺点,发现它们的优缺点具有互补的可能性,提出了KNN和SVM并行结合的算法作为话题跟踪算法,设计了话题跟踪实验,实验结果证明了新算法作为话题跟踪算法,考虑了话题跟踪的特点,利用了KNN算法和SVM算法的理论优势而避免了理论的缺陷,处理话题跟踪问题时具有很好的话题跟踪效果. 相似文献

4.

基于大规模语料的新词语识别方法 总被引：3，自引：0，他引：3

施水才俞鸿魁吕学强李渝勤《山东大学学报(理学版)》2006,41(3):42-45

根据新词语的不同特征，提出了一整套自动检测新词语的方法，通过大规模地统计分析，分别建立字，词，N元组的词典，从中自动检测出新词语来，然后再根据构词规则对自动检测的结果进行进一步的过滤，最终抽取出语料中的新词语. 根据此方案实现的系统，可以抽取不限长度不限领域的新词语. 相似文献

5.

基于内容的文档图像检索的特征抽取研究

马永成肖诗斌林春雨施水才《江西师范大学学报(自然科学版)》2008,32(2):138-141

随着多媒体资源的飞速增长,多媒体检索技术成为当前检索技术的一个热点,该文将介绍文档图像这类特殊的多媒体资源检索技术中的特征提取方法.根据汉字特点,从几个角度,介绍了几种汉字图像块的特征提取方法及相应的相似度算法,并进行了试验测试,试验结果表明几种方法可行. 相似文献

6.

基于两层阈值的话题/报道表示模型

李胜东吕学强魏震施水才《华中科技大学学报(自然科学版)》2013,(Z2):117-120,130

根据中文新闻报道的特点,分析了信息增益的缺陷,对比了文本证据权,并用文本证据权的算法思想改善其缺陷,提出了基于两层阈值的特征选择算法,设计并实现了基于两层阈值的话题/报道表示模型.根据话题检测与跟踪评测结果,基于两层阈值的话题/报道表示模型的最好性能比基于信息增益的模型提高了3.321%,证明了新的算法和模型具有更好的性能. 相似文献

7.

词义演化的计算方法

王洪俊施水才俞士汶吕学强《广西师范大学学报(自然科学版)》2006,24(4):183-186

从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。相似文献