首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 468 毫秒
1.
本文主要涉及到自然语言文本处理和基于WEB的多专家系统的自然语言人机接口总体设计两个方面的研究,并用一个实例说明了汉语自然语言咨询文本的分析过程.  相似文献   

2.
分析了汉语语音合成系统中文本处理的特点,提出了利用多知识源进行文本处理的思想,有效地结合了分析处理过程中的静态知识和动态知识,针对不同的对象采用不同的知识源处理,兼顾了不同知识源的一致性和相关性,为语言学处理模块的设计与实现提供了清晰的层次化结构。  相似文献   

3.
介绍基于词汇坐标的语料库文本处理模型,并对英语文本词汇坐标思想进行详细阐述.对语料库文本进行词汇坐标化处理从本质上讲就是从字母串到数字串的映射实现过程.基于词汇坐标的文本处理模型改变了传统的语料库检索模式,从一定程度上适应了当前超大型语料库建设的需要.  相似文献   

4.
为实现计算机对文本图像的自动分类和鉴别,对文本图像分割进行研究.建立基于贝叶斯决策的最小错误率文字分割模型. 利用最小二乘法估计模型参数最后在多颜色空间中选择最优分割阈值,取得了理想的图像分割效果.  相似文献   

5.
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案.  相似文献   

6.
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.  相似文献   

7.
传统的文本处理软件大多能够较好地解决文本读入与词汇排序问题,但对内存消耗及数据统计结果的精确性关注较少,因此处理过程中造成诸多资源浪费及少量数据统计误差.基于Java语言,在充分考虑英语语言特点的基础上,结合"词坐标"思想,提出一套全新的算法设计,并对自行开发的英语文本处理模型进行分析与描述.实验结果证明,基于"词坐标"开发的文本处理模型对英语这一自然语言进行处理,能够精确统计文本各项数据;与其他同类软件相比,效率更高.借助于该模型,语料库研究者能够更好地分析与总结英语文本的内部规律,从而构建速度更快、效率更高的自然语言处理平台.  相似文献   

8.
首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结果表明,加速LSI方法可以在凸现原有语义联系的基础上,低代价、有效、可控地解决上述问题,极大地降低文本处理环境中Kohonen自组织神经网络的规模和计算代价.  相似文献   

9.
纸质地图的地图特征曲线提取   总被引:2,自引:0,他引:2  
描述了一种通用的在复杂特征图像中检测主曲线的新算法.基于曲线最短路径和方向偏移判据,主曲线检测的所有运算都在图形表达中进行.在图形网络搜寻中,采用了深度优先搜索方法.其应用背景是从地理测绘图中检测道路边界和房屋轮廓,采用自动方法生成数字地图.由于测绘图中的文字、符号常常与有意义的图像特征重叠,主曲线检测旨在从原始测绘图中获得“洁净”的特征图像.大量的实际图像实验表明,本算法效率高、鲁棒性强.除了地理测绘图外,该方法还可以用于文本处理中的其他领域,如在文字识别中,将字符与之相重叠的其他无用图像分离.  相似文献   

10.
针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局部概率与全局概率相结合来识别生词和消歧。通过在不同领域语料库的实验表明,SACWSA能准确、高效地自动适应不同行业领域的文本知识管理要求。  相似文献   

11.
由于新闻更新快,对用户进行新闻推荐往往需要进行聚类预处理,而传统方法要么复杂度过高,要么依赖于迭代初值,都不能准确而高效地应用于新闻推荐中.针对以上问题,文中提出了一个基于二次聚类的新闻推荐方法,对随机抽样数据进行密度聚类,基于该样本密度聚类的簇数和初始簇心进行所有待推荐新闻的二次快速聚类,并结合时新性、新闻热度等因素实现新闻推荐.文中方法可以将相关新闻聚集在一起,同时又不导致过高的运算开销,并通过参数估计方法计算各因素参数.实验结果表明,与其他新闻推荐方法相比,文中方法具有较好的推荐多样性和推荐准确度.  相似文献   

12.
针对现有的主题模型不能随时空情境准确反映主题的周期变化和空间分布的问题,根据互联网信息通常包含发布时间地点等情境数据的特点,提出一种用于主题跟踪的时空情境主题模型.首先将数据集的多主题分布与时空信息关联起来建立时空情境主题模型,对主题周期和强度进行描述;然后通过EM算法估计模型参数,利用该参数分别计算主题快照和主题周期;最后利用时序相似度计算判断后续主题信息,实现主题跟踪.食品安全事件主题跟踪的实验表明:与单纯依赖文本特征的主题跟踪方法相比,文中提出的方法能够明显提高跟踪效率和多个主题的跟踪准确性,这有助于进一步实现精准的主题信息检索.  相似文献   

13.
针对复杂场景的视频,在传统的梯度检测算法基础上融入多尺度技术,提出一种由粗到细的两阶段视频字符文本检测新算法.首先,利用加权平均梯度能量特征和运动能量特征对采样帧粗检测,形成候选文本区;然后,通过连通域分析,过滤部分虚检的候选文本区,再利用梯度方向的统计特征进行验证,得到精确的检测结果.仿真结果表明,本方法在处理复杂背景视频图片时具有较好的鲁棒性.  相似文献   

14.
提出一种基于过渡像素的视频流人工文本检测与定位算法.该算法在水平和垂直方向上提取过渡像素点,生成过渡图.通过块滤波器抑制背景的过渡像素,采用基于密度的快速区域生长算法形成候选文本区域;再利用改进的局部二进制模型(LBP)验证候选文本区.仿真实验结果表明,本文的改进算法相对于Kim算法,字符定位的准确率更高.  相似文献   

15.
Windows环境下蒙古文复杂文本处理的研究   总被引:1,自引:0,他引:1  
简要介绍了复杂文本和Uniscribe布局引擎,然后介绍一种基于Uniscribe的蒙古文Unicode文本的解释算法,解决Windows环境下字处理软件不支持蒙古文国际标准编码的问题.该算法具有较好的通用性,能够有效处理多种复杂文本语言,在蒙古文字处理软件MWord中的应用说明了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号