首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 390 毫秒
1.
文本分析是文语转换系统的前端,是制约语音合成自然度的一个重要因素,文章在考察汉语文本分析方案的基础上,分析了藏语的特点,提出了一套适合于藏语语音合成的文本分析模块的实现方案.文中采用最大匹配法和分词词库相结合的方法实现文本的自动分词,建立一套层次化的规则体系对文本进行规范化的处理,字音转换则通过SAMPA-ST的藏语机读音标系统来实现,本研究的完成为藏语的语音合成打下了良好的基础.  相似文献   

2.
基于Python语言,利用公开中文语料库,测试不同算法模型对中文文本分类的效果.选择语料中不同数量的语料种类,首先对文本进行格式化读取、清洗等处理,而后以2:1:1的比例,分为训练集、验证集、测试集,最后依照文本表示、特征提取、分类算法选择、效果评估的步骤,依次在词袋、词嵌入、语言3种模型中选取典型代表进行中文文本分类.在深度学习模型的帮助下,文本分类得到了快速的发展,当前的主流分类方法基本都能满足不同任务的文本分类需求,特别是BERT语言模型可极大地提升文本分类的效果.  相似文献   

3.
采用传统激励模型的基于HMM的文语转换系统的合成语音自然度不高,主要原因是其采用的激励模型用脉冲串作为浊音段激励和白噪声作为清音段激励过于粗糙,不能很好地模拟自然语音的激励.借鉴MELP语音编码算法,把混合激励模型应用到系统中,对合成语音激励信号进行改进.试验结果表明,混合激励模型大大提高了系统的自然度.  相似文献   

4.
一种基于VSM文本分类系统的设计与实现   总被引:10,自引:0,他引:10  
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .  相似文献   

5.
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法. 新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取. 实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

6.
Office 2003是微软公司新版办公软件,文本转换语音是Office 2003一项新增的功能.Excel 2003带有文语转换功能,文章结合实例,详细介绍如何利用Excel 2003的语音功能实现数据库中的文本转换为语音.  相似文献   

7.
为文本情感分类提出一种改进的机器学习算法。在分析当前主要文本特征选择方法后,把词频和词语情感表现程度融入到信息增益特征选择方法中,从全局和局部2个方面进行特征权重衡量,使用特征空间向量模型对文本进行统一表示,然后利用SVM算法进行训练学习。通过实验发现该算法的查准率和查全率比传统的机器学习算法有所提高,并且得到的分类器具有较好的泛化能力。  相似文献   

8.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量.  相似文献   

9.
在情感分析研究中,使用Stacking算法进行情感分析时基学习器的选择是至关重要的。传统的Stacking算法仅仅只是将不同学习器结合起来,没有区分它们之间的不同,同时也不能反映初级学习器的实际预测情况,针对此问题,基于熵值法改进Stacking算法进行文本的情感分类。首先,使用熵值法确定单一分类器的性能指标权重,将指标值的权重进行加权求和获得不同模型的综合得分,通过综合得分来选择性能最好的基学习器组合;接着,由于基模型中的各个分类器性能的不同,将基学习器训练后的预测结果赋予不同的权重,输入到次级学习器当中;最后再利用次级学习器进行训练并预测情感倾向。实验结果表明,基于熵值法改进Stacking模型优于传统的Stacking模型,说明基学习器的选择和重要程度对情感分类具有一定帮助,为之后文本情感分析奠定一定的基础。在情感分析研究中,使用Stacking算法进行情感分析时基学习器的选择是至关重要的。传统的Stacking算法仅仅只是将不同学习器结合起来,没有区分它们之间的不同,同时也不能反映初级学习器的实际预测情况,针对此问题,基于熵值法改进Stacking算法进行文本的情感分类。首先,...  相似文献   

10.
分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%.  相似文献   

11.
文本特征选择是自然语言处理中的关键问题。针对文本特征的高维性和稀疏性问题,在过滤式特征选择算法文档-逆文档评率(term frequency-inverse document frequency, TF-IDF)的基础上,提出了用遗传算法对文本特征进行优化选择,使其最大程度地贴合后续的文本分类算法,在保证文本分类精确度的同时,降低特征维度以缩减预测时间。实验显示,该算法与单一的过滤式文本特征选择算法相比,能够有效减少所选文本特征数量(即降低特征维度),能有效提高文本的分类能力。  相似文献   

12.
采用经验风险最小化归纳原则和梯度下降方法调整传统中心分类法的类别中心向量, 解决了传统中心分类法因忽略训练集文本权值因素而导致的类别中心向量表达能力较差问题, 得到了与支持向量机分类性能基本一致的一种改进的中心分类法. 实验结果表明, 该方法是提高中心分类法分类性能的一种有效方法.  相似文献   

13.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

14.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识.  相似文献   

15.
针对蚁群算法容易出现停滞现象而不能对解空间进行全面搜索的问题,提出了一种蚁群-遗传融合的文本聚类算法.该算法将影响蚁群算法性能的4个参数作为遗传算法中的染色体进行编码,基于此又设计出相应的适应度函数以及选择交叉变异算子,通过多次迭代找出最优的参数组合,并将其应用到文本聚类问题上.经与经典的k均值聚类算法、基本的蚁群聚类算法的仿真比较,结果表明所提出算法的聚类效果更好,在3个测试集上的F度量值要比k均值聚类算法分别提高5.69%、48.60%、69.60%,所以更适合于处理较大规模的数据集.  相似文献   

16.
考虑到反垃圾邮件本身特点,借鉴文本分类中的已有技术,将其应用到垃圾邮件的屏蔽中来.因为将合法邮件判别为垃圾邮件对于邮件用户造成的损失明显大于相反的操作,所以定义了一个损失函数,将其与朴素贝叶斯算法结合,实现了基于最小损失的垃圾邮件屏蔽算法.在一个公认的垃圾数据集上的实验结果验证了引入损失函数的有效性.  相似文献   

17.
基于边缘的字符串定位算法   总被引:1,自引:0,他引:1  
为了对强干扰噪声图像中的字符串进行实时的检测定位,该文提出了一种基于边缘的字符串定位算法,它引入了边缘密度图和边缘连接强度两个新的概念。该算法首先通过对边缘密度图进行投影分析进行自顶向下的粗定位,然后在此基础上利用垂直边缘的连接强度进行自底向上的精确定位。新算法有效地克服了噪声的影响,运算复杂度低,因而能够实现对强干扰噪声图像中的字符串的实时定位。采用该算法对集成电路芯片图像中的编号字符串进行定位,实验结果证明其在处理强干扰噪声图像时是有效的。  相似文献   

18.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

19.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号