首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 625 毫秒
1.
根据小字符集编码特征和藏文正字法规则,并通过占位辅音和非占位辅音在组合字符中的规则来判定组合字符的构成.组合字符的结构确定后,再参照藏文正字法的知识,最终实现现代藏文音节结构的判定以及各部件的识别.  相似文献   

2.
在含有中文字符的Oracle数据库中,常常会因为字符集的问题,而导致这些中文字符不能正确显示。因此,在分析Oracle数据库系统字符集的特性、字符乱码现象以及出现此现象的原因的基础上,介绍了如何查询数据库及客户端的字符集,并根据具体现象提出了修改字符集的具体方法,以使得数据库中的字符集保持一致,从而避免数据库中的中文字符显示为乱码或数据迁移中的不必要的数据丢失。  相似文献   

3.
基于提升树的自然场景中文文本定位算法研究   总被引:1,自引:0,他引:1  
提出了一种新的基于提升树算法的自然场景中文文本定位技术.首先利用边缘特征进行文本区域的检测,即对下采样后彩色图像首先进行边缘提取、二值化处理,然后通过形态学运算以及连通区域分析去除大量的非字符连通域,获得候选的文本区域,最后,提取候选文本区域的PHOG-Gabor特征,通过提升树算法进一步确认是否为字符连通域.通过实验验证,该算法具有很高的召回率和准确率,综合性能较高.  相似文献   

4.
提出了一种新的能对脱机无约束手写体中文文本行中的字符进行切分的方法.首先采用预切分算法产生一系列曲线候选切分路径;然后使用两个修正的二次判决分析函数对单字符的识别信息、文本行的几何信息进行融合,得到切分假设的置信度;最后利用动态规划算法搜索出最佳切分假设.使用哈尔滨工业大学多人手写真实文本数据库中的383个文本行对文中方法进行实验,在无语言模型的情况下,切分准确率可以达到89.70%,从而验证了所提字符切分方法的有效性.  相似文献   

5.
本文通过对常见的三种字符集编码原理的介绍,然后专门针对在微软操作系统下,双字节字符集中怎样求一字符串的字符数和字节数的常用方法进行讨论。  相似文献   

6.
为了解决集装箱箱号识别精度差、速度慢的缺点,提出了一种新的识别方法.该方法从字符的边界信息中抽取出其特征向量并利用模板匹配法完成字符的初步识别.然后通过大量的实验确定易混淆的字符集,再利用这些字符的独有特征加以区分识别.实验结果表明此算法不但减少了运算量,而且提高了识别速度和精确度.  相似文献   

7.
为改进串匹配的效率,通过引入有效载荷,对Horspool算法进行了分析。在字符集较小而模式串长度较大时,跳跃距离受字符集大小限制严重。结合好后缀思想,提出了基于好后缀的Horspool算法GsHor:比较窗口内对应末位字符相同的情况下使用好后缀距离移动窗口;结合Quick Search思想,提出了基于坏字符块的Horspool算法BcbHor。实验表明:字符集大小为4时,GsHor算法的比较次数比Horspool算法减小18%以上,BcbHor算法至少减少42.4%。  相似文献   

8.
针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的.  相似文献   

9.
陈卫林 《河南科学》2023,(3):321-328
为了解决地铁边深基坑工程施工信息集成运行效率低、极差高、信息匹配准确率低和性能差的问题,提出了一种基于BIM技术的地铁边深基坑工程信息集成方法.首先基于BIM信息集成平台,采集与分析地铁边深基坑工程施工信息;然后综合正交函数和支持向量机算法,对施工信息样本进行投影映射;之后根据DE算法规则迭代循环计算核函数,获得支持向量机参数最优解,以保证各个样本间的拟合度,优化信息集成极差;接着结合DE算法和支持向量机算法,采用参数反分析方法构建DE-SVM参数反分析模型,以优化地铁边深基坑工程中岩体位移与岩体力学参数,提升地铁边深基坑工程施工信息的匹配准确率;最后通过滚动预测方法更新施工信息,以提高地铁边深基坑工程施工信息的运行效率.同时,通过实例验证了所提方法的可行性和有效性,结果表明,所提方法的运行效率高、极差小、信息匹配准确率高,可保证地铁边深基坑工程施工信息集成的性能.  相似文献   

10.
为改进串匹配的效率,通过引入有效载荷,对Horspool算法进行了分析。在字符集较小而模式串长度较大时,跳跃距离受字符集大小限制严重。结合好后缀思想,提出了基于好后缀的Horspool算法GsHor:比较窗口内对应末位字符相同的情况下使用好后缀距离移动窗口;结合Quick Search思想,提出了基于坏字符块的Horspool算法BcbHor。实验表明,字符集大小为4时,GsHor算法的比较次数比Horspool算法减小18%以上,BcbHor算法至少减少42.4%。  相似文献   

11.
0 IntroductionDigital watermarkingis a technique toinsert a digital sig-natureinto ani mage sothat the signature can be extrac-ted for ownership verification and/or authentication. Robustwatermarks are generally used for copyright and ownershipverification,whilefragile watermarks are useful for authentica-tion and integrity attestation[1 ,2]. Afragile watermark pro-vides a guarantee that the digital data has not been tamperedwith and came fromthe right source,soit may be called au-thentication…  相似文献   

12.
1997 年7 月,国际标准化组织ISO和国际电工委员会IEC表决通过了以中国提案为主的藏文编码字符集.此次发布的藏文编码标准是国际标准ISO/IEC10646《通用多八位编码字符集》的重要组成部分.本文回顾了该标准的研制过程,分析了藏文编码的技术性能指标,论述了它的合理性、科学性和完备性.并建议对藏文上下加变形显形式予以编码,在拼音文字辅助平面建立藏文编码字符集辅助集.  相似文献   

13.
文本分类是机器学习重要任务之一,如何对文本信息进行有效分类组织,对用户查找并获取有用信息具有重要作用.针对新闻文本分析,提出了一种基于集合运算特征提取及Stacking策略的新闻多分类方法,该方法基于集合运算的方法来提取文本特征,采用Stacking策略,使用SVM以及贝叶斯方法来对文本进行分类.与典型同类方法对比,在...  相似文献   

14.
字向量表示质量对中文文本处理方法有重要影响。目前,常用中文字向量表示方法Word2Vec、GloVe在很多任务中表现优异,但存在向量质量依赖训练数据集、稳定性差、没有考虑汉字整体字形结构所隐含的语义信息、没有利用字典包含的语言知识等问题。为了克服现有方法的不足,该文首先采用字形自编码器自动捕获汉字字形蕴含的语义,再利用字义自编码器抽取字典包含的稳定字义信息,提出了融合中文字形和字义的字向量的表示方法(Glyph and Meaning to Vector)。结果表明,GnM2Vec在近邻字计算、中文命名实体识别和中文分词三项任务中均取得了较好的结果,在命名实体识别中,F1值较GloVe、word2vec、G2Vec(基于字形向量)分别提高了2.25、0.05、0.3;在中文分词中,F1值分别提高了0.3、0.14、0.33,提高了字向量稳定性。  相似文献   

15.
针对在使用粗糙集理论处理决策表时需要事先对连续属性进行离散化处理的问题,提出了一种基于连续属性分布特征的离散化算法.并通过实例分析说明该算法能在保证决策表原始分类能力不变的前提下,获得较少的断点数.  相似文献   

16.
根据word文档的特点,利用字符下划线颜色的冗余信息,设计了通过改变字符下划线RGB颜色值在Word文本文档中隐藏信息的算法,该算法不仅可以使用盲检的方法实现,而且隐蔽性更强,信息隐藏量可提高到每个字符隐藏24位信息。  相似文献   

17.
Information Audit Based on Image Content Filtering   总被引:4,自引:0,他引:4  
0 IntroductionAlaomnogun wti tohf I tnhteer nneett uwsoerrkin tcore aesxetse nqdui cckolnyti,ntuhoeuIsnlyfo,r mtha-etion Foundation Facilities has become an i mportant degree ofthe national economy.By way of ani mportant composing partof Information Foundation Facilities ,the information securityrelates to the national alive or dead,economic development ,social stability.Every kind of badnessinformation,retroactiveinformation and the information referred to national securityand secret recur…  相似文献   

18.
文本图像的快速区域定位方法   总被引:2,自引:0,他引:2  
字符区域定位是字符识别的预处理过程,但字符图像常常受到光照和噪声的影响,使字符区域的准确定位变得十分困难。提出了一种基于数学形态学的定位方法,利用数学形态学的膨胀、腐蚀运算和字符串图像的整体特征,实现对复杂背景图像中字符串的准确定位,同时对算法进行了优化,使算法更适于实际应用。文中以印刷电路板字符图像作为测试样本进行区域定位,取得了预期的效果。  相似文献   

19.
汉字笔画若干数据的统计方法研究与应用   总被引:5,自引:0,他引:5  
统计汉字笔画信息的各种数据,这些数据主要包括:每个汉字的平均笔画数及按使用频度加权的平均笔画数、以各种笔画起笔的汉字数目、各种笔画在汉字字库中的出现次数、汉字字库中笔画相同的汉字、能与其他字区分开的汉字前若干笔画数的平均数与加权平均数以及汉字字库中相邻笔画的频度等。统计的数据对于基于笔画的汉字输入法和汉字的联机手写识别等方面具有重要的指导意义,我们根据这些统计资料设计了标准键盘和数字键盘,并在Windows下实现了以上两种笔画输入法。  相似文献   

20.
基于特征域词频的邮件过滤方法的研究   总被引:1,自引:0,他引:1  
出了根据邮件特征域信息和特征词频进行垃圾邮件过滤的新方法,并介绍在该方法中的文本特征选取、特征词典构造以及基于TF的权值计算等相关技术,以及改进的文本相似度计算概率模型.实验表明该方法在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有了明显改善.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号