首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
在XML文档中,相当大的部分是由文本数据组成的,针对XML文本数据占用空间较大、对压缩文本数据有效搜索效率较低的难点,基于BWC提出了压缩XML文本数据索引的技术,通过构造全文本数据模型,并利用整体压缩自索引存储XML文档的文本数据,实验结果表明,该技术不仅有效支持XPath查询语言文本搜索,而且内存消耗相对较小,实现了中小规模数据的内存搜索.  相似文献   

2.
一种基于动态词典的英文文本压缩算法   总被引:1,自引:0,他引:1  
传统的压缩算法LZ77、LZ78以及改进的LZW都是以单字符为单位进行处理的.这种处理模式降低了对多字符词汇相关性的适应速度,从而直接导致压缩效率的降低.为了提高压缩效率,在LZW压缩算法的基础之上,结合以词汇为单位的处理模式的设计思想,提出了一种基于词汇模式的LZW算法.实验结果表明,这种以词汇为基础的文本压缩算法比原来的LZW算法具有稳定的、更高的压缩效率.该压缩算法可直接推广应用到其他语言的文本压缩中去.  相似文献   

3.
基于改进哈夫曼编码的全文索引结构压缩算法   总被引:1,自引:0,他引:1  
为解决全文索引的索引结构压缩问题,提出了文本的基于正规哈夫曼编码小波树形式,并将该结构与后缀数组结合,实现了基于正规哈夫曼编码的小波树和高效构造算法.实验结果表明,在不降低运行效率的前提下,存储空间得到有效的压缩,从而证明了改进方法的有效性.  相似文献   

4.
基于LZ77算法的藏文文本压缩算法设计与实现   总被引:1,自引:0,他引:1  
随着信息量的不断增加,用计算机处理的文本文件越来越大,需要对庞大的藏文文本进行数字化处理,如何节约资源对藏文文本进行高效压缩显得极为重要。项目在LZ77算法基础上结合藏文的特点和当前文本压缩的技术主流完成了关于藏文文本压缩的设计和实现工作,按照藏文特点有效的提高了藏文文本压缩率。这种压缩算法是针对藏文特点的两个子算法和目前主流的LZ77压缩算法合成的。  相似文献   

5.
近年来,随着胶囊网络的广泛研究,其在图像、语言等领域取得了重大进展.但胶囊网络存在参数多、训练时间长的缺点.分组反馈路由机制是一种称为分组路由的监督路由策略,该策略将胶囊平均地分成若干组,胶囊局部共享转换权重,从而减少路由参数和计算复杂度,在图像分类领域取得较好效果.本文将胶囊分组方法运用于文本分类任务中,再引入胶囊压缩、静态路由机制,提出了一种新的文本分类模型CapsNet GSR.该模型通过胶囊分组在提取文本局部信息的同时减少参数,利用胶囊压缩和静态路由机制,进一步提高胶囊质量、降低参数数量.在20 news文本分类数据集上的实验证明,其在参数数量和训练时间上有明显减少.在AG’s news、TREC和20 news数据集上的实验表明,该模型在准确率上也有所提高.  相似文献   

6.
中文文本压缩的LZW算法   总被引:8,自引:0,他引:8  
本文报告两个关于中文信息处理研究的结果:(1)采用Cover的方法,猜估中文信息熵,实验表明,中文信良熵不大于4.1bits/字。(2)根据中文的结构特性,选择Welch型的Lemple-Ziv数据压缩算法,把它移植、扩展于中文文本压缩上。应用该算法于不同类型的中文文本,本文获得一些中文文本压缩实际性能值。  相似文献   

7.
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降.  相似文献   

8.
IMS(IP多媒体子系统)中采用SIP协议建立和维护多媒体会话,而SIP是基于文本消息的协议,在会话建立的过程中需要传输大量的比特,加大了会话建立的时延.为了缩短会话建立的时间,必需对SIP消息进行压缩.在介绍专门用于压缩SIP消息的体系架构--SigComp(Signalling Compression)的基础上,提出了几种改善SIP压缩率的方法,并针对SigComp的不足提出了改进方法.  相似文献   

9.
该文介绍了一个实用的汉语文语转换系统NLG-TTS.该系统的输入为自然汉语文本,对输入文本进行规格化处理和分词处理之后,根据汉语语言学规则对文本进行音位和韵律标注;系统选用汉语有调音节和常用词为语音合成基元,音元数据的压缩选用矢量和激励线性预测(VSELP)算法;NLG-TTS合成语音的实验试听效果良好.  相似文献   

10.
文本压缩算法的比较研究   总被引:2,自引:0,他引:2  
论述了4种不同的文本压缩算法。根据压缩算法的优点和缺点,在实践中,要有针对性选择算法,用其优点,从而得到比较理想的压缩文本。  相似文献   

11.
图象,文本,数据库信息管理系统   总被引:2,自引:0,他引:2  
  相似文献   

12.
文本挖掘研究进展   总被引:12,自引:0,他引:12  
数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景.  相似文献   

13.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

14.
An Effective Digital Watermarking Algorithm for Binary Text Image   总被引:2,自引:0,他引:2  
Aiming at the binary text image's characteristics of simple pixel, complex texture and bad immunity of information concealment, a digital watermarking embedment location choosing method has been put forward based upon compatible roughness set. The method divides binary text image into different equivalent classes. Equivalent classes are further divided into different subclasses according to each pixel's degree and texture changes between blocks. Through properties' combination, the embedment block and location which are fit for watermarking are found out. At last, different binary text images are chosen for emulation experiment. After being embedded, the image is compressed in JPIG-2. Gaussian noise, salt & pepper noise are added and cutting is employed to imitate the actual environment in which images may suffer from various attacks and interferences. The result shows that the detector has a sound testing effect under various conditions.  相似文献   

15.
分析了门户网站全文信息检索系统的功能,对该系统的结构(包括数据采集引擎、索引数据库、索引引擎、文本分析引擎、数据查询引擎)进行了研究,重点讨论了数据采集引擎中的数据库采集器和HTML采集器.统一整合频道后建立的全文信息检索系统,能够提供高效、便捷的信息检索服务,提高用户对网站内容的搜索效率.  相似文献   

16.
提出了一种基于双向长短期记忆网络和标签嵌入的文本分类模型。首先利用BERT模型提取句子特征,然后通过BiLSTM和注意力机制得到融合重要上、下文信息的文本表示,最后将标签和词在联合空间学习,利用标签与词之间的兼容性得分对标签和句子表示加权,实现标签信息的双重嵌入,分类器根据给定标签信息对句子进行分类。在5个权威数据集上的实验表明,该方法能有效地提高文本分类性能,具有更好的实用性。  相似文献   

17.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

18.
介绍了一个基于PSOLA合成技术的蒙古语文语转换系统,系统针对蒙古语自身的特点,采用了语音合成领域比较成熟的波形编辑合成技术,也建立了实用的蒙古语语音合成音库,音库基元都进行了基音标记,在韵律修改中也做了尝试。  相似文献   

19.
基于HTTP协议和数据库的文件上传方法   总被引:3,自引:0,他引:3       下载免费PDF全文
提出一种基于HTTP洳议和数据库的文件上传方法,给出相应的实现算法。该方法通过表单提交文件信息,从多域数据流析取文件内容,并以二进制方式存入数据库的BLOB字段,从而实现文件上传。该方法具有结构化信息和非结构化信息同步上传、长文本和带格式文本可以以文件形式上传到数据库、维护难度低、扩展和移植方便等特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号