首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
为了支持大量VOD用户,提出了一种用于高容量视频点播服务器的单系统控制多数据泵(SSCWMDP)体系结构,能在Internet环境中大规模地提供视频点播服务.为了验证该体系结构的有效性,实现了基于该体系结构的视频点播服务器的原型.实验结果表明,采用SSCWMDP体系结构,该原型能够同时支持大量的客户.  相似文献   

2.
提出了一种适用于大量编程用文本数据的存储和显示的处理方法。该方法已经成功地应用于计算机辅助机械设计计算软件的开发过程中。  相似文献   

3.
支持SASD数据字典系统的设计与实现刘方爱(山东师范大学计算机科学系250014,济南;31岁,男,讲师)本文按照SASD ̄[1]方法,研制了一套支持需求分析的CASE工具,在CASE环境中,会产生大量的文本图形信息,如何组织这些信息,消除数据冗余,...  相似文献   

4.
随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。  相似文献   

5.
文本数据的数据挖掘算法   总被引:11,自引:0,他引:11  
针对目前大量存在的文本数据,以已有的结构化数据挖掘技术为基础,提出了非结构化数据的知识发现方法-树形分层数据库方法,对文本数据进行分析,将非结构化数据准结构化,存放入树形分层数据库中,利用已有的数据库技术以及树形分层数据库特有的一些操作,实现在知识发现过程中对数据的抽取与控制,并给出了具体的模型与过程。  相似文献   

6.
简要说明MARC数据和标准格式文本的主要原则,介绍将MARC数据中的馆藏字段数据和纯文本数据转换成标准格式文本的方法,最后说明在自建数据库中添加馆藏数据的处理思路,并给出相应程序设计流程图。  相似文献   

7.
铁路信号设备在运营维护过程中积累了大量以文本方式记录的维护数据,为了实现高效准确分类,提出将Word2vec、SMOTE算法与卷积神经网络(Convolutional?Neural?Networks,?CNN)相结合的铁路信号设备故障文本自动分类方法.?首先,对故障文本使用自然语言方法完成预处理,并采用Word2vec...  相似文献   

8.
将Web文本分类技术和Web使用记录挖掘技术应用于网站信息管理中,实现了网站对站内Web文本的快速自动分类以及对站内不同用户显示个性化布局的功能,显著提高了网站管理中处理大量信息的效率,增强了网站的个性化特征.  相似文献   

9.
文本数据流分类的新方法随着网络和信息技术的快速发展,现实生活中人们往往会接触到大量的文本流数据,如即时通讯工具ICQ和QQ等产生的大量聊天记录,连续到达的电子邮件以及定时更新的网络新闻等等。如何从这些大量的文本数据流中挖掘有用的知识?  相似文献   

10.
此次开发的多功能数据分析器,共实现了二种数据分析功能。分别是:①将Internet表中数字型数据还原成文本数据,并进行简单的统计分析;②实现了均值法处理丢失数据。此外,本文还包括了利用SAS系统模拟均值法、回归分析法和SD方法处理丢失数据的一些总结。  相似文献   

11.
分别对电子图书馆系统中词表数据的结构,图,文,声,像等多媒体信息的表示与查询和文本数据的处理方法进行了分析,提出了统一的模型。该模型为描述并管理电子图书馆系统中的种种数据形式提供了理论基础。  相似文献   

12.
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。  相似文献   

13.
互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,利用文字云和主题模型文本挖掘方法,对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言,以多年粗糙集会议纪要为实验数据进行了相关统计分析,并对比了 Tagxedo文字云生成器,结果表明,从文字云中比较容易获取文本的重要信息如主题模型等,挖掘效果较好。  相似文献   

14.
数字图书馆的建设面临着资源整理、查找、存储等一系列问题,传统的文档存储形式不利于信息的再利用、web发布等。提出了将中文文本数据转换为可扩展标记语言(XML)文档的一种方法,通过解析一个文件类型表示(DTD),利用DTD中给的元素名称、属性等从文本数据中找到相应元素的内容,从而形成一个特定DTD下的XML文档。  相似文献   

15.
探讨了如何有效地利用互联网上大规模的图像和文本信息以数据驱动的方式来实现图像的自动标注,并提出了一种基于语义相关区域搜索的图像自动标注框架.该框架首先利用人工建立的视觉和文本知识库Image-Net来训练一组弱分类器;然后将学习好的弱分类器作用于分割后的图像区域块生成Region-level的语义特征表示用以在大规模的图像数据库中进行相关图像区域的搜索,最后从搜索结果的文本描述中通过聚类挖掘的方式产生最终的图像标注结果.对比于image-level的底层特征表示,基于分类学习的区域模块具有更强的语义表达能力和更好的鲁棒性,更容易抓住图像本身包含的多个目标的多重语义;从而使得该框架兼具了大规模数据驱动和传统基于分类算法的优点.大量web图像和公认的测试数据集上进行的实验结果证明了本文提出框架的有效性.  相似文献   

16.
气液两相流压差信号数据的分形插值拟合   总被引:3,自引:0,他引:3  
对具有强烈非线性且极不规则的两相流压差信号的分形插值非线性数据拟合与重构方法进行了探索研究,用气液两相流中4种典型流型--泡状流、段塞流、环状流和分层流下的两相流压差信号进行了数据拟合实践与分析检验。结果表明分形插值方法能很好地重现原始压差信号,并较完整地保留了原动力系统中反映其非线性特性和内在规律的动力信息。其压缩因子反映了信号的波动程度,而剪切变形率反映了动力系统的稳定性。从这一新的角度,对两相流机理作了新的分析,指出两相流动现象及其变化正是摄动项和稳定项相互作用的结果,据此提出了一种改进以往两相流压力降数据经验关联式的新思路。  相似文献   

17.
朴素贝叶斯分类器是当前流行的一种文本分类算法,但是它的属性独立性假设使其无法表达文本词语之间的依赖关系,TAN(Tree Augmented NaIeve Bayes)在许多情况下优于朴素贝叶斯分类器。然而,由于学习TAN所需的空间是数据属性个数的二次项级,限制了TAN对高维数据(如:文本数据)的分类,本文介绍了TAN模型及其一般的构造算法,提出一种新的TAN构造算法ITAN,该算法的空间复杂度是数据属性个数的线性级,最后将该算法用于文本分类,实验比较了朴素贝叶斯分类器和TAN分类器,实验结果表明:该方法具有较好的分类性能。  相似文献   

18.
《红楼梦》是一个修辞的海洋。大量修辞文本的存在将小说点缀得生动形象,成为无法超越的文化瑰宝。然而,这些修辞文本在英译过程中却会受到不同译者的心理文化结构影响而产生不同的效果。从《红楼梦》的两部最为成功的译本中对于回目修辞的处理可以看出修辞心理学在修辞文本翻译过程中的影响。  相似文献   

19.
本文旨在研究论点抽取技术,该技术的目的在于识别、抽取和分析文本信息中的论辩成分与结构。通过从若干句子中提取与辩题相关的论点,并判断该论点的立场为支持或反对,来完成对论辩事实文本的智能分析。以往的研究主要基于卷积神经网络和循环神经网络等深度学习模型,网络结构简单,无法从论辩中学习到更深层次的特征。为学习到论辩文本中更丰富的语义信息来对论辩立场进行分类,本文提出一种增强的RoBERTa模型EnhRoBERTa。该模型以预训练语言模型RoBERTa为基础,充分利用多层次的多头注意力机制,并且提取浅层和深层语义表示进行融合,从多个特征维度进一步理解论点和辩题之间的关系,完成对论点的立场分类。然而,考虑到论点对立场的分布不均衡问题,本文采用数据增强技术,增强对少样本的学习能力。在CCAC2022比赛数据集上的实验结果表明:本文模型相较于基线模型可以提取到更丰富的文本特征,取得61.4%的F1-score,比未使用预训练的基线模型TextCNN和BiLSTM提高约19个百分点,比RoBERTa提高3.8个百分点。  相似文献   

20.
针对互联网上新闻网站和论坛、博客等发布的海量自然语言文本,本文设计了一个面向藏文的话题发现系统,将大量藏语文本分类整理并聚合成各个话题。本文采用两层聚类策略对文本进行聚类,实验结果表明文本聚类取得了不错的结果,具有较高的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号