首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 62 毫秒
1.
为了改进设计信息模型的效率,文中提出综合使用UML和XML Schema建立信息模型的方法。以对业务管理系统中的共有业务信息建模为例,首先采用UML类图表示业务信息模型,然后利用XMI将UML图转化成XML Schema模型。实验表明,该方法兼有UML直观的图形模式和XML Schema的纯文本特性两种优势,既提高了设计信息模型的效率,又改善了异构系统之间信息的交互性。  相似文献   

2.
汉文-维吾尔文句子对齐模型的XML标记规范   总被引:1,自引:0,他引:1  
近些年来,在语言信息处理研发、双语教学和对比研究以及双语词典编纂研究中,双语语料库的作用日益凸显出来.在双语语料库中,不仅要描述双语文本在句子一级的对齐信息,还要详细描述收入语料库中的双语文本的所有者、领域、时间等方面的属性信息.为便于数据交换和共享,所有语料文本均采用XML编码方式来描述信息.详细阐述了构建的汉文-维吾尔文平行语料库的对齐句子和一些属性信息的XML标记规范和XML标记算法的设计方法.  相似文献   

3.
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有效性.  相似文献   

4.
研究了基于向量空间模型的自动文本分类方法,提出了位置权和词的位置区分度的概念,给出了一个带有位置信息的词权重计算方法,并给出了基于该方法的文本分类算法.实验结果表明,该方法是有效的,提高了文本分类的精度.  相似文献   

5.
为了提高检索结果的时间相关性,将文本特征抽取和多标签分类算法应用于文献检索的潜在时间意图分类研究之中.从检索潜在时间意图分类的角度出发,提出一种基于文本时间信息抽取和Labeled LDA(标签主题模型)的文献潜在时间意图自动分类算法.首先,在获取的文献时间信息基础上,将文献检索潜在时间意图映射至具体时间类别.其次,为了减少时间信息的稀疏性对分类特征学习过程的影响,利用交叉学科中时间短语分布特征优化Labeled LDA分类模型的标签选择过程.最后,将所提算法与其他多标签分类算法进行对比实验,分析和评估文献检索潜在时间意图自动分类的准确率.结果表明,所提算法的AUC的值达到79.6%,较同类基准算法ECC(整体分类链)提高约10.9%,且针对不同学科均取得了较好的分类效果,是一种有效的文献检索潜在时间意图学习方法.  相似文献   

6.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签的语义表示过滤下文本的新表示.最后将两部分输出融合,得到同时具有本地内容语义信息和全局任务指导信息的文本表示,使得模型在文本表示阶段即对分类任务具有早期感知力.实验结果表明本研究方法在真实数据集上可有效提升文本分类任务性能.  相似文献   

7.
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法.  相似文献   

8.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

9.
为提高电子文本分类效果,解决独立同分布模型在标记数据不足时存在的参数估计问题,提出了一种基于Nesterov平滑的高阶路径朴素贝叶斯文本分类算法.首先,利用传统意义的朴素贝叶斯事件模型构建高阶路径形式的文本分类模型,利用高阶路径中的隐式链接信息来提高文本分类模型的性能;其次,针对朴素贝叶斯事件模型中采用拉普拉斯平滑的二阶差分过程容易产生信息丢失、噪声增强的问题,提出基于Nesterov平滑的高阶路径朴素贝叶斯文本分类改进算法;最后,通过基准数据集和图书馆电子文本分类实验,验证了所提算法的有效性.  相似文献   

10.
随着网络的发展,越来越多的广播电视信息由模拟转为数字,传媒信息安全问题迫在眉睫,是亟待解决的问题.本文采用文本分类技术,设计了一种新的文本分类模型,并应用该传媒信息安全系统,从而减少系统的误报率和漏报率,实验结果表明,该算法具有较高的分类精度和效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号