首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
Internet的高速增长同时带动了信息的高速增长,这些信息基本是以文本形式保存的。文本信息的特点是无结构,即便有也是极其有限的结构。文本相似性是文本挖掘研究的一个重点也是一个难点。从文本特征得到文本相似性信息是本文的主要研究方向。本文采用了PHP+MYSQL的开发环境对文本相似性的计算过程进行了模拟。计算过程采用的是余弦相似度和Jaccard相似度这两种基于向量内积的方法。在实验过程中通过对文本特征的操作来判断文本之间是否相似,另外还实现了将文本转化为简单的字符串集合进行比较来判断文本是否相似的方法。  相似文献   

2.
本文首先介绍文本挖掘的定义及一般处理过程,重点探讨了文本分类与分类聚类等文本挖掘的关健技术。  相似文献   

3.
文本挖掘综述   总被引:1,自引:0,他引:1  
杨霞  黄陈英 《科技信息》2009,(33):82-82,99
文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有潜在实用价值知识的过程。本文首先介绍了文本挖掘的定义和研究现状,之后文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程,最后展望了今后的研究目标。  相似文献   

4.
文章总结了数据挖掘的基本方法、文本数据挖掘的关键技术,讨论了文本挖掘的定义和文本分类的一些形式,并对文本数据的数据挖掘算法以及发展趋势进行了研究。  相似文献   

5.
张筱丹 《科技信息》2009,(4):165-166
本文讨论了Web挖掘的种类,其中的web文本挖掘是重要组成部分;并重点分析了文本特征提取、文本分类、文本聚类等Web文本挖掘中的关键技术。  相似文献   

6.
文本是制作Flash动画时不可缺少的元素,通过文本的添加,可以凸显动画的主题,还可以为文本创建超链接和嵌入文本。本文主要是对传统文本和TLE文本的创建以及各个属性的设置进行详细的介绍。  相似文献   

7.
如何让语文课堂生动活泼起来,让学生真正参与其中,与文本交流,让语文课更具语文味。这就需要细读文本,走近作者与作者做心灵的沟通。朗读文本,想象文本,多角度解读文本,探究文本,深入文本,从不同层面去理解文本,探求作者的写作意图,读出自己的见解,读出精彩,让语文课堂生动。  相似文献   

8.
杨先超  向泽锐 《科技资讯》2007,(36):205-206
从原始社会到现代文明,尽管人类经历了许多不同的社会阶段,但就艺术语言形态的发展来讲,不外乎只有情态文本、意态文本、语态文本三种写作方式.从艺术的起源到现代艺术,本文以时间为线索,对西方不同时期的艺术创作作品经过认真仔细地分析,发现不同时期的艺术语言形态结构也有所差异--有的是进一步继承了上个时期的语言结构;有的则是完全抛弃进而转向另一语言结构;有的又跳回了历史……但无论如何,每个时期都会有一种艺术语言形态成为该时期的主导语言.  相似文献   

9.
本文介绍了当前几种常用的基于文本的信息隐藏方法,并对其利弊进行分析,在此基础上,提出了一种新的基于文本的信息隐藏方法,即基于文本颜色的信息隐藏方法。  相似文献   

10.
文本挖掘技术研究   总被引:28,自引:0,他引:28  
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.  相似文献   

11.
翻译是一个以译入语再现原语内容的过程。由于两种语言的文化差异,势必在表达上存在不同。拟运用英汉对比的方式,从语篇定义入手,通过语篇特征分析,研究英汉语语篇结构的差异,探讨合适的语篇翻译策略,提高语篇翻译质量。  相似文献   

12.
就语篇、语篇翻译和语篇翻译教学进行探讨,认为翻译应该以语篇为基本单位,这样才能对原语有整体把握。在翻译教学中要培养学生的语篇意识及其翻译能力。  相似文献   

13.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

14.
针对目前短文本词汇量少、 表达形式多样, 导致同种类文本聚类方法无效的问题, 提出一种利用中文维基百科的丰富词汇间关系对短文本的隐喻词进行扩充的方法, 以解决短文本包含信息少、 词汇表达形式多样的不足. 实验结果表明, 该算法可有效提升短文本的聚类效果.  相似文献   

15.
对VB中打印的实现方法进行了分析,并提出了利用VB的Printer对象实现适合于事务处理的长本打印算法和本段落分解算法。最后给出实现例程。  相似文献   

16.
文本挖掘研究进展   总被引:12,自引:0,他引:12  
数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景.  相似文献   

17.
本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.  相似文献   

18.
语篇是一个具有完整意义的语义单位,也是最有效的交际单位。中西方思维方式的差异造成英汉语篇在谋篇布局、叙述表达上的不同。语篇翻译是历年考研英语的必备题型。现以2010年考研英语英汉翻译真题为例,以语篇性为切入口,探求翻译的有效途径。  相似文献   

19.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

20.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、NaiveBayes、最大熵)进行评价,其中,NaiveBayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和NaiveBayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号