首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 265 毫秒
1.
基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过事件异构图表示新闻文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的去重算法比现有的基于图结构的文本表示去重方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的去重效果.  相似文献   

2.
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据.本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率.实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率.  相似文献   

3.
从哲学的视角反思了作者、读者、文本三者之间的关系因作者的不在场和文本的中介性所产生的滑动,并探讨了文本的意义所在。认为读解的任务不是解决文本究竟有没有终极意义,其任务是作为语言客体的文本与人与现实世界如何联系起来,以辩证的态度去对待文本,在开放的文本体系中,使读者在读解的实践中获得体验。  相似文献   

4.
方莹 《科技信息》2008,(18):49-50
关键字的上下文环境是自然语言处理的基础知识,其自动抽取是很多研究的基础和关键。本文主要研究了从百度搜索页面中提取出搜索关键字的文本信息,并将这些文本信息进行分词处理,最后基于去重算法将词语上下文去重的方法。算法的关键过程包括关键字的环境提取、文本分词和提取到的信息的入库三部分。  相似文献   

5.
公示语是一种具有感召力功能的文本,在日常生活中随处可见,其目的在于使公众去了解、去感知、去行动。对龙岩市目前的公示语英译进行调查,发现很多公示语的翻译忽视了其感召功能。公示语翻译时应采用交际翻译法,以译语读者为中心,注重文本的语境意义,注重向公众传递信息的效果。  相似文献   

6.
优化语文阅读教学,积极构建符合语文学科特点的教学模式——“品读感悟”。其核心是“读”、“品”、“悟”。“读”就是走进文本、倾听文本;“品”就是与文本对话,去经历文本人物的情感历程,感受文本思想与自己生活体验的碰撞;“悟”就是发现文本的美点与亮点,由文本引发对生活的思考。获得思想启迪,享受审美乐趣。  相似文献   

7.
如何让语文课堂生动活泼起来,让学生真正参与其中,与文本交流,让语文课更具语文味。这就需要细读文本,走近作者与作者做心灵的沟通。朗读文本,想象文本,多角度解读文本,探究文本,深入文本,从不同层面去理解文本,探求作者的写作意图,读出自己的见解,读出精彩,让语文课堂生动。  相似文献   

8.
以开源R语言为平台,东方财富网的股评为研究对象,结合中文文本挖掘技术和SVR支持向量回归模型.利用中文挖掘技术,对股评进行去噪声、分词、同义词合并、去停用词、TFIDF、文本向量化将非结构化文本数据转化为结构化的特征向量矩阵,与股票的收益率建立SVR回归模型,通过预测未来的股票收益率来预测股价的涨跌趋势.研究结果表明,预测股价涨跌趋势与实际趋势基本吻合,可以通过分析网络舆情来对股市未来发展趋势进行预测.  相似文献   

9.
数据去重可删除备份过程中的冗余数据,节约存储资源与与网络带宽,是目前数据存储领域研究的重点问题。针对传统方法去重率和吞吐量低的问题,提出一种新的大型文本数据库中分布式数据去重备份方法。介绍了大型文本数据库中分布式数据去重方法基本思想,通过文件管理部分对数据片组中的扶贫数据进行查询和统计,给出数据片组路由策略,分析了数据预取过程。通过最终权值完成对数据块的排列,以恢复时间与恢复成本达到最小化为目的设计适应度函数。通过改进遗传方法对大型文本数据库中分布式扶贫数据进行备份。实验结果表明,所提方法有很高的去重率和吞吐量,且成本低,恢复速度快。  相似文献   

10.
教师应注意引导学生去与文本对话,让学生产生新的认知结构,并有所感悟和思考,受到情感熏陶,获得思想启迪,享受审美乐趣。学生与文本的对话是阅读活动的主体,是阅读教学的中心。而文本是学生精神得以寄托与憩息的殿堂,学生与文本的对话是其走进这殿堂寻找自我的过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号