首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用.由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词.通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)方法相比,此算法召回率平均提高了7.15N,准确率平均提高了7.075%.  相似文献   

2.
基于关键词提取的娱乐新闻文档去重算法   总被引:2,自引:2,他引:0  
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一.提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档.实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%~30%.  相似文献   

3.
网络舆情追踪中热点关键词的提取   总被引:1,自引:0,他引:1  
传统的基于文本聚类的网络舆情热点追踪算法,在处理海量网页时,文本聚类速度过低,聚合结果较差.提出了一种基于关键词提取的网络舆情热点追踪方案,并根据新闻、论坛和博客的不同特点分别设计了热点分析模型.通过在笔者开发的啄木鸟网络舆情系统上的实际验证表明,该方案行之有效,热点分析模型识别热点准确率高.  相似文献   

4.
由于新闻文本种类较多、内容繁杂,为更好地提取文本主题特征词,提出了一种新的特征提取算法NewTF-IDF.传统的TF-IDF算法仅仅以逆文档率对词频进行加权,忽略了词性、词频、词位置、词跨度等其他方面的因素对词语信息量的影响,忽略了词语在不同文档中的分布对关键词重要度的影响.NewTF-IDF算法对TF-IDF算法做了多组合特征因子和离散度两个方面的改进,使特征词的加权方式更加科学.实验证明,NewTF-IDF算法在特征词提取方面具有更好的性能.  相似文献   

5.
网页搜索结果的多样化已经逐渐成为提高网页搜索效率和用户满意度的一个重要因素.文中将多样化问题形式化为信息面覆盖率的最大化问题,提出了一种基于关键词的网页搜索结果多样化方法KDM.该方法首先从与用户查询相关的结果文档中提取出可以描述结果文档所蕴含的信息面的关键词,然后根据关键词的同现性以及关键词对文档的描述能力,计算出结...  相似文献   

6.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

7.
针对云存储中加密数据的搜索问题,提出了一种基于主题模型的多关键词排序搜索方法.首先,利用主题模型进行建模,在不同的主题下分别使用TextRank算法来提取文档关键词并为关键词赋予不同的权重值,并根据文档主题分布将不同主题下的关键词进行整合,然后利用平衡二叉树建立文档索引结构.此外,采用词干算法将同一词根的不同关键词转化为同一关键词,解决了同形关键词的问题.最后,通过真实数据进行实验分析.实验结果表明,所提出的方案具有更高的搜索效率和准确性.  相似文献   

8.
本文对中文微博中主客观分类特征的选取进行了研究,通过词典与统计相结合的方法提取了基础情感词、语气词、程度词等8个候选特征,对提取的候选特征,提出了一种基于粗糙集与概率加权的特征选择算法,通过该算法最终选取了基础情感词、!或!、网络观点词、语气词、形容词、程度词作为分类特征。实验结果表明,本文提出的方法能达到较好的分类效果。  相似文献   

9.
互联网技术的快速发展导致信息爆炸式的增长。因此,在海量信息中查找关键信息变得非常困难,关键信息的提取技术就变得愈加重要,该关键信息通常表现为关键词。针对该问题,文章设计了一种无监督的关键词抽取算法,无需训练文档,根据候选词的统计特征和词性特征等直接从单个文档中提取关键词。实验表明,算法所提取的关键词优于现有算法所获取的关键词,同时,该算法的时间效率也优于现有的算法。  相似文献   

10.
越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性.首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力...  相似文献   

11.
陈阳 《科技咨询导报》2010,(11):223-224
连字式复合词在新闻英语中的应用非常普遍。本文对具有代表性的美国英语报刊《洛杉矶时报》的语料收集自建报刊新闻英语语料库,并从英国国家语料库随机抽取广播新闻英语和普通英语,旨在从语言学角度通过连字式复合词在新闻英语和普通英语不同语体的使用对比,统计分析其在新闻英语和普通英语中的应用比较,以及报刊新闻英语和广播新闻英语中的应用比较。  相似文献   

12.
研究了一种基于统计的Web新闻文本自动摘要生成方法.首先,根据Web新闻文本的特点,对词汇和句子赋予不同的权重,然后根据权重大小按给定的比例挑选句子,并进行平滑处理,生成文字流畅的摘要.  相似文献   

13.
本文介绍了一个已研制成功的新闻语料自动分词系统—NEWS的结构和功能。着重介绍了汉语分词词典的信息描述和动态设置方法。应用结果表明,NEWS是一个高效的实用系统。  相似文献   

14.
娱乐新闻所报道的内容娱乐性强,深受广大读者尤其是年轻读者的欢迎.它有自身独特的报道对象和报道内容,因此对新词语的运用极为充分.词语使用的灵活性,也使娱乐新闻成了新词语走向大众的一个捷径和有效通道,极具时代感.  相似文献   

15.
电视民生新闻的价值取向分析   总被引:1,自引:0,他引:1  
本文旨在分析电视民生新闻的生存范式,信息化时代是电视民生新闻诞生的外在环境,公民社会公众话语表达空间的扩展是公众争取在电视新闻传播中主体地位的内在需求,而媒体竞争的加剧则是催生民生新闻的直接因素。认为民生新闻不是表面上的新闻视角的转换和新闻形态的转向,而是电视新闻机构价值取向的一种理性选择。  相似文献   

16.
基于NBA赛事新闻和文字直播的特点,提出一种NBA赛事新闻自动写作方法。首先根据两支球队的比分差,构建比分差函数,并提出基于比分差函数性质的数据分片算法和数据合成算法;然后对数据片进行分类处理,根据数据片的类别以及历史NBA赛事的新闻报道,构建NBA赛事报道模板库,并以球队和球员的表现为中心,将数据片的信息填入已构建好的模板,得到一篇自动生成的NBA赛事新闻稿。提出4种指标衡量NBA赛事新闻自动写作的质量。实验表明,该方法有效、可行,并且写作速度较快,能够对赛事新闻撰写者提供帮助。  相似文献   

17.
中国网络媒体已经历了它的第一个历史阶段。在这个历史阶段,中国网络媒体的新闻业务取得了一系列实质性的进展,主要体现在六个方面:网络新闻时间观方面"定时—及时—实时—全时"的变化;网络新闻组织方式上从平面化向层次化、网络化的发展;网络新闻发布与利用方式上的循环化、多通道化;网络新闻手段从单媒体到多媒体的发展;网络新闻编辑观上从粘贴到加工到组织到解读的发展;网络新闻受众观从单向到互动到共动的变化。这些发展,不仅是中国网络媒体对自身特点的认识不断深化的结果,也是中国新闻改革不断深入的结果。网络新闻的发展,不仅对网络媒体的繁荣意义重大,也将对中国传媒业的进一步变革产生影响。  相似文献   

18.
新闻传媒应该充分发挥社会雷达、舆论先驱的作用,顾及未来历史对自己的叩问.但大量出现的琐屑新闻却打着"民生新闻"的旗号,几乎忘却了新闻的定义和新闻价值,根本不考虑在未来历史中是否占有一席之地,似乎有意追求着"速朽".要改变这种状况,有必要重新审视和明确我们对新闻属性、新闻价值的认识.  相似文献   

19.
报纸、电视和广播都是当今的主流媒体,它们各有各的优势和劣势,但报纸、电视都是无法替代广播的。努力发挥广播新闻中音响的作用是广播与其他媒体争夺受众的一个重要手段。音响对广播新闻的生命意义在于:带“音响”的广播新闻具有直觉性品格,能为受众带来多维感受;音响是对新闻人物生命本质的佐证,能提高广播新闻的可信度和增强广播新闻的感染力;音响又具有美的感召力,能唤起受众的审美情趣,使他们获得音乐艺术美的享受。所以应十分重视并积极采编好音响新闻,以充分发挥好广播的优势和广播宣传的重要作用。  相似文献   

20.
针对新闻界对策划性新闻的异议,从新闻的基本属性出发论述了策划性新闻是新闻家庭的合法成员;同时同策划性新闻以其鲜明的特色突出的影响对促进新闻报道改革,提高新闻宣传艺术,更好地发挥新闻的会诊导向作用及新闻媒体的社会功能等方面具有的重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号