首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

2.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

3.
歧义是在基于词典的分词方法中常见的问题,以往的基于词典的分词方法往往使用双向最大匹配法获得分词结果后,通过使用上下文信息来进行歧义消解,但是对于没有上下文信息的单独语料无法进行歧义消解。本文提出一种通用的基于词频的歧义消解法,该方法是与上下文无关的,能够消解没有上下文信息的语料切分后产生的歧义,扩大了歧义消解的应用范围,简化了歧义消解的处理过程。实验表明:文本方法与传统基于词典的分词算法相比,具有更强的适用性及更高的可用性。  相似文献   

4.
基于网页正文主题和摘要的网页去重算法   总被引:1,自引:0,他引:1  
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。  相似文献   

5.
为了解决分布式哈希表(DHT)不支持模糊匹配和查找延迟长等问题,提出使用改进的超立方体互连圈结构建立逻辑的关键字搜索层.对于给定的文档和描述该文档的关键字集合,使用反向文档索引(IDF)技术选择文档的重要关键字,并映射到环标号,将描述文档的关键字集映射到立方体标号,有效地提取了关键字对于文档的重要性信息,并通过构造生成树来实施搜索操作.实验结果表明,与使用超立方体结构作为关键字搜索层的算法相比,该算法在查询关键字较少时,具有更好的性能.  相似文献   

6.
中文分词技术是中文信息处理的基础,快速、准确的中文分词方法是进行中文信息搜索的关键。基于N-最短路径的分词算法,需要计算有向图中从起点到终点的所有路径值,分词效率低,将动态删除算法与最短路径算法结合,通过从最短路径中删除部分节点的策略减少搜索路径范围,从而提高分词效率。  相似文献   

7.
模拟百度、谷歌等搜索工具,利用爬虫和大数据来实现一个简单的新闻信息检索系统。此系统大致分为5个模块:先是利用爬虫来爬取网页的信息;利用2-gram分词来将获取到的网页建立索引;将索引排序;利用hadoop分布式存取索引;最后搭建前后端实现界面交互。五个环节关系紧密,核心环节就是索引的建立,利用2-gram分词提取关键字,再利用TF-IDF矩阵对关键字打分,得到矩阵之后,就可以利用K-means来讲关键字分类了。然后再按照评分将索引排序就可以得到用户所需要的信息。  相似文献   

8.
针对传统的壮文分词方法将单词之间的空格作为分隔标志,在多数情况下,会破坏多个单词关联组合而成的语义词所要表达的完整且独立的语义信息,在借鉴前人使用互信息MI方法来度量相邻单词间关联程度的基础上,首次采用互信息改进算法MI~k和t-测试差对壮文文本分词,并结合两者在评价相邻单词间的静态结合能力和动态结合能力的各自优势,提出了一种MI~k和t-测试差相结合的TD-MIk混合算法对壮文文本分词,并对互信息改进算法MI~k、t-测试差、TD-MI~k混合算法三种方法的分词效果进行了比较.使用人民网壮文版上的文本集作为训练及测试语料进行了实验,结果表明:三种分词方法都能够较准确而有效地提取文本中的语义词,并且TD-MI~k混合算法的分词准确率最高.  相似文献   

9.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。  相似文献   

10.
基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过事件异构图表示新闻文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的去重算法比现有的基于图结构的文本表示去重方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的去重效果.  相似文献   

11.
设计了一种用于OA系统主题词提取算法,该算法包括单句聚类、抽取代表句、代表句分词和主题词提取几个步骤。采用层次凝聚法作为单句聚类算法,研究公文句子的特点,设计了代表句抽取算法,根据公文群体较为单一的特点,建立主题词词库以及主题词提取规则库,对机械分词法进行改进,设计了代表句的分词算法,实现了公文搜索主题词的自动生成。  相似文献   

12.
前景物体的边缘信息对混合交通视频检测的参数提取和表达具有非常重要的作用. 为克服孤立地利用当前图像无法准确提取边缘信息的问题,提出了基于时空上下文表达的混合交通边缘提取新算法. 在获取当前边缘信息基础上,结合运动目标的特征属性与时空上下文相关信息,通过检索文本的关联性,进行前景边缘提取. 实验表明,文中算法能够准确而充分利用上下文信息实现前景边缘的提取,前景边缘的有效提取率可达95%以上,为后续混合交通视频检测的分类识别和参数提取提供了有效的依据.   相似文献   

13.
互联网时代信息量庞大,简洁的标题可以提高信息阅读效率。在课堂场景下,知识点标题生成便于用户整理和记忆课堂内容,提高课堂学习效率。该文将标题生成应用于课堂教学领域,制作了课堂知识点文本—标题数据集;提出了一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentence positions, TKSP)算法,该算法综合考虑了关键词和句子位置等因素对句子权重的影响,能够更准确地提取文本重点信息。使用以召回率为导向的摘要评价(recall-oriented understudy for gisting evaluation, ROUGE)方法,TKSP算法在ROUGE-1、 ROUGE-2和ROUGE-L指标上的得分率分别为51.20%、 33.42%和50.48%,将TKSP抽取式算法与统一语言模型(unified language model, UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling co...  相似文献   

14.
基于Nutch的搜索引擎技术   总被引:1,自引:0,他引:1  
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能.  相似文献   

15.
一种改进的中文分词歧义消除算法研究   总被引:1,自引:1,他引:0  
随着信息技术的飞快发展,今天的互联网上信息已成爆炸式增长,文本挖掘技术成为目前研究的热点.文章概述了中文分词的算法,通过介绍歧义存在的种类,分析了分词结果歧义性存在的必然性;在中文分词基础上,提出了一种采用"动词优先"的歧义消除算法,使分词结果最大程度地消除歧义,从而提高了分词的精度,为文本挖掘之后的环节打下了基础.  相似文献   

16.
文本挖掘中的姓名特征具有很强的文本表达能力,本文设计的姓名特征提取算法是利用词与词的上下文关系及中文姓名本身的统计信息对文本中的姓名特征进行提取,通过对样本的测试,表明该项技术能比较准确地提取文本中的姓名特征,基本达到了预期的目标.  相似文献   

17.
中文文本分类相关算法的研究与实现   总被引:2,自引:0,他引:2  
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
 实验结果表明, 改进后的权重计算方法性能更优越.  相似文献   

18.
结合自然语言处理技术,采用卷积神经网络算法训练SQL注入检测模型,主要包括文本分词处理、提取文本向量和训练检测模型三个部分。实验结果与BP神经网络算法结果对比,发现基于卷积神经网络的SQL注入检测模型仅需提取用户输入的信息,就可以对攻击行为进行检测,具有很强的预测能力,同时针对变异SQL注入攻击具有良好的识别能力。  相似文献   

19.
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。  相似文献   

20.
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号