首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 260 毫秒
1.
基于逻辑回归的中文在线评论有效性检测模型   总被引:1,自引:0,他引:1  
为了实现电子商务和社交网络中文在线评论有效性的自动化检测,提出了一种单一主题环境下基于逻辑回归的垃圾评论检测模型.中文在线评论有效性的检测可以归结为分类问题,结合中文在线评论的特点提取了9个特征以构建分类模型;为获取核心特征主题的相关度,采用基于关联规则的评论名词模式优化了ICTCLAS中文分词系统的主题识别,进而利用交叉语言模型获取在线评论主题相关度.实验中采取了人为标定的1 000条评论作为样本,把支持向量机分类模型作为对比进行试验,利用数据挖掘工具Weka进行计算.结果表明,采用优化评论名词模式下基于逻辑回归的垃圾评论检测模型结果的准确率达到83.54%,比支持向量机分类模型计算得到的准确率高2.10%.  相似文献   

2.
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。  相似文献   

3.
由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。  相似文献   

4.
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度.改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测.并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高.  相似文献   

5.
主要工作集中在医疗数据的预处理和神经网络模型的训练.首先结合数据挖掘和自然语言处理技术,在保留医疗数据语义基础上对分词工具语料库进行补充,将中文数据分词,同时对其中大量冗余信息进行清洗,将中文数据转换成计算机可识别的编码,其次利用多种经典热门的神经网络模型来训练医疗数据,同时对比基于传统决策树模型的GBDT模型的训练结果,最后实验结果证明,对于多种疾病诊断,神经网络模型的效果要优于其他模型,诊断准确率接近90%.  相似文献   

6.
自动分词是中文信息处理的基础,而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文信息处理中的一类未登录词语,现有的分词软件仍不能有效识别.为此设计了一个规则 统计的自动标注算法,该算法首先对原文本进行扫描,依据字母串正则表达式取得合法的字母串;再以字母串为锚点,往两边扫描,依次调用前后界规则、汉字组成成分规则、例外校正规则,结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明:该算法的召回率为100%,准确率约为92%.该算法不仅对中文自动分词有益,而且所开发的软件可用于建设字母词语知识库和对字母词语语言现象的考察研究.  相似文献   

7.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

8.
针对机器人用RV减速器故障诊断准确率低问题,采用基于非线性输出频率响应函数频谱与核主元分析(KPCA)相结合的方法诊断RV减速器故障。利用RV减速器性能测试平台采集减速器在正常状态和故障状态下的输入和输出数据;采用批量估计算法得到每种状态下的前4阶频谱值,将其作为故障特征送入KPCA进行压缩,通过设置主元累计贡献率将400维数据压缩至5维;将KPCA生成的低维数据送入支持向量机分类器进行训练和测试。试验结果表明:与仅把振动信号时域或频域作为数据集进行故障诊断的方法相比,所提方法的故障诊断准确率分别提升了27.50%和8.34%,达到了96.67%,所提方法在RV减速器的故障诊断上有效。  相似文献   

9.
中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCity U)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.  相似文献   

10.
目的针对当前交通流数据识别问题,提出基于KPCA与SVM的混合核交通流数据识别算法,以提高交通流数据识别准确率.方法运用KPCA对数据进行预处理,采用SVM训练分类模型,利用所训练的模型进行识别;以多轿厢电梯交通状态为对象,分别从交通流数据识别分析和仿真实验两方面对所提方法的可行性与精确性进行验证.结果通过与SVM算法、BP神经网络算法进行对比,表明所提方法具有很强的通用性,能有效地预测出交通流,交通流数据识别的准确率达到97. 2%.结论笔者提出的基于KPCA与SVM的混合核交通流数据识别算法可以提高交通流数据识别的准确率,通用性较高,可以实现对目标的实时检测.  相似文献   

11.
由向量空间相关模型识别博客文章的垃圾评论   总被引:1,自引:0,他引:1  
博客作者往往允许读者在文章后发表评论,许多评论充斥着形形色色的垃圾信息,破坏了博客社区的和谐.在向量空间的基础上构造了一个相关模型,将博客的文章和评论分别分词后,根据模型计算评论和文章的相关度,来判断是否为垃圾评论.该模型不需要训练样本,在一个中文博客测试集上,召回率和准确率分别达到82%和91%.  相似文献   

12.
针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方法.该方法分2个步骤完成:①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度,并综合知网(HowNet)和汉语连词特征信息优化语料库统计结果,计算中文词汇间的语义相似度;②采用无向带权图划分的聚类方法来实现中文词汇语义倾向推断.由于获取最优聚类结果是一个NP难问题,所以采用贪心算法求解近似最优值.通过在自建的语料库上进行测试,并与利用语料库统计信息、利用HowNet等2个词汇语义倾向性计算系统进行比较,结果是所提方法的准确率达到了80%,表明在提高中文词汇语义倾向性计算的准确性方面是可行、有效的.  相似文献   

13.
针对2013年CCF自然语言处理与中文计算会议(NLP&CC2013)中文微博实体链接的任务, 使用CCF提供的新浪微博数据作为训练和测试数据, 利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工具, 提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法, 提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的消歧方法。在2013年CCF 中文微博实体链接评测任务中正确结果的准确率为0.8838, 在10 个参赛队伍中名列第3位。表明该方法有效并可以适应文本中的噪声。  相似文献   

14.
采用相对小波能量法的脑-机接口设计   总被引:2,自引:1,他引:1  
针对基于两种不同意识任务(想象左手运动和想象右手运动)的脑-机接口,提出采用相对小波能量的特征提取方法.首先深入研究了相对小波能量的计算方法,然后利用相对小波能量对脑电信号进行特征提取,最后采用支持向量机进行分类,并采用分类准确率和互信息作为该脑-机接口的评价标准.离线分析结果表明:分类准确率最高为85.7%,最大互信息为0.41比特.与较常用的自适应自回归(AAR)模型系数作为特征的方法相比,所提方法具有更高的识别准确率和互信息.  相似文献   

15.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升.  相似文献   

16.
针对现有网络评论中产品特征提取算法运行效率低和准确率低的问题,提出了改进Apriori算法并用于候选特征集合的抽取,结合单字词规则和邻近剪枝规则对候选特征集合进行初步过滤,采用频繁项名词非特征规则及PMI阈值过滤技术对候选产品特征集进行筛选,得到最终产品特征集.以从互联网下载的手机评论语料作为实验对象进行实验,结果验证了该方法具有较高的准确率和查全率.  相似文献   

17.
利用粒子群优化的人脸特征提取识别算法   总被引:2,自引:1,他引:1  
针对如何提高人脸图像识别率问题,提出了利用粒子群优化(PSO)的人脸特征提取识别算法.采用小波变换和张量主成分分析(PCA)方法对人脸图像进行特征提取,利用PSO对提取的特征进行加权处理,根据特征的每一维元素的聚类正确率进行优化选择,从而达到对人脸提取关键性特征的目的.实验结果表明,所提算法能减小光照、表情和姿态变化的影响,在英国曼彻斯特科技大学人脸数据库上的识别率比张量PCA方法提高了12.75%.  相似文献   

18.
为了提高基于眼电图(EOG)的扫视信号识别正确率,提出了一种基于共同空间模式(CSP)的扫视信号特征提取算法.该算法首先利用事先标注好的标签数据进行CSP空域滤波器设计,并采用联合近似对角化的方法解决多分类问题;在此基础上,使用该滤波器对原始多导联眼动信号进行空域滤波,滤波输出即为扫视信号的特征参数.在实验室环境中使用支持向量机对上、下、左、右四类扫视信号进行识别,所提算法的平均正确率达到了97.7%.实验结果表明基于CSP的扫视信号特征提取算法在眼动信号分析中呈现出良好的分类性能.  相似文献   

19.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率.  相似文献   

20.
基于统计规则的交集型歧义处理方法   总被引:1,自引:1,他引:0  
中文分词是中文信息处理的基础, 歧义问题是中文分词的一个难点, 而交集型歧义问题占歧义问题的90%以上, 因此对交集型歧义问题的研究是中文分词研究的一个重点. 通过反复的实验和对实验结果的分析, 提出了5条规则, 并根据这5条规则给出了一种针对交集型歧义字段切分的算法, 实验结果表明, 基于该算法实现的分词系统DSfenci, 对于交集型歧义消解的准确率高于95.22%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号