首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
特征工程是产品垃圾评论识别研究中的关键技术之一,绝大多数现有的垃圾评论检测方法都是根据先验知识进行特征选择与指标定义,这类方法主观性过强从而难以应用推广.以电子商务平台"天猫"热销产品评论为研究对象,提出基于评论数据预分析的垃圾评论识别特征工程,然后运用决策树进行垃圾评论检测.实验表明,与其它基于先验的特征工程相比较,该方法能有效提升垃圾评论分类的效果.  相似文献   

2.
一种应用于博客的垃圾评论识别方法   总被引:1,自引:0,他引:1  
针对博客垃圾评论泛滥的问题,提出了一种识别博客垃圾评论的新方法.利用网络常用语对短小评论先进行评论的识别,然后利用改进的相似度公式对评论进行了K轮评论的识别,在每轮识别之后,对主题词进行权重的调整和主题词扩展;待所有评论识别完毕,再利用网络常用语和主题词对识别出的垃圾评论进行第二次过滤,过滤出垃圾评论中的合法评论.实验结果表明,利用该方法进行评论识别在一定程度上提高了识别垃圾评论的准确率和召回率.  相似文献   

3.
针对目前研究人员已经提出多种中文评论挖掘方法,缺乏统一的评论实验数据集的现状,首先从知名网站上随机抽取手机评论,经过垃圾去除、手工标注,最终构造出手机领域的评论挖掘实验数据集.基于实验数据集构造出手机领域的情感词库,并利用模式匹配方法建立了产品特征粒度树,开发出一个可视化平台,研究人员可以直接用其检验挖掘方法的效果,也可以对不同的挖掘方法进行客观比较.  相似文献   

4.
协同过滤作为推荐系统中应用最为广泛的推荐算法,在如今信息时代的个性化推荐中占据了重要的地位。但是用来进行协同过滤推荐的初始评分数据集中,蕴含着大量的垃圾评分和无效信息。这些噪音数据始终影响着推荐结果的准确性。为了解决垃圾评分带来的推荐误差问题,提出用朴素贝叶斯算法来对数据集中的垃圾评分和无效信息进行数据降噪处理。朴素贝叶斯算法通过构建贝叶斯分类器的训练模型来计算待分类评论为垃圾评论的概率,和为正常评论的概率,并加以比较,来判断是否为垃圾评论。使用除去垃圾评论干扰的数据集进行基于项目的协同过滤推荐。实验结果证明这种方法能有效地满足不同用户、不同偏好的个性化推荐,同时具有更高的推荐精准度。  相似文献   

5.
基于逻辑回归的中文在线评论有效性检测模型   总被引:1,自引:0,他引:1  
为了实现电子商务和社交网络中文在线评论有效性的自动化检测,提出了一种单一主题环境下基于逻辑回归的垃圾评论检测模型.中文在线评论有效性的检测可以归结为分类问题,结合中文在线评论的特点提取了9个特征以构建分类模型;为获取核心特征主题的相关度,采用基于关联规则的评论名词模式优化了ICTCLAS中文分词系统的主题识别,进而利用交叉语言模型获取在线评论主题相关度.实验中采取了人为标定的1 000条评论作为样本,把支持向量机分类模型作为对比进行试验,利用数据挖掘工具Weka进行计算.结果表明,采用优化评论名词模式下基于逻辑回归的垃圾评论检测模型结果的准确率达到83.54%,比支持向量机分类模型计算得到的准确率高2.10%.  相似文献   

6.
针对垃圾文本识别计算的需求特性,应用VSM文本聚类算法思想,综合现有TFIDF算法特点,提出一种基于VSM和改进的TFIDF特征项提取算法.本方法在对垃圾文本高聚类特征项权值进行放大的同时,有效减小由二类数据样本数量偏差对计算结果带来的影响,提高了垃圾文本过滤识别效率和准确率.为垃圾文本识别提供了一种新的改进算法选择.  相似文献   

7.
提出一种基于图像抠图与copy-paste结合的数据增强方法(matting-paste),采用图像抠图法获取单个垃圾实例的准确轮廓,并对单个实例进行旋转和亮度变换.根据物体轮廓信息,把实例粘贴到背景图上,无需额外的人工标注即可生成新的带有标注的数据,从而提高数据集的多样性和复杂性.结果表明:数据集扩充后的mask比数据集扩充前的识别精度提高了0.039,matting-paste能在已有数据集上有效地扩充数据,进一步提高模型的识别精度.  相似文献   

8.
垃圾评论者在很大程度上误导潜在消费者和观点挖掘系统。目前检测垃圾评论者的方法主要是基于评论、评论者和商店之间的关系,忽略了评论者之间的关系。针对上述问题,提出了基于评论者多边图的产品垃圾评论者检测方法。首先,以每个评论者为节点,评论者之间的关系为边,构建评论者之间的关系图模型;其次,根据多边图模型,提出了一种基于PageRank的评论者互评估可信度模型来检测垃圾评论者;最后,采用卓越亚马逊和Resellerrating.com平台上的数据进行验证。结果表明:该模型能够更有效地识别出垃圾评论者,在一定程度上解决了难识别仅发表一条评论的评论者的可信度问题。  相似文献   

9.
互联网业已深入每个人的生活,团购平台、在线商店、在线消费等形式的电子商务平台已成为人们时下最流行的消费方式。几乎所有的电商平台都允许和鼓励用户在消费之后对产品或者服务进行评论,而且用户评论对潜在消费者和商家都具有极高的价值。这使得广告、虚假评论等形式的垃圾评论被人为地夹杂在用户评论中,以期达到虚假宣传、推广产品或者诋毁其他商家信誉的目的。垃圾评论检测和分析便是在这样一种应用背景下,研究如何有效地排除垃圾评论干扰,发挥有效评论价值的方法。针对COAE2015设定的垃圾评论识别任务,利用其提供的语料资源,设计了一种基于启发式规则的半监督垃圾评论分类方法。实验结果证明,提出的方法可以有效地识别垃圾评论,同时能够保持对有效评论的识别精度。  相似文献   

10.
由向量空间相关模型识别博客文章的垃圾评论   总被引:1,自引:0,他引:1  
博客作者往往允许读者在文章后发表评论,许多评论充斥着形形色色的垃圾信息,破坏了博客社区的和谐.在向量空间的基础上构造了一个相关模型,将博客的文章和评论分别分词后,根据模型计算评论和文章的相关度,来判断是否为垃圾评论.该模型不需要训练样本,在一个中文博客测试集上,召回率和准确率分别达到82%和91%.  相似文献   

11.
针对发表在微博上评论信息的特点,尤其是那些广大网民用户不愿看到的垃圾评论信息进行了深入研究.归纳了网络上垃圾评论的存在形式和类型,将垃圾评论分为社会网络垃圾评论和普通垃圾评论.为了有效地检测与过滤微博中评论垃圾,提出了一种微博垃圾评论数据预处理的过程和方法,将预处理后的评论信息作为分类和检测的基础.  相似文献   

12.
主观文本观点识别是文本信息处理的一个重要研究方面,在产品推荐、智能信息检索、辅助决策等方面均具有重要的潜在应用价值.与连续的n元词的文本表示方法不同,间隔n元核能够提取主观文本中不规范不连续的特征.此外,间隔n元核的表示方法不需要进行词语依存关系分析和词语极性强度分级.在文本观点分类数据集和短评论数据集上的实验结果表明:与已有的观点分类方法相比,基于间隔n元核的方法有更高识别准确率;在不同特征数目下,增加间隔n元核特征均能够提高分类精度;间隔n元核是一种合适的主观文本特征表示方法.  相似文献   

13.
针对使用深度学习提取人脸表情图像特征时易出现冗余特征,提出了一种基于多 层感知机(MLP)的改进型 Xception 人脸表情识别网络 . 该模型将 Xception 网络提取的特征输 入至多层感知机中进行加权处理,提取出主要特征,滤除冗余特征,从而使得识别准确率得到 提升 . 首先将图像缩放为 48*48,然后对数据集进行增强处理,再将这些经过处理的图片送入 本文所提网络模型中. 消融实验对比表明:本文模型在CK+数据集、JAFFE数据集和MMI数据 集上的正确识别率分别为98.991%、99.02%和80.339%,Xception模型在CK+数据集、JAFFE数 据集和 MMI 数据集上的正确识别率分别为 97.4829%、90.476% 和 74.0678%,Xception+2lay 模 型在 CK+数据集、JAFFE 数据集和 MMI 数据集上的正确识别率分别为 98.04%、84.06% 和 75.593%. 通过以上消融实验对比,本文方法的识别正确率明显优于Xception模型与Xception+ 2lay模型. 与其他模型相比较也验证了本文模型的有效性.  相似文献   

14.
针对传统辐射源指纹识别过程中测试数据间的相关性往往被忽略,同时非合作条件下辐射源信号的识别训练标签数据不足的问题,提出了一种半监督条件下的贝叶斯估计辐射源指纹特征识别算法.首先,针对训练数据集不足的问题,在训练特征集提取阶段,利用半监督条件下的贝叶斯估计算法将有标签训练数据和无标签测试数据同时用于特征学习,以获取更为鲁棒的训练特征集.其次,为了有效利用测试数据之间的相关性,在测试特征集识别阶段,利用测试特征集与训练特征集的联合表征模型,将测试数据之间的相关性考虑在内,以提高识别算法的鲁棒性.实验结果表明:该算法在训练样本较少的情况下,依然可以获得较为鲁棒的分类识别效果.  相似文献   

15.
针对传统在线评论情感分类忽视了用户个性化的问题,提出了一种融合用户个性化特征的在线评论情感分类(PORSC)方法,该方法为每一类型用户构建一个在线评论情感分类器.PORSC模型由2部分构成:一部分是具有学习评论中常见情感信息的全局情感分类模型;另一部分是能捕捉每种类型用户的个性化特征的特定用户类型分类模型.为解决PORSC模型在训练中的数据稀疏问题,引入多任务学习方法,以协同方式训练分类器,以并行方式解决了PORSC模型中参数的优化问题.通过在2个实际中文产品评论数据集和一个公开的英文评论数据集上实验,并与已有基线方法进行比较与综合分析,结果表明PORSC模型在一定程度上提高了在线评论情感分类的精度.  相似文献   

16.
为弥合抽象图像底层视觉特征与高层情感语义间的鸿沟,同时缓解抽象图像情感识别所固有的小样本缺陷,将两层迁移学习策略引入传统的卷积神经网络,提出一种基于两层迁移卷积神经网络的抽象图像情感识别模型.该模型利用深度特征的层次性,首先通过大规模通用图像数据集来学习提取普适的底层图像特征;然后利用抽象图像风格分类数据集来学习提取抽象图像的专有高层语义特征;最后采用抽象图像情感识别数据集来微调整个网络.MART数据集上的实验结果表明,与传统的抽象图像情感识别方法相比,所提出的模型能够有效地提高识别精度.  相似文献   

17.
特征选择算法在ECoG分类中的应用   总被引:1,自引:0,他引:1  
研究了基于运动想象的皮层脑电信号ECoG的特点,针对BCI2005竞赛数据集I中的ECoG信号,通过提取频带能量获得了想象左手小指及舌头运动时的特征,结合Fisher,SVM-RFE及L0算法对特征进行选择,采用10段交叉验证的方法得到训练数据集在各维特征数下的识别正确率并选出最佳特征组合.结果表明:三种特征选择方法中SVM-RFE算法所选出的特征组合可以获得最低的识别错误率以及最低的特征维数,针对所选出的特征组合,使用训练数据集的特征对线性支持向量机进行训练,使用训练好的模型对测试数据集进行分类,识别正确率可以达到94%.  相似文献   

18.
提出一种基于评论关系图的产品垃圾评论者检测方法.该方法考虑了评论者、评论、商店以及回复者之间的关系,构造出四者的评论关系图,根据评论真实度获得评论者的可信度,从而检测出产品垃圾评论者.实验结果表明,与未考虑可信回复者特征的识别方法相比,本文方法的准确率提升了4%.  相似文献   

19.
随着低成本深度传感器(如微软Kinect)的出现,人体行为识别研究吸引了很多研究人员.由于这些设备提供了身体关节的三维位置等骨骼数据,使得基于骨骼的人体行为识别变得简单.但这些关节特征的信息存在部分冗余或者不必要的肢体特征,从而降低识别精度.为此,提出一种智能算法来优化关节点信息的方法过滤掉一些不必要的关节点的特征信息,从而提高识别精度.实验结果表明,提出的方法在UTKinect数据集上测试得到的精度达到97.39%,在Florence3D数据集上测试得到的精度达到93.05%.  相似文献   

20.
针对因光照、拍摄角度及图片质量等因素导致的经典深度学习算法难以有效提取人脸特征、人物身份识别准确率难以达到理想精度的问题,提出一种基于人脸强语义的年龄识别算法.首先,通过注意力矩阵增强人脸区域的特征权重,达到提取特征区域的目的;其次,使用级联双向长短期记忆(Bi-LSTM)网络学习时序帧之间的特征依赖关系,弥补部分特征缺失对识别精度的影响.在人脸数据集IMDB-WIKI和数据集Adience上进行测试,该算法的年龄识别准确率分别达到78.34%和77.89%.实验结果表明,相比于其他基于深度学习算法的方法,该算法在基于图片数据集的人物年龄识别任务上具有更高的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号