首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
研究评论倾向性分析中情感词的动态极性变化问题.用Apriori算法在语境基础上挖掘情感歧义词语搭配,构建出(情感对象,情感词,情感倾向性)三元组形式的情感歧义词搭配词典,利用条件随机场模型(CRFs)序列标注方法从评论文本中抽取出情感要素,在构建的情感歧义词搭配词典基础上对评论文本进行了细粒度情感倾向性分析.在手机和电脑两个领域的评论语料集上进行多组实验,与传统方法的对比实验表明了方法的可行性,较为明显地提高了情感倾向性分析的准确率.  相似文献   

2.
分析酒店评论数据可以挖掘游客的关注点、意见、建议、情感倾向等有价值的信息.结合对酒店评论数据进行主题挖掘和情感分析的交叉研究,提出一个包含数据采集、数据预处理、主题挖掘、情感倾向研究及可视化分析的集成框架.以Tripadvisor网站上北京地区50家五星级酒店的5万余条中文评论数据为研究对象,进行LDA主题挖掘,同时基于酒店领域扩充情感词典,判定评论文本三元情感极性,并在此基础上实现主题和情感的交叉分析.研究结果可降低潜在游客购买决策的风险,也为酒店管理者制定针对性的管理和营销策略提供重要参考依据.研究方法同样适用于景区及餐饮领域的在线评论数据分析,拓展评论大数据与自然语言处理技术在旅游业的应用范畴.  相似文献   

3.
提出一种基于MapReduce框架的商品评论热点发现并行算法——PR-HD算法. PR-HD算法使用爬虫技术提取某电商平台下某热门手机的评论数据生成评论数据集,以TF-IDF算法来计算特征词的权重,通过特征词添加位置权重的方式来得到特征词的最终权值,建立向量空间模型(VSM)计算不同评论语句的相似度,使用Canopy算法和K-means算法相结合从而实现商品评论的热点发现.这使得产品开发人员可以从中获取更直接有效的建议和反馈.  相似文献   

4.
为了更加准确的对电商评论中的文本信息进行情感分析,提出了一种融合注意力机制与双向长短期神经网络(LSTM)的混合模型结构。首先,利用长短期记忆神经网络对于时序序列结构的分析,充分挖掘句子中的潜在信息,有效克服长期遗忘的问题,然后通过注意力机制的使用能够对句子中不同特征分配权重,对于句子中倾向于用户情感的特征信息进行关注,有效改善识别效率。通过在有标签的京东某手机评论数据集上的实验,表明该方法在该领域具有良好的性能。  相似文献   

5.
提出一种识别微商商品评论中表情图片的方法,使用手机对微信朋友圈中微商商品及评论信息截图,通过HOG-SVM模型定位表情图片;提出一种改进的LBP"等价模式"提取表情图片的纹理特征,提取出的纹理特征向量通过KNN分类器识别表情图片.通过实验证明,改进的方法在识别微信表情图片的速度和准确性方面均优于传统LBP方法.识别微商商品评论中表情图片的过程,是研究基于表情图片的商品评论情感倾向的重要部分,分析与挖掘商品评论的情感倾向对于研究商品口碑、进行商品推荐具有重要的价值.  相似文献   

6.
针对互联网虚假评论大肆横行,在虚假评论研究领域却没有完全公开的中文数据集可供中文虚假评论检测研究的问题,提出了一种基于生成对抗网络的中文虚假评论数据生成模型.首先,对生成器生成的文字序列通过蒙特卡洛搜索获取一批样本;然后,采用强化学习方法将判别器、分类器和重构器的反馈化为奖励分数;最后,传回生成器,对生成器进行参数优化,以生成贴近真实世界的具有相应类标签属性及特征的虚假评论数据.以BLEU值为评估指标,实验结果表明,所提出的模型在本文数据集上取得了更好的BLEU值,具有较好的生成效果.  相似文献   

7.
在图形挖掘研究领域对大图数据进行挖掘方法很多,尽管云计算在解决传统计算问题上十分有效,但对大图形的频繁挖掘中图形分割;信息不对称;模式保留合并仍存在问题。研究提出一种全新的基于云的SpinderMine挖掘法即 c-SpinderMine 方法。首先利用云计算来对大图形数据的大模式进行挖掘,解决大图形数据挖掘算法在云环境下面临的上述问题。然后进行三组真实的数据集实验,有效地缩短执行时间,且对处理云上的大数据表现出很高的可扩展性能。最后实验证明在不同数据大小和最小支持度时具有优越的内存使用和执行时间,对应付云环境下的大图形数据表现出优越的能力。
  相似文献   

8.
【目的】如何构造一个有效的数据图,是半监督学习领域中一个重要的研究方向,为了更好地研究数据样本之间的结构关系,提高基于图的半监督学习算法性能。【方法】利用数据的稀疏表示,构造数据样本的非对称图,并在标准数据集上进行半监督学习实验。【结果】在半监督学习框架中建立了异类数据和同类数据之间距离、内部结构和数据的稀疏表示关系,构造了非对称稀疏的数据图。【结论】通过在标准数据集上进行实验说明非对称稀疏图可以利用半监督学习数据特点,有效地对数据样本进行分类。
  相似文献   

9.
针对目前金融领域文本存在标注资源匮乏的问题,提出一种基于生成对抗网络的金融文本情感分类方法. 该方法以边缘堆叠降噪自编码器生成鲁棒性特征表示作为输入,在生成对抗过程中,通过向文本表示向量添加噪声向量再生成新样本,应用对抗学习思想优化文本特征表示. 在公开的跨领域情感评论Amazon数据集和金融领域数据集上进行实验,并与基准实验对比,结果表明,该方法在平均准确率上有显著提升.  相似文献   

10.
【目的】如何构造一个有效的数据图,是半监督学习领域中一个重要的研究方向,为了更好地研究数据样本之间的结构关系,提高基于图的半监督学习算法性能。【方法】利用数据的稀疏表示,构造数据样本的非对称图,并在标准数据集上进行半监督学习实验。【结果】在半监督学习框架中建立了异类数据和同类数据之间距离、内部结构和数据的稀疏表示关系,构造了非对称稀疏的数据图。【结论】通过在标准数据集上进行实验说明非对称稀疏图可以利用半监督学习数据特点,有效地对数据样本进行分类。  相似文献   

11.
当前高分辨率视频图像数据挖掘方法容易受到外界环境的干扰,提取的视频图像特征不可靠,且不同视角下提取的特征值有很大差异,导致视频图像数据挖掘精度大大降低。为此,提出一种新的不同视角下海量高分辨率视频图像数据挖掘方法,通过Harris角点检测方法对待挖掘高分辨率视频图像数据时空特征进行提取,依据高分辨率视频图像数据时空特征,通过自相关矩阵建立相同事物不同视角下的递归图,将递归图看作一幅图像,通过计算像素点的梯度向量构建递归特征描述符,对相同事物不同视角下的关联性进行挖掘,将具有相同递归图梯度特征的高分辨率视频图像数据汇聚在一起,实现数据挖掘。实验结果表明,所提方法挖掘精度高。  相似文献   

12.
郭冬梅 《科技信息》2011,(3):I0060-I0060,I0068
数据挖掘的技术很多,其中粗糙集理论得到了广泛的应用。粗糙集理论是一种研究不完整、不确定知识处理的数学工具,它可对不完整的数据进行分析和归纳,从中发现知识。本文介绍了数据挖掘基本概念,阐述了粗糙集理论的基本思想,探讨了基于粗糙集理论的数据挖掘方法。  相似文献   

13.
随着大量的XML数据的出现,给数据挖掘领域提出了新的挑战。传统数据挖掘是基于关系数据库和数据仓库的,如何挖掘出XML形式的数据成为研究的热点问题。由于XML文档是一种半结构化数据,使用传统的数据挖掘方法对XML数据进行挖掘是不适用的。提出了一种基于粗糙集理论的XML挖掘模型,并进行了实验,结果表明利用粗糙集理论对XML数据挖掘是可行的。  相似文献   

14.
通过实验教学可以很好的提高学生对理论知识的理解,增强学生的实践操作能力和应用能力.将粗糙集理论与关联规则挖掘结合起来进行数据挖掘的方法,开发了实验教学质量评价系统,用户可以快速地从海量数据中挖掘出有效数据,对实验教学进行科学评价.根据评价结果对实验教学进行合理改进,增加实验教学的有效性.  相似文献   

15.
李实 《科学技术与工程》2012,12(21):5181-5186
目前互联网已经成为信息和观点的交换主要媒介,因此也成为了手机用户对于产品观点的最佳来源.但是目前为止研究中文文本的评论挖掘问题的研究还比较少.为了进一步发展这一领域的研究,旨在从中文客户评论中得到用户关心的产品特征.方法基于关联规则理论中的Apriori算法.主要通过计算频繁特征项的各分量在文本中出现位置的概率,从而确定挖掘到的候选产品特征中词汇的语序,使挖掘结果满足中文的正规语法要求.采用因特网上的评论数据作为语料,通过实验结果表明所提出的方法使得中文评论中的产品特征挖掘性能有所提高.  相似文献   

16.
针对传统数据挖掘方法时间开销大的问题,提出一种新的多层次分布式网络数据挖掘改进方法,给出多层次分布式网络结构。介绍了常用的随机扰动数据挖掘方法,通过概率歪曲技术完成对多层次分布式网络中原始数据集的扰乱处理,对项集的实际支持度进行重构,经概率转换获取数据挖掘结果。随机扰动方法具有时间效率低的弊端,在时间复杂度要求较低的情况下,通过XMASK方法对随机扰动方法进行改进;在时间复杂度要求较高的情况下,给出相应的改进过程。对提出的多层次分布式网络数据挖掘方法进行实验测试,结果表明,该方法准确性高、挖掘时间短、效果优。  相似文献   

17.
 为解决可拓分类知识挖掘方法难以满足可拓建筑策划数据及问题的特殊性需求, 将可集合成参变量数据元集的可拓建筑策划数据作为研究对象, 提出适用于可拓建筑策划的可拓分类知识挖掘流程与方法, 即数据的预处理、选取评价特征并确定权重、建立关联函数并划分区间、计算获取可拓分类知识。拓展可拓建筑策划数据挖掘在方法层面的研究, 以方便获取重要的可拓建筑策划分类知识, 为可拓建筑策划提供决策支持, 为计算机辅助建筑策划提供新思路。  相似文献   

18.
传统漏洞挖掘方法无法研究Android设备驱动与内核间的交互,且需使相关硬件处于工作状态,很难实现Android驱动未知漏洞挖掘。为此,提出基于关联规则的Android驱动未知安全漏洞挖掘方法。对关联规则漏洞挖掘问题进行形式化描述。依据Apriori法对频繁项集进行初寻找。采用RDARF规则筛选器对规则进行进一步筛选,获取强规则。建立待挖掘驱动样本库,对Android驱动进行自动化分析,考虑Android设备驱动与内核间的交互;针对各Android驱动对各自申请的权限信息进行提取,建立权限特征集合,完成格式化操作;挖掘出所有Android驱动漏洞数据的极大频繁项集,建立权限关系特征库,获取关联规则无需执行驱动;针对待挖掘驱动匹配权限关系特征库,实现未知Android驱动安全漏洞的挖掘。实验结果表明,所提方法挖掘准确性高,CPU占用少。  相似文献   

19.
一种基于序列挖掘的分类系统框架   总被引:1,自引:0,他引:1  
为了有效地对序列数据进行分类,提出了一种集成分类挖掘和序列模式挖掘技术的分类系统框架(SPACS).先采用一套约束和裁减策略,为每个分类挖掘频繁序列模式,并将其转换为分类序列规则(CSR);再利用平均CSR匹配置信度和一个规则匹配算法构建有效的序列数据分类器.SPACS不需要在提取序列的特征后采用传统方法进行分类,可以直接利用从序列数据中提取出的频繁序列进行分类.实验结果表明,对于序列类型的数据的分类,SPACS比传统的决策树和关联分类方法具有更高的分类精度.  相似文献   

20.
基于模糊关联迭代分区的挖掘优化方法研究   总被引:2,自引:2,他引:0  
由于数据库存在数据量大、多维性的特点,传统挖掘方法在对数据进行处理时,无法构建精准的数学模型,容易出现部分信息丢失、分区过硬的问题。提出一种基于模糊关联迭代分区的挖掘优化方法,通过模糊C均值聚类算法对原始数据集进行预处理,过滤冗余数据,获取原始数据集的模糊分区;利用模糊关联挖掘算法获取感兴趣规则,实现数据的优化挖掘。实验结果表明,针对不同的数据集,改进的方法均具有很好的分区性能,且时间复杂性低,挖掘精度高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号