首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
考虑到微博数据存在时序性特征以及包含用户的社交网络行为特征,提出一种动量信号增强模型算法来有效地检测微博突发话题.由于传统模型未考虑微博数据变化以及用户社交行为的影响,为此首次提出影响力因子以及热度因子,用以修正动量模型.为获取影响力因子,将计算出当前时点前给定周期内的数据对当前数据的变化差值的指数累计影响作为影响力的衡量标准,以体现词频在该区间段的重要性.影响力因子将用于修正词频序列,以获取MACD值指标.由于用户的社交行为对话题产生影响巨大,进而提出热度因子用以修正MACD值指标.当模型满足指标阈值时,特征词则列为突发特征词.最后,通过K-means聚类算法将特征词进行归类合并,以获取突发话题.实验结果表明,模型精度能达到81.82%,表现良好.  相似文献   

2.
基于文本内容分析的过滤技术研究   总被引:7,自引:1,他引:7  
提出一种基于特征词和局部语义分析的文本分类与过滤方法,在基于特征词统计特性分析的基础上,将特征词的知识属性和局部语法匹配引入信息过滤模型,实验结果表明,这种方法对于某些领域的文本信息可以有效地进行识别和过滤.  相似文献   

3.
针对现有微博推荐方法或模型不便组合证据的不足,提出一种微博推荐新方法.将信念网络用于微博推荐,构建一个基本信念网络推荐模型,并在基本模型中融合用户交互微博证据,提出一个微博推荐扩展模型.模型中的节点表示微博、用户和兴趣特征词,有向弧表示节点之间的关系,通过计算用户与微博的覆盖程度来得到用户与待评估微博的相关度.在微博数据集上的实验结果表明:扩展模型较基本模型在F值上至少提高了约4.9%;与已有的推荐方法相比,新模型在组合证据提高推荐性能方面更有效.  相似文献   

4.
针对垃圾短信分类问题,提出了一种通过挖掘垃圾短信关联规则来构造垃圾短信分类器,从而实现垃圾短信过滤的模型.该方法采用改进的FP-grow算法挖掘垃圾短信关联规则集,以关联规则集为基础构建垃圾短信分类器模型,在分类过程中考虑垃圾短信特征词权重和垃圾短信的变异行为进行分类.实验结果表明,该方法的分类精确率和非垃圾短信错分率优于其他常用垃圾短信分类方法.  相似文献   

5.
提出一种基于MapReduce框架的商品评论热点发现并行算法——PR-HD算法. PR-HD算法使用爬虫技术提取某电商平台下某热门手机的评论数据生成评论数据集,以TF-IDF算法来计算特征词的权重,通过特征词添加位置权重的方式来得到特征词的最终权值,建立向量空间模型(VSM)计算不同评论语句的相似度,使用Canopy算法和K-means算法相结合从而实现商品评论的热点发现.这使得产品开发人员可以从中获取更直接有效的建议和反馈.  相似文献   

6.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性.  相似文献   

7.
情感词典作为情感分析任务中的一项基础资源,是观点发现及情感极性判断的重要依据。随着网络新词的大量出现,情感新词的抽取成为一个亟待解决的问题。针对这一问题提出基于边界特征的情感新词的提取方法。该方法利用skip-gram模型挖掘情感词的边界特征、构建边界特征集,利用边界特征集提取情感新词候选集,通过bigram搭配、序列模式等方法对情感新词候选集进行过滤,根据候选串的频次、与其搭配的边界特征在语料中的分布情况对候选串进行评分。在微博语料上的实验结果显示,该方法对情感新词识别的准确率与候选串得分正相关,当候选串得分为11时准确率为83.33%。实验证明,基于边界特征的情感新词的提取方法能够有效地识别大规模语料中的情感新词。  相似文献   

8.
根据科技文献的结构特点,论文提出了一种四层挖掘模式,并结合K-means算法和Apriori算法,构建一个新的特征词提取方法——MultiLM-FE方法.该方法首先依据科技文献的结构将其分为4个层次,然后通过K-means聚类对前3层逐层实现特征词提取,最后再使用Aprori算法找出4层的最大频繁项集,并作为4层的特征词集合.该方法能够解决K-means算法不能自动确定最佳聚类初始点的问题,减少了聚类过程中信息损耗,这使得该方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用.实验结果表明,该方法是可行有效的.  相似文献   

9.
基于多视角特征融合的中文垃圾微博过滤   总被引:1,自引:0,他引:1  
微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。  相似文献   

10.
鉴于互联网上各种不良网页的影响,提出了一种使用贝叶斯分类算法和领域本体过滤中文网页的方法。 该方法根据正反例领域网页计算领域特征词的权重,建立领域特征词库并制作领域本体,根据正例领域网页得到本体元素权重库;使用贝叶斯分类算法得到候选网页;根据领域本体对候选网页进行语义相关度计算并进行网页过滤。 该方法可以区分相同领域网页中的正反例网页并可兼顾网页过滤的实时性。 通过游戏领域网页的测试,准确率和召回率均在98%以上, 语义分析游戏相关网页的平均时间为1~2 s, 对用户浏览网页速度的影响较小, 效果令人满意。   相似文献   

11.
针对微博话题观点摘要问题,提出一种基于LDA与评价对象相结合的微博观点摘要方法.首先,利用LDA模型得到话题的词分布矩阵和文档的话题分布矩阵,把两个矩阵的乘积作为各个词在句子中的权重分布矩阵,再利用词频与词权重分布矩阵的乘积作为词的重要度;然后,通过词的词性标注规则从句子中选择候选评价对象,再计算句子中候选评价对象的稳定性;最后,把句子中所有词的重要度与句子中所有候选评价对象的稳定性的总和作为句子权重,并从大到小排序,再进行观点句识别,并去除相似性较大的句子,抽取前20个句子作为话题观点摘要.实验结果表明,此方法可以有效地抽取微博观点摘要.  相似文献   

12.
针对现有网络评论中产品特征提取算法运行效率低和准确率低的问题,提出了改进Apriori算法并用于候选特征集合的抽取,结合单字词规则和邻近剪枝规则对候选特征集合进行初步过滤,采用频繁项名词非特征规则及PMI阈值过滤技术对候选产品特征集进行筛选,得到最终产品特征集.以从互联网下载的手机评论语料作为实验对象进行实验,结果验证了该方法具有较高的准确率和查全率.  相似文献   

13.
针对英文产品方面属性词抽取,提出了一种基于Bootstrapping的抽取方法。该方法利用少数几个种子模板,通过增量迭代的过程发现新的属性词,在每一轮迭代中通过统计技术,结合情感词典的情感词分析,利用属性词与模板的亲密度关系得到属性词被抽取出的概率得分,对候选属性词进行排序过滤。对于抽取后的特征词集利用Wordnet计算属性词间的相似度,根据得分进行聚类,得到产品不同方面的属性词类簇,同时过滤掉得分较低的类簇,进一步去掉噪声。此外还利用种子模板代替种子属性词以提高系统的可移植性。实验结果表明,利用该方法进行产品方面属性词抽取的准确率为0.799,召回率为0.779,调和平均值为0.789,具有较好的抽取性能。  相似文献   

14.
根据微博社交平台特征,提出了一种基于神经网络的微博舆情预测方法.该方法使用单位时间内的微博发帖量作为事件趋势的量化指标,考虑影响事件发展的因素,根据样本内的数据趋势建模,使用神经网络来预测范围外的事件的未来趋势.仿真实验结果表明,该方法可以快速地对事件发展的趋势进行量化分析和建模,能够准确地预测事件的爆发点和发帖量.  相似文献   

15.
一种基于上下文感知的垂直切换决策机制   总被引:1,自引:0,他引:1  
针对垂直切换决策考虑的因素越来越多而增加了决策复杂性的问题,提出一种基于上下文感知的垂直切换模型,设计出由切换发起、网络过滤、网络选择3阶段组成的新的切换决策机制.通过引入网络过滤,以某项网络选择指标为依据,对当前可检测到的接入网络进行过滤,并最终实现网络选择算法中对候选网络集或者选择指标的优化.该算法可以使网络选择策...  相似文献   

16.
用单一特征训练跟踪模型进行跟踪鲁棒性较差,为解决这一问题,提出一种多特征表示的混合模型跟踪方法,将生成跟踪模型与判别跟踪模型结合.在生成模型中,利用金字塔结构计算基于颜色的直方图特征表示并以此来计算目标和候选之间的匹配度;判别模型则采用由灰度特征,HOG特征和LBP特征融合训练得到的SVM分类器来判别候选是否为跟踪目标,接着将匹配度和分类结果结合产生对候选的评估,最终评估最高的候选作为跟踪结果同时也用来更新判别模型的训练集.在CVPR2013跟踪数据集上的实验结果表明,该方法能有效克服局部遮挡和背景干扰等问题,实现在复杂背景下的目标跟踪.  相似文献   

17.
面对网络论坛中的海量信息,提出一种基于噪音过滤和话题聚类的突发性热点话题快速发现方法。该方法首先对采集到的论坛数据进行预处理,建立以主贴标题为索引的候选话题集;然后通过定义的热度和回复加速度指标对集合进行多重过滤;最后采用本文提出的聚类算法进行话题聚类获取突发性热点话题。研究结果表明:该方法对突发性热点话题发现的精确率、召回率和F1均达到80%以上,且在信息处理效率方面优势明显;该方法可有效跟踪突发性热点话题,弥补了传统静态方法不能有效跟踪热点话题的不足。  相似文献   

18.
提出一种微博平台上的产品评论情感倾向性分析方法,对特定语料库的产品特征词的词性进行分析,得到特征词的词性重要程度顺序;以情感词典识别的情感词为起点,提出一种依据词性重要程度的"特征观点对"识别规则,并依据该规则进行语义倾向的情感计算。实验结果表明,该方法在产品特征抽取及语义倾向的判断上具有较好的结果。结合微博的转发数和评论数,进行用户观点分析,计算用户对产品的认可度,挖掘产品属性的优缺点,实证分析证明这种方法的可行性。  相似文献   

19.
通过对中文机构名的语法语义特性进行分析,将中文机构名分成前部词和特征词,提出了一种基于统计的识别方法.使用成熟语料库的训练数据,计算候选机构名的特征词可信度、前部词首词可信度和前部词中部可信度,最终得到机构名构词可信度,并与给定阈值比较,实现了中文机构名识别.在开放性实验中,达到了85.57%的召回率和94.37%的准确率.  相似文献   

20.
针对微博话题易漂移的特点,利用向量空间模型和LDA模型进行微博话题漂移检测.主要通过Gibbs采样算法获取每条微博中词汇的概率分布,基于词汇的概率分布进行微博间相关性度量,采用动态常数法实现话题边界标识,在话题域中计算词汇信息熵并抽取话题词,生成话题向量空间模型,通过话题向量空间模型在离散时间序列模型下的话题词序列比对,实现话题的漂移检测.通过实验发现,基于VSM和LDA模型相结合的微博话题漂移检测是一套行之有效的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号