首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

2.
《科技成果纵横》2002,(5):28-28
该技术是一种电冰箱节能控制技术,它利用传感器技术,采集电冰箱所处的环境温度、冰箱冷藏室蒸发器温度、冷藏室间室温度、冷冻室温度,经模f数转换后经电脑芯片综合处理,调整压缩机的开停机温度点以及调整温度补偿力度,使电冰箱在满足冷藏室和冷动室并达到规定要求的温度情况下实现最佳节能效果。该技术主要包括根据环境温度的不断变化及冰箱各间室的温度情况不断调整压缩机的开停机温度,压缩机超载节能保护,冷藏室空间温度低温下限保护,不同低温环境下的补偿量自动调节以及冷冻室放入超量食品后的自动速冻。该技术的应用使电冰箱的能量消耗大大降低,与同类产品相比,能耗从1.2kwh/24h降至0.73kwh/24h,节能效果超过国家A级能耗的20%,节能效果显著。该技术已在BCD—183B/188B/208B/218B冰箱上使用,效果良好。  相似文献   

3.
针对目前短文本词汇量少、 表达形式多样, 导致同种类文本聚类方法无效的问题, 提出一种利用中文维基百科的丰富词汇间关系对短文本的隐喻词进行扩充的方法, 以解决短文本包含信息少、 词汇表达形式多样的不足. 实验结果表明, 该算法可有效提升短文本的聚类效果.  相似文献   

4.
基于DEMATEL方法的农产品质量安全影响因素分析   总被引:1,自引:1,他引:1  
加强农产品质量安全管理,已成为我国现代农业发展一项重要而紧迫的任务。利用DEMATEL方法对影响农产品质量安全的相关因素进行因果关系分析,同时根据量化结果对影响因素集进行因果分类和重要程度排序,找出影响农产品质量安全的关键因素,以期为农产品质量安全管理决策提供科学的依据。  相似文献   

5.
基于类内距离参数估计的文本聚类评价方法是在类内距离近似服从正态分布的基础上,运用极大似然估计方法对类内距离分布函数的参数进行估计,然后基于估计的结果确定类内距离的合理取值范围,对超过范围的文本向量依据类内距离大小依次进行调整,并利用聚类评价指标来验证最终调整结果。在实验部分文章通过使用基于类内距离参数估计的文本聚类评价方法对K-means算法生成的聚类结果进行调整,一方面验证了在聚类类别数过小或与真实类别数相同时,该方法的可行性;另一方面减弱了初始类中心的选取对K-means算法的影响,提高了聚类结果的准确性。  相似文献   

6.
在研究零售户聚类分析中,传统的k中心聚类方法,计算成本过大,无法有效应用子大数据集.提出了零售户聚类方法,继承CLARANS算法迭代思想,采用全局随机抽样技术,将算法应用于大型空间数据集,通过多次迭代尽量寻求最优聚类结果.聚类结果的评价标准为基于最短主干道距离(SARD)的总距离.该聚类算法是在CLARANS算法的基础上进行改进,使其能够处理带地理信息的数据对象,且聚类结果满足需求约束条件限制.  相似文献   

7.
:以 2009—2019 年安徽 16 市的面板数据为样本 使用 DEA-Malmqusit 指数模型测度安徽农产品物流效率 研究表明: 观测期内安徽省农产品物流效率总体呈下降状态 主要受农产品物流技术进步缓慢抑制 皖北城市为安徽省农产品物流发展 的最短板 皖中城市其次 安徽各市农产品物流效率高低参差不齐 大部分城市农产品物流技术管理水平呈持平或增长状态 而技术进步情况较差 安徽省农产品物流的全要素生产率指数与农产品物流技术进步率变化趋势相同 建议通过加强农产 品物流技术投入、加强农产品物流技术管理效率、学习先进经验、加强区域合作等方式提升安徽省各市农产品物流效率  相似文献   

8.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

9.
10.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

11.
在当前信息化的年代里,文本数据在高速的增长,人们获取有用的信息犹如大海捞针.文本聚类作为文本挖掘的基础技术,发挥了很重要的作用.由于缺乏预先定义的类和类标号的训练实例,如何选择合适的数据相似度是文本聚类的关键问题.文章为此提出一种新的衡量文本相似度的方法 Adaptive Metric Selection(AMS).文章通过抓取网页内容,为聚类提供数据来源,分词和向量化是必要的转化,利用特征提取的方法获取特征项,并用Isomap进行降维,最后利用自适应选择方法 AMS对数据进行相似度衡量再进行聚类分析.实验结果表明,AMS明显优于从多种相似度独立进行聚类的平均结果.  相似文献   

12.
基于自动编码器的短文本特征提取及聚类研究   总被引:3,自引:0,他引:3  
针对短文本的特点, 提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络, 将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上, 引入L1范式惩罚项来避免模型过分拟合, 然后添加噪音项以提高算法的鲁棒性。实验结果表明, 将提取的文本特征应用于短文本聚类, 显著提高了聚类的效果, 有效地解决了短文本空间向量的高维、稀疏问题。  相似文献   

13.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效.  相似文献   

14.
为了解决短文本因特征关键词稀疏而导致文本向量概念表达不够准确的问题,本文提出概念属性扩展特征关键词短文本聚类算法——STCBCFE(Short Text Clustering Based on Concept Feature Ex-pansion)。该算法通过HowNet的概念属性扩展特征关键词,以此增加文本语义特征和反映文本主题的特征关键词数量,进而提高短文本相似性;将其应用于短文本聚类,能够提高短文本的聚类效果。实验结果表明,该算法在短文本聚类的查准率和查全率上都得到了较大的提高。  相似文献   

15.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

16.
针对文本分类和信息检索中的信息冗余和计算复杂等问题,在概念层次网络的基础上,提出了反义词、同义词、近义词的聚类算法.算法的基本思想是将词语的语义映射到HNC概念符号体系上,将所有的词语都变成一系列符号串,并在计算语义相似度和语义距离的基础上,在词语的HNC符号语料库上实现同义、近义、反义的聚类.  相似文献   

17.
针对文本分类和信息检索中的信息冗余和计算复杂等问题,在概念层次网络的基础上,提出了反义词、同义词、近义词的聚类算法.算法的基本思想是将词语的语义映射到HNC概念符号体系上,将所有的词语都变成一系列符号串,并在计算语义相似度和语义距离的基础上,在词语的HNC符号语料库上实现同义、近义、反义的聚类.  相似文献   

18.
在领域知识库的构建过程中,领域概念的识别是一项非常重要的步骤。当前基于统计方法仅按词频进行领域概念的识别,而一些较长的重要领域概念恰恰是低频词,因而对低频领域概念识别准确率不高。为了提高低频领域概念的识别准确率,本文提出了一种基于词向量的加权HITS算法。此方法首先将开放文本中的领域概念表示为词向量,然后使用加权HITS算法计算其领域相关度,最终筛选出领域相关度超过一定阈值的领域概念构建领域知识库。实验证明,本文提出的方法与现有方法相比,在领域概念识别的准确率和召回率方面有一定的改进。特别地,该方法将低频领域概念识别召回率提高了10%。  相似文献   

19.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

20.
本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号