首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 199 毫秒
1.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

2.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

3.
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量,同时,用IDF权重计算公式来计算词语的权重并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为 。  相似文献   

4.
针对权重社会网络发布算法中使用全局统一的ε值而导致隐私保护不均衡的问题,提出一种动态ε社会网络差分隐私保护方法.使用马尔可夫聚类(Markov cluster algorithm,MCL)和Chameleon混合聚类把社会网络图划分成若干个簇,根据每个簇中边的权重信息使用ε函数f(x)来确定簇的ε值,对带有大权重边的簇添加较多的服从拉普拉斯分布的噪声,该方法满足ε-差分隐私模型.实验表明,动态ε使每个簇能添加合适的噪声,比全局统一设定ε值有更好的数据效用性.该方法有效解决了权重社会网络中的隐私保护不均衡问题.  相似文献   

5.
引进文本相关度这一影响因子,提出了一种基于蚁群聚类算法的突发话题检测算法,该算法结合蚁群聚类算法的优势,综合考虑文本聚类和文本相关度的影响,得到对网络突发话题检测的最优聚类效果,并对近年来网络突发话题进行实验,达到了很好的聚类速度和聚类效果,验证了算法对突发话题检测的准确性和即时性.  相似文献   

6.
针对无线传感器网络中数据处理时节能效率不高的特点,提出一种有效节能的域连接算法(Regions joinalgorithm,RJA).该算法首先结合传感器网络的节点特性和位置信息,提出一种基于聚簇的定向传播模型,该模型把传感器网络按域的划分来构建聚簇,查询只需在聚簇中进行,因而能有效减少传感器网络中信息传输的时间复杂度,同时利用网络中虚电路连接的思想,只将连接属性中与匹配相关的数据投送到链路中的公共区域进行比较运算,并不需要把整个信息表在网络中传送,因而能提高链路传输的效率.理论分析和实验结果表明,该算法与传统算法相比节省能量.  相似文献   

7.
通过改进的Single Pass增量文本聚类算法, 以话题为粒度对新闻信息进行组织, 实现网络新闻话题的发现. 该方法考虑了新闻的动态性和时间特性, 在特征词项权重计算中从词项在标题和正文中的位置信息及词项的增量文档频率两方面进行优化, 同时在相似度的计算中添加了时间因素及聚类中动态更新话题的质心向量. 应用 基于主题的网络爬虫构建的新闻等语料作为测试数据集, 实验结果表明, 改进算法较传统算法在耗费代价和错检率上分别降低0.34%和1.57%, 验证了改进算法的有效性和准确性.  相似文献   

8.
针对当前基于节点的动态网络社团结构发现算法难以发现稳定的社团结构的问题,提出了一种采用链路聚类的动态网络社团发现算法(LDC)。该算法首先从链路的角度得到网络的链路图结构;然后对比不同时刻的链路图结构,将动态网络中节点的添加与移除以及边的添加与移除等复杂的变化信息简化为链路添加和链路移除2种增量变化信息;再在前一时刻社团结构的基础上以改进的链路划分密度函数对增量变化信息中变化的链路进行处理,判断该链路是否加入到社团中从而得到最优的社团结构;最后将得到的链路社团转化成为最终的节点社团结构。实验结果表明,相比于当前基于节点的动态社团发现算法,LDC算法能够有效地发现网络中结构稳定的社团结构,其模块度值和标准化互信息值至少提高了0.19和0.13,且算法的运行效率要明显优于基于节点的动态社团发现算法。  相似文献   

9.
MPLS网络流量工程中的动态在线路由算法   总被引:2,自引:1,他引:1  
提出了一种用于MPLS网络流量工程中的动态在线路由算法NORA.该算法在网络拓扑结构基础上定义了链路关键度,根据链路的带宽利用率定义了链路繁忙度,利用链路关键度、链路当前可用带宽及链路繁忙度确定链路权重,并依据该权重运用最短路径优先算法思想为到达的LSP建立请求选择权重优化路径.该算法在动态建立有带宽保证路径的同时可以均衡网络负载,并降低LSP建立请求服务拒绝率.仿真实验表明,与SPF及MIRA算法相比,该算法在降低LSP建立请求服务拒绝率以及均衡网络负载等方面表现出更好的性能.  相似文献   

10.
针对灾害监测传感网呈现出典型的间歇性连通和区域性连通特征,导致数据传输不稳定甚至传输失败的问题,提出一种基于链路质量估计的分簇路由算法.构建基于梯度增强决策树(GBDT)的链路质量估计模型,通过接收信号强度指示(RSSI)、链路质量指示器(LQI)和信噪比(SNR)估计链路的数据包接收速率(PRR)值,根据所获得的PRR估计值对网络分簇,实现簇内数据的高效传输.在此基础上,设计综合链路质量、节点剩余能量等指标的自适应功率分簇路由算法,包括单跳算法LQE-PA和多跳算法LQE-PAMH,通过自适应功率传输的方式将低质量链路提升为高质量链路.仿真结果表明该算法在包传输成功率、网络生存周期和网络吞吐量等方面具有明显优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号