首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
提出了一种基于图结构的文本聚类方法,采用基于图结构的文本表示方法来构建文本的图结构模型,将一个文本映射为相应的图结构,通过最大完全公共子图的求解计算文本间相似度,并进行聚类。实验结果验证了该方法的有效性。  相似文献   

2.
传统的基于空间向量的文本谱聚类方法容易忽略文本上下文之间的语义联系,通过图结构进行文本表示可以很好的解决这一问题,在此基础上,本文提出了基于最大公共子图的谱聚类算法——SC-MCS算法。该算法通过求解文本之间的最大公共子图来进行文本相似度的计算,最后进行文本聚类。实验结果表明,与传统的基于空间向量的文本谱聚类方法相比,该算法在准确率和召回率都取得了一定的提升。  相似文献   

3.
聚类是数据挖掘和机器学习领域的重要研究内容,一般会先基于数据样本构建相似图,再基于相似图将样本划分到相应的类中。但是真实的数据经常被损坏,导致学习的相似图不准确,从而直接影响聚类结果。为解决这些问题,提出一种面向鲁棒聚类的自适应图调节和低秩矩阵分解的方法,该方法的核心思想是:将原始数据X分解为纯净数据D和噪声数据S,再基于纯净数据构造拉普拉斯矩阵并进行自适应图调节。随后,给出一个联合学习框架,将数据分离、自适应图正则、噪声消除和低秩矩阵分解集成到一个目标函数中。利用增广拉格朗日乘子法分别更新变量。最后,在理论上证明算法的收敛性并进行实验。实验结果表明所提出的方法与现有一些方法相比有一定优越性。  相似文献   

4.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

5.
基于无监督学习的数据清洗算法   总被引:2,自引:0,他引:2  
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法.该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级.在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确.实验表明,该算法能准确地完成实体识别.  相似文献   

6.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

7.
基于多特征融合的同名专家消歧方法研究   总被引:1,自引:0,他引:1  
针对专家库构建过程中出现的同名歧义现象, 提出一种基于多特征融合的同名专家消歧方法。从中国知网(CNKI)数据源中获取专家的论文信息, 抽取论文的标题、摘要、关键词、作者单位和合作者等关键信息, 并将其作为属性特征, 构建特征表示模型, 进而定义同名专家之间的相似度计算函数。根据计算得到的相似度, 将同名消歧问题转化为聚类问题。利用近邻传播聚类算法进行聚类, 解决同名消歧问题。在采集的专家论文数据上的实验表明, 基于多特征融合的同名专家消歧方法的准确率可达92%, 取得良好的消歧效果。  相似文献   

8.
针对在识别框架不确定时基本概率分配(BBA)生成困难的问题,提出一种基于聚类特征的基本概率分配生成方法,以减弱对样本长度的依赖性,并分析2种情况下的BBA生成。在框架未知时,通过聚类分析获得各个类别的聚类特征,建立样本属性的聚类特征区间模型;在框架已知时,获取聚类特征,建立样本属性的聚类特征区间模型;然后用各个区间模型之间的距离表示样本属性之间的差异,在此基础上建立了一种相似度的度量方法;最后对相似度进行归一化得到BBA。采用Iris数据集和Wine数据集的实验结果表明:所提方法对样本长度敏感程度低,对Wine数据集的一个类的分类结果达到100%。将该方法应用于某煤化工企业压缩机组子系统状态监测信息数据集,实现了监测信息状态的识别。  相似文献   

9.
[目的/意义]随着信息技术的快速发展,各个领域积累的数据呈现出规模大、种类多、结构复杂等特点,这些都为已有的无监督聚类算法提出了严峻挑战。[方法/过程]该文对近年来提出的各种聚类算法进行了综述。[结果/结论]根据聚类算法可处理的数据类型不同,聚类算法可分为基于向量表示的聚类算法和基于关系表示的聚类算法;从建模策略的角度,聚类算法可分为基于模型优化的算法以及基于启发式的算法。其中,基于模型优化的算法重点分析了k-means算法以及图割算法的研究现状,并给出了两种算法之间的差别和联系,进而解释了为什么k-means模型只能处理球形数据,而图割模型可以处理非凸数据。基于启发式的算法以密度聚类算法为例展开分析。此外,鉴于无监督聚类算法面临的非凸优化难题,该文还分析讨论了无监督聚类算法的各种优化方法。最后,归纳总结了现有算法与优化方法的主要特点,并指出了现阶段聚类方法存在的问题以及未来的研究方向。  相似文献   

10.
基于直觉模糊C-均值的客户聚类和识别方法   总被引:1,自引:1,他引:0       下载免费PDF全文
客户聚类和识别是大规模客户化生产中产品/服务快速有效设计的基础.考虑客户需求信息的不确定性,提出了基于直觉模糊C-均值的客户聚类算法.针对传统基于欧式距离的C-均值聚类方法无法计算直觉模糊数组间距离的缺点,采用直觉模糊交叉熵方法处理算法中的距离计算问题.同时,直觉模糊交叉熵还用来计算新客户和各客户类间的偏好相似度,进行客户识别.最后以某工程机械企业服务开发中的客户聚类和识别为例,验证了所提方法的有效性.  相似文献   

11.
针对Tanner图中圈的增加会影响码的性能的问题,提出了一种递归构造低密度校验(LDPC)码的方法。该方法利用一个短的LDPC码的校验矩阵作为其母矩阵,在此基础上采用循环置换矩阵构造一个长的LDPC码。通过对循环转置矩阵的参数进行约束,可以保证所构造的长码的Tanner图中指定长度的圈的个数等于或者小于其短码,且可以构造规则或者非规则的LDPC码。仿真结果表明,采用该方法构造的LDPC码具有较低的误码平台,其性能与好的随机LDPC码几乎相同。  相似文献   

12.
Raptor码通过级联预编码可以很好地改善错误平层问题,但编译码的复杂度相对较高。为了降低级联Raptor码的复杂度,提出一种基于互信息最大化的Raptor码优化设计方法。该方法基于外部信息转移图的渐进收敛分析,从最大化互信息的角度出发,得到有限迭代次数约束下的校验节点度分布的数学模型。仿真结果表明,当译码迭代次数一定时,基于互信息最大化设计的Raptor码与码率最大化设计的Raptor码相比,具有更好的误码性能。  相似文献   

13.
r-ID码和r-LD码与多处理系统的错误诊断有关.r-ID码和r-LD码可通过码字发送的信号确定故障处理器的具体位置.利用最短路和码球,研究了r-ID码和r-LD码两种码在张量图cyn×k2中的最小码字总数,并给出了码的界.  相似文献   

14.
针对存在大角度透视变形的集装箱图像,提出一种新的集装箱箱号识别方法.首先对图像进行透视变换校正,然后利用深度卷积神经网络模型定位并识别出集装箱图像中的26个大写英文字母和10个阿拉伯数字,最后利用集装箱箱号的先验知识,通过级联决策规则从候选字符集中识别出集装箱箱号.此方法应用于重庆港集装箱1 035张实景图像,箱号识别精度达97%,基于NVIDIA GeForce GTX1080图形处理器加速的箱号识别速度为每秒2~5帧.  相似文献   

15.
自正交码是一类重要的纠错码,其中的特殊类型——自对偶码一直是研究的重点。研究二元域码长为n=15s 10(s≥0)的四维最优自正交码的特征,并且确定其完整分类。建立了最优[15s 10,4]自正交码的生成矩阵与两个线性方程组之间的联系,将确定最优[15s 10,4]自正交码的问题转化为求解线性方程组的问题。确定出所有最优[15s 10,4]自正交码的生成矩阵,并进一步得到互不等价的最优自正交码的完整分类,给出了互不等价且不含全零坐标的最优[15s 10,4]自正交码的生成矩阵和重量多项式。因此,二元域上最优[15s 10,4]自正交码的参数、结构特征和等价问题得到了完全解决。  相似文献   

16.
LDPC码的短回路极大地影响了其性能,用图的理论来描述LDPC码,从而可以给出所有的回路,以及回路所经过的节点和长度。这种算法非常适合计算机进行搜索。  相似文献   

17.
正交编码是码分多址通信的关键技术之一,为了达到全球通信的目的需要多种多样的编码方法。对于通信设备来说,不同CDMA 编码体制的转换与沟通是需要解决的重要问题。正交码的软件实现给出了解决问题的途径,提出了基于并元加性群的正交码编码方法,并以二进制为例给出了产生正交码的部分 C 语言程序,使通信系统应用更加灵活,为软件无线电的实现开辟了道路。  相似文献   

18.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效.  相似文献   

19.
基于DMTD多普勒补偿的互补码脉冲压缩   总被引:1,自引:0,他引:1  
为解决相位编码脉冲压缩信号的旁瓣导致大目标信号的旁瓣覆盖小目标,降低雷达对小目标的检测能力,提出一种基于数字动目标检测(DMTD)的交替发射互补码的方法,对正码和补码回波分别做MTD,然后分两步进行相位补偿,并分别脉压和叠加(去旁瓣). 该方法能有效地补偿多普勒频移和分时发射导致的相位差,保持了脉压后正码和补码回波信号旁瓣的互补性. 由于是交替发射正码和补码,能有效降低目标RCS的角闪烁导致的回波能量起伏带来的影响. 以四相互补码为例进行了仿真,结果表明,该方法补偿了由于分时发射造成的互补码之间的初始相位差,脉冲压缩后对互补码进行叠加,得到了低旁瓣的脉冲压缩结果.   相似文献   

20.
图案代码显示是手工地毯编织的一个重要环节,传统的方法是将图案打印在普通纸上,由编织工人逐行阅读并行编织,该方法不公造成纺织工人阅读困难,而且容易借码,为此,本文提出了使用大容量存储器和微处理器控制来实现图案代码显示的方法,并采用4M位的存储器和ATMEL的89C51单片机实现了该显示器,设计中采用串口通讯和在线存储器编程方法实现代码写入,使用非易失性存储器存储操作状态以实现开机状态自动恢复,所设计  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号