共查询到20条相似文献,搜索用时 62 毫秒
1.
分类集及极大分类集的计数 总被引:1,自引:0,他引:1
栾汝书 《清华大学学报(自然科学版)》1989,(3)
M是(1,2,…,n)的一些子集合的集合。若M中任意两个子集,或者它们无共同元素,或者一个是另一个的子集,这样的M称为分类集。若不存在(1,2,…,n)的一个分类集包含M,称M为极大分类集。给出分类集及极大分类集个数tn及Tn的计算,并由Tn的两个递推关系式得到一些组合恒等式。 相似文献
2.
殷士勇 《华中师范大学学报(自然科学版)》2013,47(6):0
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率. 相似文献
3.
孙辰星;刘伟;卢彬;梁诗宇;诸云强;甘小莺 《南京大学学报(自然科学版)》2024,(3):406-415
网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提出一个涵盖文本语义、网页结构等多视角特征的网页数据集Web-Minds,该数据集包含600余个门户网站下的21828条网页.首先,在开放互联网中通过关键词检索采集得到相关网页数据;其次,使用网页解析工具对收集的数据中的文本、DOM结构树、关键词等多视角信息进行提取与清洗;最后,采用大语言模型与“人在回路”的联合标注策略,形成网页类型与网页主题两种标签.在此基础上,针对Web-Minds数据集,测试评估了机器学习、文本分类和网页分类多种算法,结果表明,综合利用多视角特征能有效提升算法的准确率,和仅应用单视角特征相比,在网页类型和主题分类任务上,准确率分别提升了5.49%和5.61%. 相似文献
4.
5.
6.
为了有效地从凸序列中约简数据和发现知识,解决Rough集集中的凸序列问题,在深入研究凸序列和Rough集理论的基础上,提出了凸Rough集模型,定义了凸Rough集和凸Rough集糊集,给出了凸Rough集糊集的隶属函数和应用凸Rough集进行数据约简及规则发现的算法,最后分析了一个应用案例,验证了模型的可行性,表明应用凸Rough集模型可以更好地进行数据约减和规则发现。 相似文献
7.
殷士勇 《重庆工商大学学报(自然科学版)》2010,27(5)
近年来,面向不平衡数据集的分类器学习与推广问题越来越受到人们的关注,在此以机器学习数据库、美国邮政编码、2维元音等国际上典型的分类问题为应用背景,重点研究如何用线性分类器解决样本数不平衡的问题;对Fisher、伪逆和单层感知器等3种典型的线性分类器做了深入的研究,并将这3种线性分类方法应用到不平衡数据集的分类中;通过实验及分析,这些新方法对平衡数据集的线性分类起到了良好的分类效果。 相似文献
8.
针对多类高维基因表达谱的特点,提出一种基于闭合模式的多类分类算法CBCP,即根据垂直格式的数据集采用路径枚举的方法挖掘闭合模式,极大地减少了冗余模式的产生。然后,对所有闭合模式进行排序,通过覆盖训练集建立分类器。针对分类器无法识别的样本提出权重算法进行判断,克服了使用Default类预测不精确的问题。研究结果表明,CBCP与经典分类算法如CBA和C4.5相比具有更高的预测准确率,并且在基因数大幅增加而样本数不变的情况下仍具有较强的稳定性,证明CBCP的可扩展性强,适用于高维数据集的多类分类预测。 相似文献
9.
从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的Support Vector Machines(SVM)算法和K-nearest neighbor(KNN)算法两者结合成为一种应用于基因表达数据分类的算法,并针对基因表达数据分类数据集“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余.实验结果表明,新方法可有效提高分类准确率和特征选取的效率. 相似文献
10.
田五龙 《北京联合大学学报(自然科学版)》1998,12(1):68-70
对于多指标数据的分类,通常将其投影到平面上,然后根据投影点的聚焦程度确定多指标数据的类别,分类的效果取决于权数的选取。利用广义最小二乘模型对多指标数据的权数进行了计算,进而实现对多指标数据的分类。 相似文献
11.
基因表达数据集与传统事务数据集相比呈现出新的特征,由于其项目数远远大于事务数,使得大量现有的基于项目枚举的频繁闭合模式挖掘算法不再适用.为此提出一种频繁闭合模式挖掘新算法TPclose,使用TP-树(tidset-prefix tree)保存项目的事务集信息.该算法将频繁闭合模式挖掘问题转换成频繁闭合事务集挖掘问题,采取自顶向下分而治之的事务搜索策略,并组合了高效的修剪技术和有效的优化技术.实验表明,TPclose算法普遍快于自底向上事务搜索算法RERⅡ,最高达2个数量级以上. 相似文献
12.
利用RI-PCR方法从培养的人黑色素瘤细胞系A375中扩增得到了人血管生成素cDNA片段,测序正确后克隆入表达载体pET-28a( )中并转化于E.coli BL21宿主菌中.经IPTG诱导,表达了N端融合6个组氨酸标签(6His-tag)的血管生成素融合蛋白.利用6His-tag与过渡态金属离子Ni2 高亲和力结合的性质,经镍柱纯化,获得了高纯度的血管生成素融合蛋白,为进一步研究其生物活性及应用奠定了基础. 相似文献
13.
目的 :探讨端粒酶基因表达与癌细胞生物学行为及其端粒酶活性关系。方法 :用原位杂交的方法检测端粒酶基因 h TR和 h TRT在 1 1 5例癌组织 ,2 3例癌前病变 ,2 0例良性病变中的表达情况。结果 :1 1 5例癌中 h TR阳性率为 83.5 % ,h TRT阳性率为 80 .9% ;2 3例癌前病变中 h TR、h TRT阳性率分别为 39.1 %和 30 .4% ;2 0例良性病变中除 1例有 h TRT弱阳性外其余均为阴性。癌组织 h TR和 h TRT的表达与癌前病变、良性病变比较有显著性差异 ( p<0 .0 1 ) ,而癌组间无差异。h TR、h TRT表达在淋巴结转移癌组明显高于无转移组 ,端粒酶基因表达随肿瘤分化程度降低而有增高的趋势。结论 :端粒酶基因 h TR和 h TRT在多种癌及癌前病变组织中均为高表达且有很大相关性。端粒酶的激活发生在癌变早期 ,提示与癌的发生、发展密切相关。原位杂交技术检测h TR和 h TRT对恶性肿瘤诊断具有重要意义 相似文献
14.
通过献资料法阐述了运动对骨骼肌基因表达的影响,以便深入理解骨骼肌的工作原理,为客观指导运动训练提供依据. 相似文献
15.
基于Normalized Cut的基因表达数据聚类 总被引:1,自引:0,他引:1
利用基因表达数据进行聚类分析可提高肿瘤诊断的正确率,对生物医学研究具有重要意义.该文将Normalized Cut应用于基因表达数据的聚类中,将样本映射为高维空间的点,利用亲近矩阵和度矩阵构造正规Laplacian矩阵,经SVD分解得到反映原始样本类别信息的指示向量,利用指示向量各分量的符号差异实现基因表达数据的聚类.通过对白血病和结肠癌数据集的实验,证明了该文方法的有效性. 相似文献
16.
RNA沉默广泛存在于植物等大多数真核生物中,能够防御外源基因的入侵和调控基因表达等.然而,基因沉默抑制子HC-Pro蛋白的具体功能的研究并不十分清楚.本文重点介绍了基因沉默抑制子HC-Pro的表达载体pBI121-HC-Pro的构建及HC-Pro基因在烟草(Nicotiana benthamiana)中的稳定表达.并利用半定量RT-PCR技术检测了目的基因HC-Pro的表达,检测结果表明我们获得了HC-Pro基因稳定表达的转基因烟草株系,为进一步深入研究基因沉默抑制子HC-Pro的功能奠定了实验基础. 相似文献
17.
纳豆激酶基因克隆及其在大肠杆菌中活性表达研究 总被引:5,自引:1,他引:5
以纳豆芽孢杆菌基因组DNA为模板,PCR扩增了纳豆激酶基因(natto kinase gene)中编码前肽、成熟肽的核苷酸序列(pro-NK),构建大肠杆菌表达质粒pTYB102,转化大肠杆菌ER2566。在IPTG诱导下,分别在15℃(14h)、30℃(3h)、37℃(2h)条件下培养,pTYB102均能表达出有活性的纳豆激酶。实验证实纳豆激酶基因得到活性表达需要Pro序列。SDS-PAGE表明,15℃和30℃和37℃培养表达的杂蛋白更少。薄层扫描测定表达的纳豆激酶占菌体总蛋白30%以上。 相似文献
18.
19.
GT-3b转录因子是一个受NaCl和病原体诱导表达的GT-1-like转录因子,它能与GT-1 cis-element( GAAAAA)相互作用,促进下游基因的表达,在植物耐盐中起着重要的调节作用.通过分离了拟南芥(Arabidopsis thaliana)AtGT-3b基因,克隆到原核表达载体pCold TF中,并在大肠杆菌(Escherichia coli)BL21中进行融合表达;通过纯化得到AtGT-3b融合蛋白,以期用于研究其与GT-1顺式作用元件在体外的相互作用. 相似文献
20.
针对基因表达数据空间分布的特性,提出了一种基于模糊核判别分析的基因表达数据分析方法.方法综合了模糊数学以及核判别分析方法的优点,提高了对基因表达数据分类识别的准确性.以多发性骨髓瘤的基因表达数据为例进行了实验,从实验结果可以看出,采用模糊核判别分析方法可以得到最佳的识别效果. 相似文献