排序方式: 共有14条查询结果,搜索用时 125 毫秒
1.
基于主题模型的中文词义归纳 总被引:1,自引:0,他引:1
词义归纳是在给定包含多义词语料的条件下,识别出多义词词义的过程,通常是采用聚类的方法.本文提出了基于主题模型的方法来解决中文词义归纳问题,基于主题模型的词义归纳方法关键之处在于使用文档的主题概率分布来推断多义词的词义分布.实验结果表明,本文方法在测试数据上获得了77.58%FScore值. 相似文献
2.
在地理信息系统建设中,许多问题的解决关系到系统建设的成败。本文对地一信息系统建设中的经费保证、系统选择、人员组织、数据建设以及部门协作等重要问题进行了探讨。 相似文献
3.
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现,提出的方法在CoNLL2003数据集上模型召回率提高3.26%,F_1值提高1.70%;在JNLPBA数据集上召回率提高2.44%,F_1值提高1.03%.实验结果表明,提出的方法能够有效地缓解类别标记失衡问题达到提高命名实体识别效果的目的. 相似文献
4.
针对目前城市功能区划分大多依靠人工完成,且未充分使用城市中时空数据的问题,提出一种基于时空语义挖掘的城市功能区识别方案.首先,选取某城市矩形区域为研究样本,并以建筑物为划分依据将研究样本划分为有效的基础区域;然后,对各基础区域内的新浪微博位置签到数据及POI(Points of Interest)数据进行时空语义挖掘,采用狄利克雷多项式回归(DMR)主题模型生成区域的功能性向量;最后,通过向量聚类,依据POI类别比例完成区域的功能性识别.实验结果表明,本方案相比基于POI密度的k-means聚类方案和基于潜在狄利克雷分布(LDA)主题模型的城市功能区识别方法具有更高的准确性,位置签到数据所表征出的人们活动模式可以揭示城市功能区之间的差异,在城市地理空间分析上具有良好的效果. 相似文献
5.
为解决以往顶煤冒放性评价方法存在的计算过程复杂,不能生成评价规则而不便于推广的缺点,采用数据挖掘技术中决策树算法对30个矿井的顶煤冒放性进行分类研究,在此基础上生成了一棵顶煤冒放性评价决策树,并由此形成了一系列评价规则,最后就该算法的应用效果进行评价。 相似文献
6.
土壤某些特征的分布与地形的关系 总被引:1,自引:0,他引:1
何祥 《云南师范大学学报(自然科学版)》1998,18(4):92-94
土壤的理化性状和地形有着密切的关系,本文以位于中亚热带北部边缘的宜兴市的土壤为例,对这种关系进行了统计分析,分析结果证实,坡度,分布下限与分布上限有着各自能反映的土壤特征。此外,土壤特技在淋溶,迁移和聚集过程中,还受到各种因素作用距离长短的重要影响。 相似文献
7.
何祥 《大众科学.科学研究与实践》2007,(2)
病虫害是造成水稻减产的主要因素之一,研究提高水稻对病虫害的抗性,是重要的课题。水稻又是单子叶禾本科的模式植物,玉米、水稻、小麦等主要粮食作物都是单子叶禾本科植物。水稻的研究必将在理论和实践上推动其它粮食作物相关研究领域的发展。 相似文献
8.
地理信息分类是地理信息系统(GIS)信息编码的基础,在GIS应用推广中具有控制性质的基础作用。研究和实验性检验证实:地理信息分类系统不能是现有的分类系统简单归并。据此,遵循地理信息分类和原则,结合云南省的实际情况,拟定了一个4级分类系统。它具有较强的系统性、科学性、可扩延性,消除了派生信息并保证了信息的基础性。它克服了现有系统中存在的问题,具有实用性。在这个信息分类系统基础上编制的信息代码码长短, 相似文献
9.
非结构化文本资源提供了大量与漏洞相关的信息,传统的特定领域实体识别依赖特征模板和领域知识来识别相关实体,其识别性能很大程度上依赖于人工选取的特征函数质量.如何利用机器挖掘文本隐含的特征,而不需要人工详细地制定领域术语的特征表达是一项具有挑战性的任务.该文针对安全漏洞领域,提出一种双向长短期记忆网络BLSTM与条件随机场CRF相结合的安全漏洞领域实体识别模型,并使用基于词典的方法对结果进行校正,F值可达到85%以上.实验表明,该方法在提高实体识别的准确率和召回率的同时,能够显著地降低人工选取特征的工作量. 相似文献
10.
针对自适应增强回归阈值(adaptive boosting regression threshold, AdaBoost.RT)算法用于判断训练样本好坏的阈值为常数,不能自适应地对每个测试样本动态调整判断标准的问题,提出了一种动态自适应调整阈值的改进AdaBoost.RT算法。通过引入训练结果的均值与标准差构造奇异系数作为判断相对误差的阈值,实现算法训练计算过程中阈值的自适应调整,在提高预测精度的同时,可以减少选择算法参数带来的繁重工作量。采用4组经典测试函数构造不同规模的训练样本数据进行算法检验,实验结果表明,提出的自适应调整阈值算法可以有效利用测试样本之间的差异性,克服了大噪声数据带来的干扰,改进后的集成算法可以改善回归模型的预测效果,提高模型的泛化性能。利用IEEE PHM 2012数据集验证所提方法的有效性,并与极限学习机(extreme learning machine, ELM)和原始AdaBoost.RT算法进行对比分析。结果表明:采用所提方法获得的轴承寿命预测均方根误差降低了5.18%,决定系数提高了3.11%。 相似文献