排序方式: 共有57条查询结果,搜索用时 0 毫秒
31.
隐喻是自然语言中比较常见的语言现象,在情感计算过程中有些句子的情感是由隐喻引起的,因此隐喻问题的解决将影响情感计算的结果.为此结合相关的隐喻理论,从机器学习的角度,对汉语文本中的显性隐喻的识别进行研究.以本体和喻体所属的范畴不同作为切入点,首先利用词性标注和依存句法分析提取句子中的本体词汇和喻体词汇,然后进行范畴划分和词汇语义相似度计算,最后使用支持向量机进行学习,从而对特定的隐喻句子进行识别.这一研究对后续的隐喻自动识别和隐喻理解起到了一定的作用. 相似文献
32.
提出了基于知网概念特征的文本综述方法,探讨了语句相似度计算、主题区域发现、新颖度获取和综述生成等关键技术.通过对知网的改造,获取了关键词的概念特征,实现了同义词概念扩充,在文档语义相关性基础上,实现了多文档的自动综述.采用一种基于综合评价理论的文本综述评价方法,从综述的表达质量、表述内容和基于Q8LA的信息性评价三个方面实现了对综述的评价.实验结果表明该方法有效可行. 相似文献
33.
立场检测是分析文本作者对某一话题所表现的立场倾向性是支持、反对还是中立,是舆情分析的重要研究方向。本文针对现有的大部分立场检测方法无法充分建模话题信息,很难联合分析话题与相应文本的现状,提出了一种两阶段注意力机制的立场检测方法。第一阶段利用注意力机制学习话题整体语义表示,第二阶段将话题表示与文本表示进行注意力匹配,进而得到融合特定话题的文本表示向量,最后对该语义表示进行分类。实验结果表明,该模型在新疆反恐话题的语料上Acc和F值指标分别提高了0.4%和1%,在NLPCC-2016立场检测任务数据集的4个话题上取得了较优的效果。 相似文献
34.
排序学习已经在信息检索和机器学习领域中获得了广泛的关注,一系列的排序学习理论主要是基于3种排序样本构造方法提出的,分别是:单文档方法(pointwise)、文档对方法(pairwise)、文档列表法(listwise)。特别地,文档列表法中的组排序的方法可以有效地提高排序的性能。将这些方法与损失函数相结合来提高组排序的性能,基本思想是融合不同的损失函数来扩充基于神经网络方法的损失函数。首先,本文提出了一种基于J氏距离(Jeffrey’s divergence)的组样本损失函数的构造方法;然后,基于该组排序的方法,提出了一种与其他损失函数进行融合框架,在LETOR3.0数据集上比较了所提出方法的性能;最后,实验结果表明所提出的加权损失函数融合方法能够有效地提高查询的相关性排序结果。 相似文献
35.
用户成长值反映用户粘性,预测用户成长值有助于实现精准营销。聚焦用户成长性画像研究,针对用户原始数据记录复杂多样、难以提取有效特征的问题,通过散点图分析挖掘影响用户成长值的因素,提取行为特征和相对稳定的时间特征,并对比基于树的特征筛选算法和L1范数进行特征筛选。针对已标注成长值的用户数据不足问题,改进COREG算法,通过半监督学习模型丰富训练数据,提高模型的预测准确度,同时降低原算法的时间复杂度,最后采用模型融合整合不同模型的优势。在CSDN博客平台提供的SMP CUP 2017数据集上进行实验,结果表明,建立的模型有效地提高了泛化能力和预测准确度。 相似文献
36.
目前,各高校的就业指导工作尚不完善,许多毕业生在求职初期缺乏目的性和针对性,在应聘并不适合自己的企业上耗费了大量的时间和精力,由此导致就业难度加大.在此情况下,我们设计开发了高校毕业生就业推荐系统.系统从大连理工大学就业实际工作出发,通过比较应届和往届毕业生基本特征,并结合基于随机游走模型的PageRank算法获得的各... 相似文献
37.
化学物(药物)致病关系在生物医学领域广受关注。文章提出一种从生物医学文献中抽取化学物致病关系的方法 MICNN,首先基于多示例学习的思想,将化学物疾病实体对与多个示例对齐,然后训练一个文档级别的卷积神经网络,使用多示例同时抽取位于同一文档中句间和句内级别的化学物致病关系,有效减弱了现有方法中因单示例存在噪音而对抽取性能造成的损害。实验结果表明,MICNN仅使用了词向量特征、位置特征和实体特征三种基本特征,就在BioCreative V CDR任务提供的测试集上取得很好的性能表现。 相似文献
38.
近年来,基于深层语义信息表征的pointwise重排序策略存在忽略被检索文档之间的偏序关系的问题,并且,患者病例查询的内容表征也需要满足生物医学领域的特定需求。针对以上问题,本文提出了一种基于生物医学预训练语言模型(BioBERT)的偏序文档检索方法,该方法基于BM25召回文档,对待排序文档依次使用pointwise与pairwise提取特征,其中,pointwise方法能够获取待排序文档的全局位置特征,而引入查询特征的pairwise方法可以学习待排序文档之间的相对偏序关系。在TREC 2019 Precision Medicine Track数据集上的实验表明,该方法在p@10指标中,相比于最优的基准方法提升了3.3%。 相似文献
39.
提出了一种将监督学习和半监督学习融合的方法,并用于从文献中自动抽取蛋白质关系.在AImed语料上的实验得到63.2%的F值,这表明该方法达到目前较好的性能. 相似文献
40.
与服药相关的社交文本中隐藏着更具时效和更广泛的药物不良反应信息,但是从相对短小、稀疏的社交短文本中提取药物不良反应非常困难。基于此,本文提出一种双向语言预训练模型和注意力机制相结合的神经网络识别方法。该方法利用双向字符级语言预训练模型提取特定字符级特征,而且在提取药物不良反应的同时,通过注意力机制捕获局部和全局语义上下文信息。此外,为了提高该方法的效率,将字符级特征与词级特征相结合,并采用词级预训练和字符级预训练模型代替协同训练。在PSB 2016社交媒体挖掘共享任务2中的实验结果表明,字符特征在形态学上有助于区分药物不良反应,而注意力机制通过捕获局部和全局语义信息提高了对药物不良反应的识别性能,宏平均F1值为82.2%。 相似文献