排序方式: 共有57条查询结果,搜索用时 15 毫秒
41.
基于聚类的文本过滤模型 总被引:4,自引:0,他引:4
为了帮助用户在因特网上搜索感兴趣的线文本,提出了基于聚类的文本过滤模型。其基本思想是:在预定的层次目录之下,根据用户给出的过滤模板进行动态扩张,以便于全面地反映用户信息需求。然后,通过对扩张模板的聚类分析,使得每一类由表达相同或相近兴趣的用户模板组成。匹配时,先将文本推送到相应的模板类中,再计算与具体模板的相似度,获得最终的匹配结果,以提高过滤效率。 相似文献
42.
评测是自然语言处理技术研究与发展的一个关键部分,同时也是最有争议的一个部分。作为自然语言处理范畴的中文文摘自动评测,较之英文文摘,有着更多的难点问题。在研究当前基于内容比较策略和基于数理统计策略两类自动文摘评测方法的基础上,提出了混合这两种策略的中文文摘自动评测方法,并通过两组不同实验验证了该评测方法的正确性与实用性。 相似文献
43.
法律文书命名实体识别是智慧司法的关键任务。现有的序列标注模型仅关注字符信息,导致在法律文书命名实体识别任务中无法获得语义和词语的上下文信息,且无法对实体的边界进行限制。因此,该文提出了一个融合外部信息并对边界限制的司法命名实体识别模型(semantic and boundary enhance named entity recognition, SBENER)。该模型收集了40万条盗窃罪法律文书,首先,预训练模型,将获得的司法盗窃罪词向量作为输入模型的外部信息;其次,设计Adapter,将司法盗窃罪的信息融入字符序列以增强语义特征;最后,使用边界指针网络对实体边界进行限制,解决了序列标注模型丢失词语信息及缺少边界限制的问题。该模型在CAILIE 1.0数据集和LegalCorpus数据集上进行实验,结果表明,SBENER模型在2个数据集上的F1值(F1-score)分别达88.70%和87.67%,比其他基线模型取得了更好的效果。SBENER模型能够提升司法领域命名实体识别的效果。 相似文献
44.
中文文本的可视化表示 总被引:5,自引:1,他引:4
由于辅助阅读的需求,给出了中文文本的可视化表示,以直观的方式逐级显示文本内容·其基本思想是:利用潜在语义索引的方法,改进文本分类的效果·利用文本层次分析方法,进行文本结构分解,给出了文本结构中各单元的标记信息,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能,帮助用户有目的、有选择地浏览文本,有助于信息处理的个性化 相似文献
45.
中文文本挖掘的特征导航机制 总被引:9,自引:0,他引:9
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系·鉴于中文文本的特点,提出了基于因子分析的文本特征抽取机制·通过识别文本中潜在的概念结构来抽取特征项,而且有助于改善向量空间模型中各个分量间的斜交现象·同时给出了基于概念的信息导航机制,按概念层次和上下文环境展现用户所关心的内容 相似文献
46.
导电填料复合材料的非线性导电行为可分为两大类,即在高压或强电流作用下发生不可逆非线性导电行为,以及在低压或弱电流作用下的宏观可逆非线性导电行为.文中阐述聚合物/导电填料复合材料在直流电、交流电作用下的可逆非线性导电行为,以及其相关导电机理,并展望非线性导电特性的应用前景. 相似文献
47.
诗歌作为一种重要的文学体裁体现着古代诗人的人格特征。目前研究主要基于现代语言的数据集进行人格分析,缺少对于古人的相关分析任务,影响数字人文领域研究进程和古代诗人的画像构建。因此,本文开展对于古代诗人进行人格特征分析的研究,并以大五人格理论为标注标准,构建了一个针对古代诗人的大五人格数据集,该数据集包括了581位唐宋两代著名诗人,参考现有的文学评论,对其宜人性、外倾性、神经质、开放性和尽责性进行标注。在此数据集上将语言模型与深度学习模型相融合,基于交叉熵损失函数进行人格特征等级的学习,提出了基于主题增强的大五人格特征预测模型。实验结果表明,准确率达到了0.71,证明所提出的数据集和模型对古代诗人人格特征分析和建模研究有着良好的促进效果。 相似文献
48.
门户网站、博客和论坛中的新闻性文章很多具有倾向性,倾向性判别对了解社会动态和舆情状况有重要作用。在主题相关性的基础上,主要考虑了三类属性:位置属性、情感属性、特征词属性,提出了一种针对篇章级的情感关键句抽取方法,并通过集成学习判别情感关键句的极性。实验结果显示本文方法能够有效地挖掘出情感关键句并能对情感关键句进行较准确的极性判别,实现了情感关键句,抽取和极性判别的自动化,且具有较好的效果。 相似文献
49.
观点挖掘技术旨在面向更为广阔的产品领域,从文本中自动获取观点所评价的对象,并有针对性地分析评论的倾向性.本文通过建立ChunkCRF模型对观点表达句中显式观点评价对象的识别;借助句法关系对句中出现多个评价对象的问题进行处理;利用语义搭配习惯对隐式评价对象进行填充生成.在此基础上,本文实现了基于观点评价对象的观点抽取与观... 相似文献
50.
与服药相关的社交文本中隐藏着更具时效和更广泛的药物不良反应信息,但是从相对短小、稀疏的社交短文本中提取药物不良反应非常困难。基于此,本文提出一种双向语言预训练模型和注意力机制相结合的神经网络识别方法。该方法利用双向字符级语言预训练模型提取特定字符级特征,而且在提取药物不良反应的同时,通过注意力机制捕获局部和全局语义上下文信息。此外,为了提高该方法的效率,将字符级特征与词级特征相结合,并采用词级预训练和字符级预训练模型代替协同训练。在PSB 2016社交媒体挖掘共享任务2中的实验结果表明,字符特征在形态学上有助于区分药物不良反应,而注意力机制通过捕获局部和全局语义信息提高了对药物不良反应的识别性能,宏平均F1值为82.2%。 相似文献