共查询到20条相似文献,搜索用时 140 毫秒
1.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本. 相似文献
2.
3.
4.
针对网络舆情分析领域,研究了系统聚类、String Kernels、K最近邻算法(K-nearest neighbor,KNN)、SVM(support vector machine)算法以及主题模型5种聚类算法。以网络舆情数据为对象集,以R语言环境为实验工具,比较了这5种算法的优势与劣势,同时进行了仿真实验。实验结果表明,主题模型相对于其他算法在文本聚类方面具有更好的适用性,其中,主题模型中的CTM(correlated topic model)方法更适合于类别关系的探索与发现,而Gibbs抽样方法则在文本聚类上的表现优于CTM方法。 相似文献
5.
《西北民族学院学报》2016,(3)
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显. 相似文献
6.
针对藏文图像文本识别在Android系统上的应用问题,提出了一种基于混合注意力机制神经网络模型(CBAM-LeNet-5)的藏文图像文本识别方法,并采用Android平台研发了APP,实现印刷体藏文文本图像预处理、字丁分割以及识别等功能.经实验,改进后的网络模型比传统的LeNet-5模型识别率提高了2.36个百分点,表... 相似文献
7.
8.
基于关联语义链网络提出了一种自适应分裂的文本聚类方法. 该方法通过从关联语义链网络中检测出各个社团结构作为文本集中的类别, 以避免对聚类数目的预先确定. 同时, 针对高维稀疏的词向量导致的文本之间或文本与类之间相似性低的问题, 将关联语义链网络中词与词之间的关联关系映射到文本与类之间的关联关系中去, 以增强文本与类之间关系的强度. 通过与其他主要聚类方法进行实验对比, 发现该聚类方法不仅能够对文本集合进行准确的聚类, 而且能够较准确地确定聚类中心数目和识别出文本集中的话题信息. 相似文献
9.
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案. 相似文献
10.
11.
12.
基于向量空间的信息检索模型VSM,以其简洁直观、检索结果和排序效果良好等优点,在信息检索领域得到普遍的应用。文章结合藏文文本的特点,研究VSM在藏文文本信息检索中的应用方法。 相似文献
13.
一种增量式文本软聚类算法 总被引:1,自引:0,他引:1
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类. 相似文献
14.
气象服务文本是为赛事顺利举行及赛事期间的各项活动提供必要的气象保障,是组委会、裁判、各代表队的工作人员获取气象信息开展相关工作的载体。现有气象文本生产需要人工编写审核,效率不高。相比之下,全自动文本生成更加依赖于模板和固定的形式。针对以上问题,结合自然语言处理技术提出了基于知识图谱的冬奥赛事气象服务文本生成方法。重点从历史赛事气象服务文本中进行内容分析和特征提取,利用气象数据和历史赛事信息构建了高山滑雪赛事知识图谱。该方法根据实时气象数据和文稿模板生成天气描述文本,然后基于知识图谱查询推理技术得到赛事影响结果并生成相应文本。实验结果表明,气象服务文本的自动生成结果具有较好的准确性和可读性,有助于冬奥赛事的顺利推进,该文本生成方法面向特定领域也具有较好的应用前景。 相似文献
15.
基于聚类的文本过滤模型 总被引:4,自引:0,他引:4
为了帮助用户在因特网上搜索感兴趣的线文本,提出了基于聚类的文本过滤模型。其基本思想是:在预定的层次目录之下,根据用户给出的过滤模板进行动态扩张,以便于全面地反映用户信息需求。然后,通过对扩张模板的聚类分析,使得每一类由表达相同或相近兴趣的用户模板组成。匹配时,先将文本推送到相应的模板类中,再计算与具体模板的相似度,获得最终的匹配结果,以提高过滤效率。 相似文献
16.
本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性. 相似文献
17.
介绍了3种用于文本聚类的特征选择方法:文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果. 相似文献
18.
刘丽华 《重庆大学学报(自然科学版)》2022,45(5):147-156
随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。 相似文献
19.
为提高Web 搜索精度和检准率, 在后缀树聚类算法基本模型的基础上, 提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合, 改善了基类合并的效果, 综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件, 改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明, 该方法在一定程度上提高了聚类结果的准确率。 相似文献
20.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果. 相似文献