摘 要: | 文章用GOOGLE开源的Word2Vec工具把藏文文本《贤者喜宴》经过分词后的语料作为输入,将文本中的词映射到一个K维空间,利用词汇的上下文信息将词转变为词向量.Word2Vec工具再通过学习得到一个向量模型,每一个词都用一个独特的词向量来表示.训练文本数据构造一个词表,然后学习词的向量表示.词向量能够捕获许多语言的规律,从而得出词与词之间的距离即相似度.进一步通过高频词汇作为输入,通过训练即可输出与高频词汇距离最近的词汇,以高频词和与其相近的词汇作为重要信息去预测文本的大致语义.实验结果表明基于Word2Vec训练模型的准确率和召回率都很高.
|