共查询到20条相似文献,搜索用时 0 毫秒
1.
针对高校图书馆中文图书的分类推荐个性化服务问题,结合本科专业课程体系,提出一种基于word2vec的中文文本分类的WV-TF-IDF模型.首先建立文本分类语料库FJCCT,接着利用基于神经网络的word2vec模型和TF-IDF进行文本特征计算,然后使用KNN和GBDT文本分类算法对比WV-TF-IDF和TF-IDF模型的效果.实验结果表明基于WV-TF-IDF模型GBDT文本分类算法的正确率更高. 相似文献
2.
建立一个评论有用性模型,该模型能够对在线商品评论进行有用性预测.基于精心建立的情感词典,联合基于神经网络构建的商品属性词典.设计了合理的匹配算法,采用随机森林算法和五折交叉验证对评论有用性不同特征进行准确率、召回值和F指标的预测.结果显示评论有用性方差值能够很好地反应评论的有用性.评论有用性模型能够对评论进行准确的预测,所预测的结果可以为消费者提供有效的参考. 相似文献
3.
4.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 相似文献
5.
6.
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信息的问题,引入word2vec模型实现情感词和其所在微博语句的向量化表达.在此基础上,利用KNN分类器实现微博句子级的多元情感分类.实验结果表明,扩充情感词典及引入word2vec模型均有助于提升微博文本多元情感分类的效果. 相似文献
7.
【目的】针对词主题信息与词相似性信息对关键词提取的影响进行了研究,提出一种改进的TextRank关键词提取方法。【方法】首先,使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型对文档建模计算词主题信息;其次,使用FastText生成词向量,并计算词相似性矩阵;最后,融合词主题信息与词相似性信息的综合权重来优化TextRank词汇节点的初始权重,并进行词图模型的迭代运算与关键词提取。【结果】实验表明,改进方法的提取结果优于传统方法。【结论】证明了考虑词主题信息的全局性与词相似性信息的局部性能有效提高TextRank算法提取关键词的性能。 相似文献
8.
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一.提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档.实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%~30%. 相似文献
9.
《清华大学学报(自然科学版)》2017,(3)
该文在研究不同的关键词提取方法的基础上,针对维吾尔语文本中的生气、高兴等常见情感类型进行情感辨识研究。结合维吾尔文本句子中的情感表达特点,用TextRank、稀疏判别分析(sparse discriminant analysis,SDA)和稀疏支持向量机(sparse support vector machine,Sparse SVM)等提取方法得到具有代表性的关键词集,并基于这些关键词集进行特征提取和情感模型构造。该文从电影电视剧中演员的维吾尔语台词、小说等文本中选取含有生气和高兴2种情感文本的句子,构造实验数据集并验证所提出的文本情感倾向性分析方法的有效性。实验结果表明:该文用多种方法所提取的关键词集都能有效地对维吾尔语文本句子进行情感分类,尤其是基于Sparse SVM的稀疏性分析的关键词提取方法在少量关键词语集上能有效地进行较高准确率的情感分类。 相似文献
10.
在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量表示和文档向量表示,再通过计算其中的余弦相似度来提取文本特征.该方... 相似文献
11.
根据渤海油田七年行动计划部署,现阶段勘探开发研究成果数量激增.目前,渤海油田勘探开发研究成果入库前分类工作主要依靠传统手动方式,效率低下且无法满足成果文档及时共享的需求.针对以上问题,提出一种基于Word2vec和卷积神经网络(convolutional neural networks, CNN)的文本特征提取方法并结合K-Means聚类算法对勘探开发阶段的成果文档进行自动分类.该方法在预训练word2vec向量的基础上基于自有开发成果文档标题语料库进行再训练,将低维向量的形式表征及文本的深层语义特征相结合,最后采用聚类算法对成果文档进行聚类.实验结果表明,在搜集的近7万份勘探开发成果文档数据集中,采用该方法使文档分类效率比手工方法提升了91.8%,标签获取准确率达93.6%,效率上和准确率都实现了较大提升. 相似文献
12.
关键词提取是问答系统中问句分析的重要步骤,它有助于问答系统快速、准确地返回答案。针对现有文献中基于T FIDF等方法在关键词提取准确率及效率方面的不足,提出一种基于平均信息熵的中文问句关键词提取方法。通过加入专业领域词汇,并在停用词过滤的基础上计算问句中每个词的平均信息熵,以词的信息熵值直接体现该词在问句中的重要性;同时在关键词提取过程中,通过设定不同提取比例,并在不同提取比例下观察评价标准值,以最佳提取比例获取更为合适的关键词。实验结果表明,与传统的T FIDF等其他方法相比,该方法的查准率、查全率以及 F1测度值都得到显著提高。 相似文献
13.
《合肥工业大学学报(自然科学版)》2015,(9)
互联网技术的快速发展导致信息爆炸式的增长。因此,在海量信息中查找关键信息变得非常困难,关键信息的提取技术就变得愈加重要,该关键信息通常表现为关键词。针对该问题,文章设计了一种无监督的关键词抽取算法,无需训练文档,根据候选词的统计特征和词性特征等直接从单个文档中提取关键词。实验表明,算法所提取的关键词优于现有算法所获取的关键词,同时,该算法的时间效率也优于现有的算法。 相似文献
14.
15.
针对当前LEM2系列算法提取规则的效率和质量不高的问题,提出了基于广义决策函数的改进LEM2算法(GLD-LEM2).该算法根据广义决策函数来计算候选属性-值对集T(G),通过删除冗余属性-值对来逐步缩小T(G)的规模,以提高规则提取的效率;同时,根据广义决策函数相交最小原则来选择属性-值对,优先提取最简规则,以提高获取规则的质量.实验结果表明,对于完备或不完备的决策表规则,GLD-LEM2算法均能有效地提高规则提取的效率和质量. 相似文献
16.
为清晰而明确地掌握社交媒体使用与用户信息窄化的关系及其作用程度,选取典型的社交媒体之一新浪微博(N = 7 825),分析微博使用度、活跃度、影响度的现实指标所伴随的用户信息窄化.从两方面实证考量用户内容在多种使用指标中的信息窄化.结合配对样本t检验的结果显示,微博媒介的使用程度越高的用户层级,其语义上的自我相似度越高,内容类型的分布均衡程度和丰富程度越低. 相似文献
17.
针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的影评数据集上进行实验.结果表明,Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能. 相似文献
18.
针对当下在公共社会领域中突发事件应急预案结构复杂、难以为决策者进行信息筛选、整合的热点问题,设计了一种基于中文关键词提取的预案智能匹配方案。该方案从预案的框架存储方式出发,分析了中文关键词的特征值与关键词权重调节因子的训练方法,并建立矢量空间模型来实现预案间的智能匹配。实验结果表明在预案智能匹配方案中运用此种中文关键字提取算法相比于传统tf*idf算法效果更佳。 相似文献
19.
一种基于知识粒度的关键词提取方法 《山东科学》2019,32(2):137-142
使用粗糙集中的等价关系来刻画粒度,粗糙集结合粒度计算方法,给出信息决策表的粒度表示,并将信息决策表中的属性重要度值作为启发信息,在相对约简的个数组合上进行Tabu搜索。此方法可避免无用的属性入选,有效去除可省属性及缩减搜索空间,提高了算法的高效性。 相似文献
20.
关键词在自然语言处理的各个领域有着十分重要的意义.对于中文自然语言处理,一词多义和多词一义问题始终是困扰研究人员的一个重大难题.传统的一些基于统计的方法,诸如KEA只是机械地统计了词频,而没有考虑词之间的关系.文中提出了一种基于同义词的中文关键词提取方法SKEA,并建立一阶隐马尔可夫模型进行词义消歧,将文本从稀疏的词空间映射到语义空间,从而实现了文本的降维.同时改进了KEA的位置权重公式,并提出新的关键词特征选取项.最后对SKEA方法和KEA方法进行比较实验,证明SKEA是一种更优秀的中文关键词提取方法. 相似文献