首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
文本分类技术是文本挖掘的核心,本文简单介绍了该研究热点的研究动态、定义并针对其系统结构给出了一个简要的概述,然后分析了文本分类处理过程中的关键技术,最后对依然存在的某些问题进行了展望。  相似文献   

2.
文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。  相似文献   

3.
针对观点检索问题,把主题检索和情感分析相结合,通过构造情感词典、程度词典等,利用SVM对文本进行主客观分类,构造正则表达式进行中文句式识别,提出了计算文本褒贬倾向的方法,结合主题相关性和情感强度计算置信度.在COAE2009的任务5-观点检索的评测中,取得了较好的结果.  相似文献   

4.
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台.该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究.实验结果表明: 该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题.  相似文献   

5.
使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究,对目前应用较多的k近邻、支持向量机和最大熵模型,分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示,在相同的条件下最大熵方法的分类性能最好,支持向量机次之,k近邻稍差。同时发现,在分类过程中引入了词语频率信息时,分类器的性能略有变化,对于最大熵分类准确率下降1%~2%,对于k近邻有所上升,对于支持向量机则相当。除去文本的特殊性影响,这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。  相似文献   

6.
随着社交网络的兴起,更多人选择在网络上发表自己对影视作品的观点,这为影视投资人了解观众对电影的反馈提供了更方便的途径.例如,豆瓣影评中包含了海量用户或积极或消极的情感观点,而分析豆瓣影评的情感倾向能够辅助投资人进行决策,提升作品质量.大量数据分析必须借助计算机技术手段完成,其中情感分析是自然语言处理(natural language processing, NLP)的一个方向,常用来分析判断文本描述的情绪类型,因此也被称为情感倾向分析.为了提高影评情感分类的准确率,设置了多组对比实验来选择最优参数,比较了当以中文字符向量和词向量为输入矩阵时,双向长短期记忆(bidirectional long short-term memory,Bi-LSTM)模型和卷积神经网络(convolutional neural network, CNN)模型对分类准确率的影响.提出了一种以CNN模型为弱分类器的Bagging算法,训练了多个CNN模型,并采用投票法决定最终的分类结果.这种集成的方法减少了单个模型造成的分类偏差,比单一的Bi-LSTM模型的分类准确率提高了5.10%,比单一的CNN模型的分类准确率提高了1.34%.  相似文献   

7.
中文分词技术是中文信息处理的基础,快速、准确的中文分词方法是进行中文信息搜索的关键。基于N-最短路径的分词算法,需要计算有向图中从起点到终点的所有路径值,分词效率低,将动态删除算法与最短路径算法结合,通过从最短路径中删除部分节点的策略减少搜索路径范围,从而提高分词效率。  相似文献   

8.
基于《知网》语义知识资源,提出一种基于问句相似度计算的问答社区问题去重方法。通过计算已有问题集合中问题间的语义相似度,将其中重复度较高的问题进行筛选并去除,从而提高用户获取所需信息的效率,改善用户体验。在"爱问知识人"的真实问题集上的实验结果表明:该方法获得了较好的去重效果。  相似文献   

9.
细粒度情感分析是自然语言处理的关键任务之一,针对现有的解决中文影评情感分析的主流方案一般使用Word2Vector等预训练模型生成静态词向量,不能很好地解决一词多义问题,并且采用CNN池化的方式提取文本特征可能造成文本信息损失造成学习不充分,同时未能利用文本中包含的长距离依赖信息和句子中的句法信息。因此,提出了一种新的情感分析模型RoBERTa-PWCN-GTRU。模型使用RoBERTa预训练模型生成动态文本词向量,解决一词多义问题。为充分提取利用文本信息,采用改进的网络DenseDPCNN捕获文本长距离依赖信息,并与Bi-LSTM获取到的全局语义信息以双通道的方式进行特征融合,再融入邻近加权卷积网络(PWCN)获取到的句子句法信息,并引入门控Tanh-Relu单元(GTRU)进行进一步的特征筛选。在构建的中文影评数据集上的实验结果表明,提出的情感分析模型较主流模型在性能上有明显提升,其在中文影评数据集上的准确率达89.67%,F1值达82.51%,通过消融实验进一步验证了模型性能的有效性。模型能够为制片方未来的电影制作和消费者的购票决策提供有用信息,具有一定的实用价值。  相似文献   

10.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

11.
基于FOA-SVM的中文文本分类方法研究   总被引:2,自引:0,他引:2  
中文文本分类方法直接影响分类性能,支持向量机(SVM)在处理文本分类这种高维问题上有明显的优势.SVM的分类精度取决于核函数的核参数和惩罚参数,本文提出了一种用果蝇优化算法(FOA)获取SVM参数的FOA-SVM方法.将FOA-SVM用于中文文本分类,实验结果表明,FOA-SVM能得到较高的分类准确率,在文本分类上表现较强的鲁棒性.  相似文献   

12.
Web中的客户评论信息挖掘是大数据分析中的一项重要内容.分析客户评论中所包含的产品特征情感倾向,不仅可为消费者购买产品提供更具体的决策支持,还能有效帮助企业改进产品质量.针对商业应用的实际需要,提出了一种自动从中文客户评论中抽取产品特征并判断其情感倾向的方案.基于frequent pattern-tree (FP-tree)方法提取产品特征,结合基于语料库的方法和依存句法分析方法识别关于产品特征的主观评论语句、情感词及其情感词的依存关系,综合考虑情感词、否定词、程度词计算产品特征的情感倾向值.采用公开数据中的600篇手机评论作为实验数据,检验了算法的准确性.对比分析的结果说明,算法有很好的应用潜力,能够有效地从网络评论中获取有价值的商业信息.  相似文献   

13.
在薄膜润滑的无限短径向轴承中,薄膜间隙和吸附层厚度对润滑剂的影响不可忽视.引用薄膜润滑的等效粘度模型推导无限短径向轴承的等效粘度计算模型以获得薄膜润滑无限短轴承的解析解,并运用该模型进行薄膜润滑条件下无限短径向滑动轴承的性能分析,确立了参数与轴承性能变化之间的关系,为工程实际计算提供了理论依据.  相似文献   

14.
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的...  相似文献   

15.
以多层感知器(MIP)与支持向量机(SVM)集成手段为分析工具,研究治疗骨性关节炎疾病的中药复方药物的分类判断,得到复方药物中分歧药物的分类和关键药物的选择.同时结合模式分类规则得到最相似药物的分类,为中药复杂组效关系的阐明及OA中药新药的研制提供了重要基础数据.预测结果与该疾病的临床试验结果进行比较,分类结果与中医理论相吻合.  相似文献   

16.
文章提出了一种基于内容的手机短信分类系统的设计方案.该方案根据短信内容,采用分词技术和贝叶斯机器学习方法,设计基于短信接收者个性化分类和短信中心端自主学习的二层分类方法,实现短信个性化内容分类及其分类结果的增值应用.实验结果表明,本方案可以较为精确地实现短信的个性化内容分类,分类结果可以方便地应用于第三方的增值应用.  相似文献   

17.
商品评论是消费者针对某一个商品的主观议论。针对微博中商品的评论文本短小、结构多样等特征,在仅使用现有的微博级情感标注的条件下,提出了一种基于层叠条件随机场模型。以中文小句中枢说为理论基础,将商品评论的句子划分为若干小句,使用微博内小句序列的各种特征训练粗粒度的随机条件场情感分类模型,同时使用小句内汉字序列的各种特征来训练细粒度的随机条件场情感分类模型。实验结果表明,本文提出的方法优于传统的情感分类方法。  相似文献   

18.
文本情感分类领域性强,传统情感分类方法在多领域混合数据上效果不佳.为了提升多领域混合情境下文本情感分类的准确率,使用双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到短文本的初级表征;利用对抗网络提取与领域无关的情感特征;利...  相似文献   

19.
基于VSM的中文文本分类系统的设计与实现   总被引:25,自引:0,他引:25  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号