期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

结合优化文档频和变精度粗糙集的特征选择方法 总被引：1，自引：0，他引：1

朱颢东钟勇《河南大学学报(自然科学版)》2009,39(5)

在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把变精度粗糙集引入进来并提出了一个基于信息熵的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该综合算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法比最好的3种经典特征选择方法"互信息"和"统计量"以及文档频都要好. 相似文献

2.

改进的支撑向量机(SVM)算法在邮件过滤中的应用

向学哲《华中师范大学学报(自然科学版)》2007,41(1):31-34

垃圾邮件问题日益严重,受到研究人员的广泛关注.通过利用基于词频的权值计算,同时改进传统文本相似度计算概率模型,改进SVM算法实现邮件过滤系统.实验表明在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有明显改善. 相似文献

3.

改进的PPM数据压缩算法及性能分析和比较 总被引：1，自引：0，他引：1

周小四杨杰王淑华《上海交通大学学报》2002,36(12):1841-1845

PPM算法在文本无损压缩方面具有比LZ算法更高的压缩率。PPM算法分建模和编码两步，在建模时有两种方法选择上下文模型，一种是固定最大长度上下文，即PPM；另一种是不固定最大长度上下文，即PPM^*．在VC 环境下利用PPM^* D算法编制的压缩软件，通过对文本、图像、声音文件以及可执行文件进行实验，效果令人满意，其压缩率都比Winzip要高．相似文献

4.

一种基于词频歧义消解的通用中文分词法

《广西师范大学学报(自然科学版)》2016,(1)

歧义是在基于词典的分词方法中常见的问题,以往的基于词典的分词方法往往使用双向最大匹配法获得分词结果后,通过使用上下文信息来进行歧义消解,但是对于没有上下文信息的单独语料无法进行歧义消解。本文提出一种通用的基于词频的歧义消解法,该方法是与上下文无关的,能够消解没有上下文信息的语料切分后产生的歧义,扩大了歧义消解的应用范围,简化了歧义消解的处理过程。实验表明:文本方法与传统基于词典的分词算法相比,具有更强的适用性及更高的可用性。相似文献

5.

一种基于改进信息增益特征选择的最大熵模型文本分类方法

何明《西南师范大学学报(自然科学版)》2019,44(3):113-118

针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的. 相似文献

6.

基于贝叶斯粗糙集的文本特征选择方法 总被引：3，自引：1，他引：2

朱颢东钟勇《河南师范大学学报(自然科学版)》2009,37(4)

特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的. 相似文献

7.

中文文本中评价对象省略识别方法

朱珠汪蓉李寿山周国栋《北京大学学报(自然科学版)》2015,51(2):315-320

为了研究中文情感文本中评价对象省略现象的识别方法, 将评价对象省略识别建模为一个二元分类问题, 利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域的实验结果表明, 新提出的基于机器学习的评价对象省略识别方法能够获得较好的识别效果。相似文献

8.

一种改进型TF-IDF文本聚类方法

张蕾姜宇孙莉《吉林大学学报(理学版)》2021,59(5):1199-1204

针对传统词频逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足, 尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题, 提出一种改进的TF-IDF文本聚类算法. 采用2015—2019年吉林省科研机构发表论文数据进行对比实验, 分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频, 再通过K-means++算法进行聚类, 最后使用随机森林算法分别评估聚类的准确性. 实验结果表明, 改进TF-IDF算法提高了分类的准确率. 相似文献

9.

基于百度的词语上下文获取算法

方莹《科技信息》2008,(18):49-50

关键字的上下文环境是自然语言处理的基础知识,其自动抽取是很多研究的基础和关键。本文主要研究了从百度搜索页面中提取出搜索关键字的文本信息,并将这些文本信息进行分词处理,最后基于去重算法将词语上下文去重的方法。算法的关键过程包括关键字的环境提取、文本分词和提取到的信息的入库三部分。相似文献

10.

基于关键词的文本向量化与分类算法研究

苏玉龙张著洪《贵州大学学报(自然科学版)》2018,(3)

针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。相似文献

11.

Query expansion based on semantics and statistics in Chinese question answering system

Keliang Jia Xiuling Pang Zhinuo Li Xiaozhong Fan 《武汉大学学报:自然科学英文版》2008,13(4):505-508

In Chinese question answering system, because there is more semantic relation in questions than that in query words, the precision can be improved by expanding query while using natural language questions to retrieve documents. This paper proposes a new approach to query expansion based on semantics and statistics Firstly automatic relevance feedback method is used to generate a candidate expansion word set. Then the expanded query words are selected from the set based on the semantic similarity and seman- tic relevancy between the candidate words and the original words. Experiments show the new approach is effective for Web retrieval and out-performs the conventional expansion approaches. 相似文献

12.

文字云及主题模型的统计挖掘

程玉胜梁辉《安庆师范学院学报(自然科学版)》2014,(1):32-35,53

互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据，如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现，成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式，利用文字云和主题模型文本挖掘方法，对文本进行移除数字、去除停用词等预处理操作，然后执行中文分词，构建语料库，建立文档-词条矩阵，最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言，以多年粗糙集会议纪要为实验数据进行了相关统计分析，并对比了 Tagxedo文字云生成器，结果表明，从文字云中比较容易获取文本的重要信息如主题模型等，挖掘效果较好。相似文献

13.

基于词语相关度的文档主题抽取算法

袁晓峰《成都大学学报(自然科学版)》2012,31(4):367-369

考虑到文档中出现频率较高的词语能够体现文档的主题，设计了一种中文文档主题抽取算法．该算法首先对目标文档进行预处理，然后计算文档中每个词语的出现频率，用出现频率最高的几个词语作为文档的主题．其中，将词语间的相关度作为计算出现频率的参考因素．词语相关度的计算是基于中文知识库《知网》的方法．实验证明，本算法具有较高的准确性．相似文献

14.

基于模型匹配的Deep Web数据库分类

郭东伟李三义张仲明刘淼《吉林大学学报(理学版)》2011,49(3):487-492

提出一种基于模型匹配的深网（Deep Web）在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性. 相似文献

15.

基于改进的正向最大匹配中文分词算法研究

王惠仙龙华《贵州大学学报(自然科学版)》2011,28(5):112-115,119

中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文... 相似文献

16.

基于特征融合的中文文本情感分析方法

赵宏傅兆阳王乐《兰州理工大学学报》2022,48(3):94

针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率. 相似文献

17.

A New Fragile Watermarking Scheme for Text Documents Authentication

XIANG Huazheng SUN Xingming TANG Chengliang 《武汉大学学报:自然科学英文版》2006,11(6):1661-1666

0 IntroductionDigital watermarkingis a technique toinsert a digital sig-natureinto ani mage sothat the signature can be extrac-ted for ownership verification and/or authentication. Robustwatermarks are generally used for copyright and ownershipverification,whilefragile watermarks are useful for authentica-tion and integrity attestation[1 ,2]. Afragile watermark pro-vides a guarantee that the digital data has not been tamperedwith and came fromthe right source,soit may be called au-thentication… 相似文献

18.

Keyword Extraction Based on tf/idf for Chinese News Document

LI Juanzi FAN Qi＇na ZHANG Kuo 《武汉大学学报:自然科学英文版》2007,12(5):917-921

Keyword extraction is an important research topic of information retrieval. This paper gave the specification of keywords in Chinese news documents based on analyzing linguistic characteristics of news documents and then proposed a new keyword extraction method based on tf/idf with multi-strategies. The approach selected candidate keywords of uni-, hi- and tri-grams, and then defines the features according to their morphological characters and context information. Moreover, the paper proposed several strategies to amend the incomplete words gotten from the word segmentation and found unknown potential keywords in news documents. Experimental results show that our proposed method can significantly outperform the baseline method. We also applied it to retrospective event detection. Experimental results show that the accuracy and efficiency of news retrospective event detection can be significantly improved. 相似文献

19.

基于内容信任的Web信息可信度验证方法研究

徐静杨小平柳增《北京理工大学学报》2014,34(7):710-715

Web已经成为人们获取信息的重要来源,但Web上的信息并不都是真实可信的. 因此,如何帮助用户快速判断Web上大量信息的可信性成为一个亟待解决的问题. 文中提出一种基于内容信任的方法用以验证Web信息的可信程度. 采用条件随机场模型进行Web信息的主题提取,利用提取的主题在Web上搜集候选证据,并利用时效性、主题相关度等特征验证候选证据的可靠性,最后进行可信度计算. 实验结果表明提出的方法对评价Web信息的内容可信度是有效可行的. 相似文献

20.

面向证券领域的本体建模及资源检索框架

郭炜何丕廉《天津大学学报(自然科学与工程技术版)》2007,40(5):569-573

为了提高专业领域内信息检索的查准率，使检索结果在语义层面能够重新进行排序以去除非相关条目，利用语义Web中的本体技术和本体标准描述语言OWL建立了证券领域本体，并且基于证券领域本体提出了面向专业领域的信息资源检索系统IRS—SA，该系统有助于机构或者个人投资者获得及时有效的证券信息．系统接受输入检索关键词从而利用查询转化器自动构造或扩展用户查询，将自然语言查询转化为系统内部的格式后，使检索获得的结果按照本体中定义的概念及关系进行语义再排序，并将最后所得结果返回给用户，提高了文档语义相关性程度．相似文献