期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐忠健陈孚任小龙刘群《井冈山大学学报(自然科学版)》2012,(5):54-58

基于TFIDF(Term Frequency Inverse Document Frequency)算法,结合用户通话圈运用呼叫指纹方法分析用户的交往圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等特征,构建家庭关系识别模型,进而挖掘家庭关联关系的手机与固话在呼叫圈相似度、平均每天通话次数、平均每次通话时长等变量上的相关性,为发现手机号码与家庭固定电话之间的关联关系提供了有效的技术手段,并有效地应用于固移捆绑套餐和可选套餐的目标客户的识别。从实际营销效果来看,该模型的使用有利于帮助市场营销人员快速、方便、有效地开展融合套餐的销售,在降低营销成本的同时提高了营销效果。相似文献

2.

ISTC： A New Method for Clustering Search Results

Wei Zhang Baowen Xu Weifeng Zhang Junling Xu 《武汉大学学报:自然科学英文版》2008,13(4):501-504

A new common phrase scoring method is proposed according to term frequency-inverse document frequency （TFIDF） and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm （STC） is named as improved suffix tree clustering （ISTC）. To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering. 相似文献

3.

基于信息熵的TFIDF文本分类特征选择算法研究

陈国松黄大荣《湖北民族学院学报(自然科学版)》2008,26(4)

特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度. 相似文献

4.

一种基于词共现图的文档主题词自动抽取方法 总被引：11，自引：0，他引：11

耿焕同蔡庆生于琨赵鹏《南京大学学报(自然科学版)》2006,42(2):156-162

主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题. 相似文献

5.

基于TFIDF的社区问答系统问句相似度改进算法

赵胜辉李吉月徐碧瑢孙博研《北京理工大学学报》2017,37(9):982-985

针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能. 相似文献

6.

几种常用文本分类算法性能比较与分析 总被引：9，自引：0，他引：9

卢苇彭雅《湖南大学学报(自然科学版)》2007,34(6):67-69

分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善. 相似文献

7.

用于文本挖掘的特征选择方法TFIDF及其改进 总被引：11，自引：0，他引：11

景丽萍黄厚宽石洪波《广西师范大学学报(自然科学版)》2003,(1)

文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法. 相似文献

8.

朴素Bayes分类器文本特征向量的参数优化

方秋莲王培锦隋阳郑涵颖吕春玥王艳彤《吉林大学学报(理学版)》2019,57(6):1479-1485

采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低. 相似文献

9.

一种基于朴素贝叶斯分类的特征选择方法 总被引：11，自引：0，他引：11

余芳姜云飞《中山大学学报(自然科学版)》2004,43(5):118-120

由于朴素贝叶斯文本分类中的独立假设前提,使得在特征选择步骤能否准确有效地选出能代表文本的特征显得尤为重要,而特征选择标准中的MI标准与TFIDF标准其优缺正好互补,因此在用朴素贝叶斯文本分类方法中的多项式模型实现了一个web页面分类系统-WEBCAT的基础上,提出将MI标准与TFIDF标准结合进行特征选择.实验显示:用改进的方法可以更准确地选出能代表文本的特征,文本分类结果也比单独使用TFIDF标准或单独使用MI标准进行特征选择的分类结果更加精确. 相似文献

10.

朴素Bayes分类器文本特征向量的参数优化

方秋莲王培锦隋阳郑涵颖吕春玥王艳彤《吉林大学学报(理学版)》2002,57(6):1479-1485

采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低. 相似文献