首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
汉语话语中不仅存在单话题,还存在多话题。话题的辖域有大有小,可根据辖域的大小将话题分为语篇话题、语链话题和语句话题三类。根据话题的性质和功能,多话题可分为情景话题、主旨话题、论元话题三类,多话题的排序一般遵循情景-主旨-论元话题的序次。话语生成的组合顺序多为逆向组合。  相似文献   

2.
网络上的话题纷杂多样而人们的注意力有限,势必导致多话题之间竞争稀缺的用户注意力资源,这种竞争关系影响了网络话题的传播和舆情的形成。已有的研究大多只针对单一话题的传播,该文研究了在线社会网络上多话题竞争的传播规律,提出多话题传播竞争特性的测量方法。从话题和用户这2个层面设计了话题竞争的资源数变化规律、话题竞争激烈程度、用户注意力的转移规律及话题相关性等的测量方法,提出了话题资源数波动率、话题竞争激烈度和用户注意力转移率等定量测量指标。通过对新浪微博真实数据的测量发现:多话题竞争中用户资源总数基本稳定,用户的注意力大部分是从老话题转移到新出现的话题且发生在同类话题间。这些测量结果为建立多话题传播模型提供了基础。  相似文献   

3.
基于LDA话题关联的话题演化   总被引:2,自引:0,他引:2  
话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距离和话题的特征向量相似度实现话题的关联.实验结果证明,该方法不但可以描述同一个话题随时间的强度变化,还可以描述新话题的产生,旧话题的消失以及话题内容随时间的演化.  相似文献   

4.
基于局部和全局的LDA话题演化分析   总被引:1,自引:0,他引:1  
章建  李芳 《上海交通大学学报》2012,46(11):1753-1758
对话题演化进行形式化描述,探讨了基于全局和局部话题演化的2种建模方式,并应用话题相似度和困惑度进行评测.对房地产话题和奥运会话题进行实例分析,给出了2种不同建模方法在话题演化方面的优缺点.两会报告实验结果表明,全局话题演化能够获得较好的模型参数,方法简单可靠;而局部话题演化则能产生细粒度话题,反映新话题的产生和旧话题的消亡.  相似文献   

5.
追踪事件微博报道:一种流的动态话题模型   总被引:1,自引:0,他引:1  
为了解决微博中存在的话题漂移和大量噪声问题,提出了基于动态话题模型和微博信息熵相结合的流的动态话题模型。首先利用动态话题模型在整个追踪过程,从正反两个方面增强对追踪话题的描述,进一步克服了话题漂移问题。但由于微博中存在大量中间类微博,所以定义并使用微博信息熵来衡量一条微博对于话题报道的重要性,并将其扩展到动态话题模型中,用于区分新闻类和中间类微博。在超过17万用户的1 200万条微博上进行了话题追踪,实验结果表明,本文算法较之传统的动态话题模型更有效,追踪结果包含更少噪声。  相似文献   

6.
以新浪微博为数据源,基于LDA主题模型构建话题分类模型,识别能耗双控话题相关 文本中的7个舆情话题,并从话题内容、数量和时空分布等方面分析2021年9月20日至10月20日 的舆论响应分布特点。研究发现:(1)话题内容整体呈现积极情感导向,主要围绕生活、生产、管理 3个相关角度;(2)各话题响应时序存在明显差异,生活相关话题最先得到广泛响应,生产相关话题 次之,而管理角度的理性分析话题存在滞后性;(3)各类话题存在空间差异,生活、管理角度话题讨 论高值区主要集中在东北地区,生产角度话题讨论集中在长三角、珠三角等秦岭、淮河以南地区; (4)舆情发展过程中加工贸易相关行业和第三产业对于能耗双控政策的敏感性较高。  相似文献   

7.
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.  相似文献   

8.
知网的话题更新与跟踪算法研究   总被引:1,自引:0,他引:1  
话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,本文在现有的向量空间描述文档的基础上,实现了一个基于话题更新的话题跟踪算法,提出了基于知网的近义动词分析的跟踪算法及基于知网的近义动词分析和话题更新的话题跟踪算法.实验表明话题更新和同义词近义词的消除提高了话题跟踪算法的性能.  相似文献   

9.
针对在线社会网络中多个话题在传播过程中呈现出的竞争状态,进行了竞态传播过程的测量与分析,并建立了多话题竞态传播模型。基于多个话题数据进行了话题参与用户行为分析,发现较少用户会持续关注同一个热点话题,并且会有一定数量用户在多个同类话题间转移关注,从而使得多个同类话题在并行传播时对吸引用户参与呈现出竞争态势。在分析结果的基础上,建立了考虑话题之间相互影响力以及话题吸引度的多话题竞态传播模型,该模型可有效描述多个同类热点话题在同时间段出现时各个话题之间的相互影响情况,以及各个话题在传播过程中人群参与规模的变化情况。在与实际数据的对比实验中,模型仿真结果的平均峰值出现时间的误差为0.2d,平均传播周期的误差为2.4d,话题间用户平均转出比例的误差为1.2%,并且能复现参与人数的单峰性、长尾特性等话题传播的动态特性。上述实验结果表明,该模型可有效描述在线社会网络中的多话题竞态传播动态过程。  相似文献   

10.
指示代词"这个"的篇章功能包括篇章衔接功能和话题处理功能。篇章衔接功能表现为"这个"的照应前文和句式衔接。"这个"的话题处理功能指"这个"对话题进行组织调整的功能,主要表现为使话题前景化和组织话题的切换两方面。  相似文献   

11.
话题作文作为一种新的命题作文,曾给许多同学以巨大的信心和施展才能的天地;同时,也让许多同学感到无所适从,他们觉得,一旦题目和要求太宽泛,似乎漫无边际,反而感到无所适从了,似乎原来具有的那些应试本领一时派不上用场,对着话题,对着答题纸发愣。那么什么是话题作文,怎样才能写好话题作文呢?我们首先应掌握以下几点。1.什么是话题作文所谓“话题作文”就是围绕提供的话题,来进行写作的一种作文形式。这里的“话题”是谈话的中心、范围。它不是作文题目,只是文章内容、主题的载体。“话题”确定写作的内容指向,启发学生的思考和想象力。和…  相似文献   

12.
针对微博话题易漂移的特点,利用向量空间模型和LDA模型进行微博话题漂移检测.主要通过Gibbs采样算法获取每条微博中词汇的概率分布,基于词汇的概率分布进行微博间相关性度量,采用动态常数法实现话题边界标识,在话题域中计算词汇信息熵并抽取话题词,生成话题向量空间模型,通过话题向量空间模型在离散时间序列模型下的话题词序列比对,实现话题的漂移检测.通过实验发现,基于VSM和LDA模型相结合的微博话题漂移检测是一套行之有效的方法.  相似文献   

13.
层次化话题发现与跟踪方法及系统实现   总被引:2,自引:0,他引:2  
自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。  相似文献   

14.
着眼于舆情话题演化的时序特性、衍生特性和话题漂移现象,在分析话题演化特性的基础上构建了基于时间片划分的话题动态演化模型并通过数理分析和实验仿真对模型的有效性进行了验证.实验结果说明划分时间片的话题演化模型可以在保证热点话题追踪准确性前提下可进一步通过缩减信息流规模来提高话题追踪效率,从而解决以往话题追踪算法中由于舆情话题的漂移和衍生特性导致的追踪效率低下的问题.  相似文献   

15.
文章以话题检测与跟踪技术的理论为指导基础,建立向量空间模型的话题模型.结合演化理论对社区内话题的生命周期进行检测与跟踪,度量话题的强度,以描绘出话题的演化过程及趋势.研究藏语网络社区的话题演变,可便更加快捷方便地了解社区动态.  相似文献   

16.
古汉语的话题主语有自身的独特之处,同时,话题主语和主语之间、话题主语和前置宾语之间、话题主语和施事主语、受事主语、存现主语之间存在着一定的关系与区别。  相似文献   

17.
文章提出了创新构想话题的自动生成任务,主动生成具有新颖性、权威性的话题,能够激发群体讨论热情,有助于推动相关领域的发展。以Encoder-Decoder文本生成技术为基础,构建了一套创新构想话题生成框架。首先通过实时爬取相关网站的内容,作为信息获取的主要来源;然后利用数据分析工具提取文本的关键词和摘要,使用了TF-IDF算法和TextRank算法;最后利用训练好的话题生成模型得到话题表达。实验结果展示了生成的创新构想话题,说明基于该文提出的流程可以有效挖掘文档中潜在的话题。  相似文献   

18.
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能.  相似文献   

19.
目的 社交网络中存在着许多暴力话题,暴力话题识别对网络舆情的精准干预和管控具有十分重要的意义。当前网络暴力研究主要集中在用户负面情感计算、暴力用户识别等领域,缺乏对网络暴力组织构成研究,无法在复杂网络环境中精准识别网络暴力的附着载体。方法 通过分析网络暴力在话题内的聚焦特性,提出了一种基于LDA模型和卡方检验的网络暴力话题识别方法,该方法首先运用LDA模型识别网络语料库中的话题,并用相似度计算方法对话题文本进行分类;然后运用卡方检验筛选话题文本中的暴力特征;最后依据情感词典计算各话题内的暴力值,按照暴力密度判断话题的暴力属性。结果/结论 在真实的网络语料库上实验验证了本文方法,实验结果表明:本文方法的暴力话题识别性能(F值)均值为80.64%,优于对比方法,达到了良好的网络暴力话题识别效果。  相似文献   

20.
针对传统话题检测方法得到的结果和实际话题个数相差较大的缺点,根据话题所包含的文本数对话题之间的相似度进行衰减,进而优先合并粒度较小类,并根据文档话题频率和权重对较大的话题向量进行降维,通过这两方面对传统的层次聚类方法进行改进.同时为了更好地表达话题的语义信息,使用在句子中共现的词对向量来取代传统的向量空间模型.实验结果表明,使用词对模型和改进的方法可以取得更好的效果,而且得到的聚类结果和实际话题个数相近.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号