排序方式: 共有29条查询结果,搜索用时 31 毫秒
1.
针对情景对话内容中含有指示代词“那”的语句及与其直接相关的情景 ,首先分析“那”的语义及语用 ,给出逻辑形式 ,并运用情景理论 ,包括情景形成原则及相关公理和推论等 ,在其逻辑形式中加入上下文关系 ,然后根据焦点移动及情景锚定原则 ,分别对情景对话中的“那”的指称和替代作用进行了有效的解释 相似文献
2.
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。 相似文献
3.
作者采用多次折半倒排混乱,下标随机线性函数法和n次随机加密法等软件技术,为用户提供了可选1-16位密钥和1-15个+,-,*。/运算符对密钥处理的功能,可对数据库提供良好的保密性。系统用Turbo Pascal编写了加密解密程序,从而在一定程度上增加了破译的难度。系统具有较好的可移植性和使用方便等特点。 相似文献
4.
5.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效. 相似文献
6.
传统的中文词义消歧方法是通过观察文本的上下文信息、词性等显性特征建立消歧模型,本文通过对歧义产生原因进行深入的分析,发现词语之间隐含的语法结构、语义信息等也会导致歧义的产生,可以考虑将这些信息加入消歧模型进行消歧。由于《知网》知识库中对词语之间的搭配信息进行了总结,本文借助《知网》提取训练语料库所获取的词语搭配信息的隐性语义特征,结合显性的上下文特征,采用条件随机场的方法进行词义消歧。最后,通过实验进行词义消歧和效果验证,结果表明:本文采用的方法与传统的条件随机场消歧相比,词义消歧的准确率得到了提高。 相似文献
7.
在分析贵州省分散的中药材数据库现状的基础上,提出了一种利用W eb Services技术整合大量分布式资源的中药材系统。对设计中的关键技术———数据同步更新、SQL语句重组及数据整合进行了详细地说明,并总结本系统的特点及以后要进行的改进工作。 相似文献
8.
基于模糊相似度的科技文献软聚类算法 总被引:3,自引:0,他引:3
本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇为核心将聚类相似度减小到下相似度进行扩展,从而形成相应软聚类。实验表明该算法能够有效地降低特征维数、提高软聚类精度和速度。 相似文献
9.
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。 相似文献
10.
首先对现有的中文文本自动校对技术进行了分类研究,并在此基础上,结合二元语法模型、散串技术和校对候选矩阵方法,提出了一种基于窗口技术的校对方法。该方法先利用词间字接续方法和散串技术来定位疑错窗口,然后在疑错窗口内,依据由可信度增量构建的校对候选集对窗口内的疑错字串进行最终的定错和纠错。 相似文献