DNA序列中“词”的自重叠性对其分布的影响和异常“词”的鉴别期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

DNA序列中“词”的自重叠性对其分布的影响和异常“词”的鉴别

作者姓名：	陈励唐瑛

作者单位：	云南大学统计系，云南教育学院数理分院

基金项目：	云南省应用基础研究基金

摘要：	从语言学的角度来看基因序列，一个ＤＮＡ序列可以看成是由字母Ａ，Ｇ，Ｃ，Ｔ组成的有限的字符串，以一定的语法和词法结构为转录机器所识别．那么，词在序列中是如何分布的？文中研究了在不同状况下的单词的理论分布，证实了单词（即ＣＯＤＥ）的自重叠性对单词在序列中的概率分布的有极大的影响，并就实例验证了这一点．结合经验分布，提出了两种在ＤＮＡ序列中鉴别异常单词的方法．得出结论：字母Ａ，Ｇ，Ｃ，Ｔ等概率出现和不等概率出现是判别单词是否异常的重要条件．
关键词：	单词，随机序列，非随机序列，自重叠性，经验分布
本文献已被 CNKI 维普等数据库收录！