DNA序列中“词”的自重叠性对其分布的影响和异常“词”的鉴别 |
| |
作者姓名: | 陈励 唐瑛 |
| |
作者单位: | 云南大学统计系,云南教育学院数理分院 |
| |
基金项目: | 云南省应用基础研究基金 |
| |
摘 要: | 从语言学的角度来看基因序列,一个DNA序列可以看成是由字母A,G,C,T组成的有限的字符串,以一定的语法和词法结构为转录机器所识别.那么,词在序列中是如何分布的?文中研究了在不同状况下的单词的理论分布,证实了单词(即CODE)的自重叠性对单词在序列中的概率分布的有极大的影响,并就实例验证了这一点.结合经验分布,提出了两种在DNA序列中鉴别异常单词的方法.得出结论:字母A,G,C,T等概率出现和不等概率出现是判别单词是否异常的重要条件.
|
关 键 词: | 单词,随机序列,非随机序列,自重叠性,经验分布 |
本文献已被 CNKI 维普 等数据库收录! |
|