ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
Молекулы ДНК генома состоят из 4 типов нуклеотидов (букв). Уникальные последовательности таких букв длинной в сотни и тысячи нуклеотидов образуют гены, определяющие фенотип организма. Короткие слова от одной до десятка букв также не представленны в геноме случайным образом. Анализ распределения слов разной длинны в геномах различных организмов начался с появлением методов чтения ДНК и обнаружил ряд важных закономерностей. В данной работе мы продолжили исследования в этом направлении используя ВСЕ доступные геномы эукариот и сравнили частоты встреченных слов разной длинны с ожидаемыми частотами, рассчитанными разными методами на основе наблюдаемых частот слов меньшей длинны и определенной статистической гипотезе. Выяснилось, что из всех разобранных нами методов наблюдаемые частоты слов лучше всего описывает метод Карлина [1,2], который оказался наиболее успешным в 53% испытаний. Нами определено несколько исключительно недопредставленных и перепредставленных слов, включая как уже известные, так и новые.