DNA序列分類

2023-01-01 08:39:06 字數 1500 閱讀 3273

2000網易杯全國大學生數學建模競賽題目

2023年6月,人類基因組計畫中dna全序列草圖完成,預計2023年可以完成精確的全序列圖,此後人類將擁有一本記錄著自身生老病死及遺傳進化的全部資訊的「天書」。這本大自然寫成的「天書」是由4個字元a,t,c,g按一定順序排成的長約30億的序列,其中沒有「斷句」也沒有標點符號,除了這4個字元表示4種鹼基以外,人們對它包含的「內容」知之甚少,難以讀懂。破譯這部世界上最巨量資訊的「天書」是二十一世紀最重要的任務之一。

在這個目標中,研究dna全序列具有什麼結構,由這4個字元排成的看似隨機的序列中隱藏著什麼規律,又是解讀這部天書的基礎,是生物資訊學(bioinformatics)最重要的課題之一。

雖然人類對這部「天書」知之甚少,但也發現了dna序列中的一些規律性和結構。例如,在全序列中有一些是用於編碼蛋白質的序列片段,即由這4個字元組成的64種不同的3字串,其中大多數用於編碼構成蛋白質的20種氨基酸。又例如,在不用於編碼蛋白質的序列片段中,a和t的含量特別多些,於是以某些鹼基特別豐富作為特徵去研究dna序列的結構也取得了一些結果。

此外,利用統計的方法還發現序列的某些片段之間具有相關性,等等。這些發現讓人們相信,dna序列中存在著區域性的和全域性性的結構,充分發掘序列的結構對理解dna全序列是十分有意義的。目前在這項研究中最普通的思想是省略序列的某些細節,突出特徵,然後將其表示成適當的數學物件。

這種被稱為粗粒化和模型化的方法往往有助於研究規律性和結構。

作為研究dna序列的結構的嘗試,提出以下對序列集合進行分類的問題:

1)下面有20個已知類別的人工製造的序列(見下頁),其中序列標號1—10 為a類,11-20為b類。請從中提取特徵,構造分類方法,並用這些已知類別的序列,衡量你的方法是否足夠好。然後用你認為滿意的方法,對另外20個未標明類別的人工序列(標號21—40)進行分類,把結果用序號(按從小到大的順序)標明它們的類別(無法分類的不寫入):

a類b類

請詳細描述你的方法,給出計算程式。如果你部分地使用了現成的分類方法,也要將方法名稱準確註明。

這40個序列也放在如下位址的網頁上,用資料檔案art-model-data 標識,供**:

網易**: 教育頻道**試題;

教育網: news mcm2000

教育網:

2)在同樣**的資料檔案nat-model-data 中給出了182個自然dna序列,它們都較長。用你的分類方法對它們進行分類,像1)一樣地給出分類結果。

提示:衡量分類方法優劣的標準是分類的正確率,構造分類方法有許多途徑,例如提取序列的某些特徵,給出它們的數學表示:幾何空間或向量空間的元素等,然後再選擇或構造適合這種數學表示的分類方法;又例如構造概率統計模型,然後用統計方法分類等。

art-model-data

1. 2.

3. 4.

5. 6.

7. 8.

9. 10.

11.12.

13.14.

15.16.

17.18.

19.20.

21.22.

23..

25.26.

DNA損傷修復

黑龍江大學 課程 題目 dna損傷修復 重組修復 系院 生命科學學院 專業 生物工程 起止時間 2013年5月 2013年6月 dna損傷修復 重組修復 摘要 dna損傷修復 repair of dna damage 在多種酶的作用下,生物細胞內的dna分子受到損傷以後恢復結構的現象。dna損傷修復...

時間序列分析

第一節前言 通常我們所面臨的決策中,時間往往是乙個重要的變數。管理者作 時,亦常以過去的歷史資料 historical data 為依據,將來的銷售量 國民生產毛額 股價的變動以及人口成長等變數。過去的歷史資料,我們稱之為時間序列 time series 更明確的定義,時間序列是一群統計資料,依其發...

時間序列模型

時間序列分析方法由box jenkins 1976 年提出。它適用於各種領域的時間序列分析。時間序列模型不同於經濟計量模型的兩個特點是 這種建模方法不以經濟理論為依據,而是依據變數自身的變化規律,利用外推機制描述時間序列的變化。明確考慮時間序列的非平穩性。如果時間序列非平穩,建立模型之前應先通過差分...