2019網易杯全國大學生數學建模競賽題目

2022-08-11 06:57:04 字數 1381 閱讀 5313

a題 dna序列分類

2023年6月,人類基因組計畫中dna全序列草圖完成,預計2023年可完成精確的全序列圖,此後人類將擁有一本記錄著自身生老病死及遺傳進化的全部資訊的"天書"。這本大自然寫成的"天書"是由4個字元a,t,c,g按一定順序排成的長約30億的序列,其中沒有"斷句"也沒有標點符號,除了這4個字元表示4種鹼基以外,人們對它包含的"內容"知之甚少,難以讀懂。破譯這部世界上最巨量資訊的"天書"是二十一世紀最重要的任務之一。

在這個目標中,研究dna全序列具有什麼結構,由這4個字元排成的看似隨機的序列中隱藏著什麼規律,又是解讀這部天書的基礎,是生物資訊學(bioinformatics)最重要的課題之一。雖然人類對這部"天書"知之甚少,但也發現了dna序列中的一些規律性和結構。例如,在全序列中有一些是用於編碼蛋白質的序列片段,即由這4個字元組成的64種不同的3字串,其中大多數用於編碼構成蛋白質的20種氨基礎酸。

又例如,在不用於編參與蛋白質的序列片段中,a和t的含量特別多些,於是以某些鹼基特別豐富作為特徵去研究dna序列的結構也取得了一些結果。此外,利用統計的方法還發現序列的某些片段之間具有相關性,等等。這些發現讓人們相信,dna序列中存在著區域性的和合局性的結構,充分發掘序列的結構對理解dna全序列是十分有意義的。

目前在這項研究中最普通的思想是省略序列的某些細節,突出特徵,然後將其表示成適當的數學物件。這種被稱為粗粒化和模型化的方法往往有助於研究規律性和結構。

作為研究dna序列的結構嘗試,提出以下對序列集合進丟失分類的問題:

下面有20個已知類別的人工製造的序列(見反面),其中序列標號1-10為a類,11-20為b類。請從中撮特徵,構造分類方法,並用這些已知類別的序列,衡量你的方法是否足夠好。然後用你認為滿意的方法,對別外存0個未標明類別的人工序列(標號21-40)進行分類,把結果用序號(按從小到大的順序)標明它們的類別(無法分類的不寫入):

a類 ; b類 。

1)請詳細描述你的方法,給出計算程式。如果你部分地使用了現成的分類方法也要將方法名稱準確註明。

2)在同樣**的資料檔案nat-model-data中給出了182個自然dna序列,它們都較長。用你的分類方法對它們進行分類,像1)一樣地給出分類結果。

提示:衡量分類方法優劣的標準是分類的正確率,構造分類方法有許多途徑,例如提取序列的某些特徵,給出它們的數學表示;幾何空間或向量空間的元素等,然後再選擇或構造適合這種數學表示的分類方法;又例如構造概率統計模型,然後再用統計方法分類等。

art-model-data

1.2.

3.4.

5.6.

7.8.

9.10.

11.12.

13.14.

15.16.

17.18.

19.20.

21.22.

23.24.

25.26.

27.28.29.

2019高教社杯全國大學生數學建模競賽A題

儲油罐的變位識別與罐容表標定 摘要隨著工業革命的來臨,人們逐步機器生產代替手工業製造,燃油也成為了熱門話題.儲油罐作為加油站常用的貯存設施,對油品在不同液面高度時的貯油量進行精確的計量變得尤為重要,燃油灌的變位識別與罐容表的標定可以對油位計量管理系統需要進行定期校正,以提高其測量準確度.本文為了研究...

2019高教社杯全國大學生數學建模競賽A題評閱要點

說明 本要點僅供參考,各賽區評閱組應根據對題目的理解及學生的解答,自主地進行評閱。本問題的資料 於某城市對土壤環境的實地監測。評閱時,應著重注意數學模型的建立 計算方法 或所選軟體的程式語句 及選擇該方法的理由。1 可用插值擬合的方法獲得各重金屬汙染物濃度的空間分布。再參考由背景值確定的閾值,定量分...

2019高教社杯全國大學生數學建模競賽

承諾書我們仔細閱讀了中國大學生數學建模競賽的競賽規則.我們完全明白,在競賽開始後參賽隊員不能以任何方式 包括 電子郵件 網上諮詢等 與隊外的任何人 包括指導教師 研究 討論與賽題有關的問題。我們知道,抄襲別人的成果是違反競賽規則的,如果引用別人的成果或其他公開的資料 包括網上查到的資料 必須按照規定...