模式識別練習題

2022-12-07 05:15:06 字數 5017 閱讀 4877

一、 試問「模式」與「模式類」的含義。如果一位姓王的先生是位老年人,試問「王先生」和「老頭」誰是模式,誰是模式類?

答:在模式識別學科中,就「模式」與「模式類」而言,模式類是一類事物的代表,概念或典型,而「模式」則是某一事物的具體體現,如「老頭」是模式類,而王先生則是「模式」是「老頭」的具體化。

二、試說明mahalanobis距離平方的定義,到某點的mahalanobis距離平方為常數的軌跡的幾何意義,它與歐氏距離的區別與聯絡。

答:mahalanobis距離的平方定義為:

其中x,u為兩個資料,是乙個正定對稱矩陣(一般為協方差矩陣)。根據定義,距某一點的mahalanobis距離相等點的軌跡是超橢球,如果是單位矩陣σ,則mahalanobis距離就是通常的歐氏距離。

三、試說明用監督學習與非監督學習兩種方法對道路影象中道路區域的劃分的基本做法,以說明這兩種學習方法的定義與它們間的區別。

答:監督學習方法用來對資料實現分類,分類規則通過訓練獲得。該訓練集由帶分類號的資料集組成,因此監督學習方法的訓練過程是離線的。

非監督學習方法不需要單獨的離線訓練過程,也沒有帶分類號(標號)的訓練資料集,一般用來對資料集進行分析,如聚類,確定其分布的主分量等。

就道路影象的分割而言,監督學習方法則先在訓練用影象中獲取道路象素與非道路象素集,進行分類器設計,然後用所設計的分類器對道路影象進行分割。

使用非監督學習方法,則依據道路路面象素與非道路象素之間的聚類分析進行聚類運算,以實現道路影象的分割。

四、試述動態聚類與分級聚類這兩種方法的原理與不同。

答:動態聚類是指對當前聚類通過迭代運算改善聚類;

分級聚類則是將樣本個體,按相似度標準合併,隨著相似度要求的降低實現合併。

五、如果觀察乙個時序訊號時在離散時刻序列得到的觀察量序列表示為,而該時序訊號的內在狀態序列表示成。如果計算在給定o條件下出現s的概率,試問此概率是何種概率。如果從觀察序列來估計狀態序列的最大似然估計,這與bayes決策中基於最小錯誤率的決策有什麼關係。

答:在給定觀察序列條件下分析它由某個狀態序列s產生的概率是後驗概率,寫成p(s|o),而通過o求對狀態序列的最大似然估計,與貝葉斯決策的最小錯誤率決策相當。

六、已知一組資料的協方差矩陣為,試問

1.協方差矩陣中各元素的含義。

2.求該陣列的兩個主分量。

3.主分量分析或稱k-l變換,它的最佳準則是什麼?

4.為什麼說經主分量分析後,消除了各分量之間的相關性。

答:協方差矩陣為,則

1. 對角元素是各分量的方差,非對角元素是各分量之間的協方差。

2. 主分量,通過求協方差矩陣的特徵值,用=0得,則,相應的:,對應特徵向量為,對應。

這兩個特徵向量,即為主分量。

3. k-l變換的最佳準則為:

對一組資料進行按一組正交基分解,在只取相同數量分量的條件下,以均方誤差計算截尾誤差最小。

4. 在經主分量分解後,協方差矩陣成為對角矩陣,因而各主分量間相關性消除。

七、試說明以下問題求解是基於監督學習或是非監督學習:

1. 求資料集的主分量

2. 漢字識別

3. 自組織特徵對映

4. ct影象的分割

答:1、求資料集的主分量是非監督學習方法;

2、漢字識別:對待識別字元加上相應類別號—有監督學習方法;

3、自組織特徵對映—將高維陣列按保留近似度向低維對映—非監督學習;

4、ct影象分割—按資料自然分布聚類—非監督學習方法;

八、試列舉線性分類器中最著名的三種最佳準則以及它們各自的原理。

答:線性分類器三種最優準則:

fisher準則:根據兩類樣本一般類內密集,類間分離的特點,尋找線性分類器最佳的法線向量方向,使兩類樣本在該方向上的投影滿足類內盡可能密集,類間盡可能分開。

這種度量通過類內離散矩陣sw和類間離散矩陣sb實現。

感知準則函式:準則函式以使錯分類樣本到分介面距離之和最小為原則。

其優點是通過錯分類樣本提供的資訊對分類器函式進行修正,這種準則是人工神經元網路多層感知器的基礎。

支援向量機:基本思想是在兩類線性可分條件下,所設計的分類器介面使兩類之間的間隔為最大,它的基本出發點是使期望泛化風險盡可能小。

九、證明在σ正定或半正定時,mahalanobis距離r符合距離定義的三個條件,即

(1)r(a,b)=r(b,a)

(2)當且僅當a=b時,有r(a,b)=0

(3)r(a,c)≤r(a,b)+r(b,c)

證明:(1) 根據定義

(2) 由於σ為對稱陣,故σ可以分解為,其中,且所有特徵值大於等於零。

可以認為

這就變為了傳統意義上的歐氏距離,可以由歐氏距離滿足的性質直接證明本命題。

十、對一副道路影象,希望把道路部分劃分出來,可以採用以下兩種方法:

1.在該影象中分別在道路部分與非道路部分畫出乙個視窗,把在這兩個視窗中的象素數據作為訓練集,用fisher準則方法求得分類器引數,再用該分類器對整幅圖進行分類。

2.將整幅圖的每個象素的屬性記錄在一張資料表中,然後用某種方法將這些資料按它們的自然分布狀況劃分成兩類。因此每個象素就分別得到相應的類別號,從而實現了道路影象的分割。試問以上兩種方法哪一種是監督學習,哪個是非監督學習?

答:第一種方法中標記了兩類樣本的標號,需要人手工干預訓練過程,屬於監督學習方法;

第二種方法只是依照資料的自然分布,把它們劃分成兩類,屬於非監督學習方法。

十一、已知有兩類資料,分別為

試求:該組資料的類內及類間離散矩陣及。

答:第一類的均值向量為

十二、設乙個二維空間中的兩類樣本服從正態分佈,其引數分別為:

,,先驗概率,

試證明:其基於最小錯誤率的貝葉斯決策分介面方程為一圓,並求其方程。

證明:先驗概率相等條件下,基於最小錯誤率貝葉斯決策的分界面上兩類條件概率密度函式相等。

因此有:

化簡為,是乙個圓的方程。

十三、試分析五種常用決策規則思想方法的異同。

答、五種常用決策是:

1. 基於最小錯誤率的貝葉斯決策,利用概率論中的貝葉斯公式,得出使得錯誤率最小的分類規則。

2. 基於最小風險的貝葉斯決策,引入了損失函式,得出使決策風險最小的分類。當在0-1損失函式條件下,基於最小風險的貝葉斯決策變成基於最小錯誤率的貝葉斯決策。

3. 在限定一類錯誤率條件下使另一類錯誤率最小的兩類別決策。

4. 最大最小決策:類先驗概率未知,考察先驗概率變化對錯誤率的影響,找出使最小貝葉斯奉獻最大的先驗概率,以這種最壞情況設計分類器。

5. 序貫分類方法,除了考慮分類造成的損失外,還考慮特徵獲取造成的代價,先用一部分特徵分類,然後逐步加入性特徵以減少分類損失,同時平衡總的損失,以求得最有效益。

十四、假設在某個地區細胞識別中正常(w1)和異常(w2)兩類先驗概率分別為 p(w1)=0.9,p(w2)=0.1,現有一待識別的細胞,其觀察值為x,從類條件概率密度分布曲線上查得,,並且已知,,,

試對該細胞x用一下兩種方法進行分類:

1. 基於最小錯誤率的貝葉斯決策;

2. 基於最小風險的貝葉斯決策;

請分析兩種結果的異同及原因。

答:1.

2. 十

五、既然有線性判別函式,為什麼還要引進非線性判別函式?試分析由「線性判別函式」向「非線性判別函式」推廣的思想和方法。

答:實際中有很多模式識別問題並不是線性可分的,這時就需要採用非線性分類器,比如當兩類樣本分不具有多峰性質並互相交錯時,簡單的線性判別函式往往會帶來較大的分類錯誤。這時,樹分類器作為一種分段線性分類器,常常能有效地應用於這種情況。

十六、1. 什麼是特徵選擇?

2. 什麼是fisher線性判別?

答:1. 特徵選擇就是從一組特徵中挑選出一些最有效的特徵以達到降低特徵空間維數的目的。

2. fisher線性判別:可以考慮把d維空間的樣本投影到一條直線上,形成一維空間,即把維數壓縮到一維,這在數學上容易辦到,然而,即使樣本在d維空間裡形成若干緊湊的互相分得開的集群,如果把它們投影到一條任意的直線上,也可能使得幾類樣本混在一起而變得無法識別。

但是在一般情況下,總可以找到某個方向,使得在這個方向的直線上,樣本的投影能分開得最好。問題是如何根據實際情況找到這條最好的、最易於分類的投影線,這就是fisher演算法所要解決的基本問題。

十七、寫出兩類和多類情況下最小風險貝葉斯決策判別函式和決策面方程。

十八、請論述模式識別系統的主要組成部分及其設計流程,並簡述各組成部分中常用方法的主要思想。

資訊獲取:通過測量、取樣和量化,可以用矩陣或向量表示二維影象或以為波形。

預處理:去除雜訊,加強有用的資訊,並對輸入測量儀器或其他因素造成的退化現象進行復原。

特徵選擇和提取:為了有效地實現分類識別,就要對原始資料進行變換,得到最能反映分類本質的特徵。

分類決策:在特徵空間中用統計方法把識別物件歸為某一類。

十九、有兩類樣本集

1. 用k-l變換求其二維特徵空間,並求出其特徵空間的座標軸;

2. 使用fisher線性判別方法給出這兩類樣本的分類面。

二十、定性說明基於引數方法和非引數方法的概率密度估計有什麼區別?

答: 基於引數方法:是由已知類別的樣本集對總體分布的某些引數進行統計推斷

非引數方法:已知樣本所屬類別,但未知總體概率密度函式形式

二十一、

答:二十

二、簡述支援向量機的基本思想。

答:svm從線性可分情況下的最優分類面發展而來。

最優分類面就是要求分類線不但能將兩類正確分開(訓練錯誤率為0),且使分類間隔最大。

svm考慮尋找乙個滿足分類要求的超平面,並且使訓練集中的點距離分類面盡可能的遠,也就是尋找乙個分類面使它兩側的空白區域(margin)最大。

過兩類樣本中離分類面最近的點,且平行於最優分類面的超平面上h1,h2的訓練樣本就叫支援向量。

二十三、對於兩類問題,假定,,為d維特徵向量

請給出以下三種情況下的貝葉斯判別函式,並說明各有什麼特點:

1.2.

3.,為單位矩陣

答:1.

2. 判別邊界仍是一條直線,但不垂直於均值的連線。

3. 判別邊界是一條直線,且垂直於均值的連線。

二十四、設兩個家庭,每家3-5人,選每個人的一張**,共8張,混放在一起,將**兩兩對照,得出描述其「相似程度」的模糊關係矩陣。要求按相似程度聚類,希望把二個家庭分開。

模式識別考試

基於最小錯誤率的貝葉斯決策為 相等 1.假定二類協方差矩陣不相等,則第一步分別 計算二類樣本的均值 第二步分別計算二類樣本的協方差 代入x 2 0 至決策規則有 2.假設兩類協方差矩陣相等,則第一步得到此時的協方差矩陣為 代入x 2 0 至決策規則有 1.簡要說明最大似然估計的步驟 第一步 寫出隨機...

模式識別作業

題目一 計算特徵向量之間的距離 任意構造10個人在程式設計 離散數學 資料結構 計算機組成原理4門課的成績表。計算兩兩之間的歐式距離 絕對值距離,設計合適的閾值,能否進行分類?答 題目中每個人共有四門課,也就是每個人有4個特徵,每門課的成績也就是這4個特徵的量化。例如某人的成績就可以表示為 95,6...

模式識別實驗指導書

實驗一感知器準則演算法實驗 一 實驗目的 貝葉斯分類方法是基於後驗概率的大小進行分類的方法,有時需要進行概率密度函式的估計,而概率密度函式的估計通常需要大量樣本才能進行,隨著特徵空間維數的增加,這種估計所需要的樣本數急劇增加,使計算量大增。在實際問題中,人們可以不去估計概率密度,而直接通過與樣本和類...