馬爾可夫決策規劃

2022-05-06 21:33:02 字數 4728 閱讀 7880

第二講馬爾可夫鏈與馬爾可夫過程

§2.1 馬爾可夫鏈

為書寫方便,下面用x表示隨機變數(ξ)。

定義2.1:隨機變數序列稱為是乙個馬爾科夫(markov)鏈,如果等式p =p對任意整數k、l、m以及非負整數m>kl>…k2>k1均成立。其中,

xm=i表示馬爾科夫鏈在第m步(時刻m)位於狀態i,狀態i的集合s稱為狀態空間;

p(k)ij(m)=p稱為在時刻m位於狀態i經k步轉移到達狀態j的k步轉移概率,而pij(m)= p(1)ij(m) 稱為時刻m的1步轉移概率;

p(k)(m)=(p(k)ij(m))稱為時刻m的k步轉移概率矩陣,而p(m)=(p(1)ij(m))=(pij(m))稱為時刻m的1步轉移概率矩陣。

markov滿足的k-c方程如下:

a. p(k)(m)= p(l)(m)p(k-l)(m+l),其中0≤l≤k

約定:p(0)(m)=i

b. 約定:

定義2.2:馬爾科夫鏈稱為是齊次的,是指它在時刻m的1步轉移概率矩陣p(m)與m無關,它等價於p(k)(m)與m無關。其中,

p(k)=(p(k)ij)稱為齊次馬氏鏈的k步轉移概率矩陣,而p= (pij)稱為齊次馬氏鏈的1步轉移概率矩陣。相應地有,

a. k-c方程:p(k) = p(l)p(k-l),其中0≤l≤k

b. p(k)=pk

c. 馬爾科夫鏈的概率分布:設為一馬爾科夫鏈,x0的分布列(初始分布)為(約定馬爾科夫鏈的概率分布列為行向量),記為xn的分布列或markov鏈在時刻n的瞬時分布列,為一步轉移概率矩陣的集合,則有:

c1:(非齊次)

c2:(齊次)

關於馬氏鏈的存在性:對任意給定的分布列和一束隨機矩陣,唯一地存在某概率空間(ω, f, p)上的馬氏鏈,恰以為初始分布列、以為轉移概率矩陣的集合。因此,齊次馬氏鏈由它的初始分布和一步轉移概率矩陣唯一決定。

例2.1 假設三個食品公司分別生產三種不同牌子的速食麵。它們除通過改進成品口味、美化包裝以增強在市場的競爭力外,還各自開展了廣告攻勢**本公司的產品。

因此,各公司所佔的市場比例是隨時間有所變化的,可以根據個別人的行為來推斷多數人的行為。比如,隨機選擇的個人若以概率1/2偏愛公司1生產的速食麵,則表明公司1占有50%的市場比例。以表示隨機選擇的個人(樣本空間的乙個元素)在第n周所偏愛的公司。

有理由認為,當給定現在的偏愛,將來的偏愛與過去的選擇無關。於是,便構成乙個以為狀態空間的markov鏈。假設在任一時刻,公司1能留住它1/2的老顧客,其餘的則對半購買另兩個公司的產品。

公司2的一半顧客在下週改買公司1的產品,其餘的仍購買公司2的產品。公司3能維持其3/4的老顧客,其餘的則在下週流向公司2。即markov鏈的轉移概率矩陣可表示為

2.1)

公司對第n周它所占有的市場份額感興趣,即概率。再者當n趨於無窮時,若這一概率的極限存在,則此極限概率也是令各公司感興趣的,它刻畫了公司i占有市場的穩態概率。

例2.2 繼續考慮例2.1的三個食品公司之間的競爭問題,描述顧客偏愛變化情形的轉移概率矩陣p已由(2.1)式給出,

(1) 求出;

(2) 假設已知任一初始分布,求。

[解]:利用關係式計算

首先,求出與轉移概率矩陣p對應的特徵值及特徵向量。由得

即轉移概率矩陣p的三個特徵值分別為,,。

為求特徵向量,令與特徵值對應的特徵向量為,由於,列出方程組即可求得,此處不再詳述。取為相應於特徵值1的特徵值向量,再分別求出與特徵值及相對應的特徵向量與。鑑於特徵值、與互不相同,故可知與必線性無關。

若令,則可逆,且有,可以算出,於是

於是有(2) 設是任一初始分布,則由分布概率與轉移概率的關係有。這表明,不管初始時三個食品公司所佔的市場份額如何,在經過充分長的一段時間的競爭後,每個公司所佔的市場份額趨於穩定,均為左右。

§2.2 狀態的分類及狀態空間的分解

1、狀態的常返性

定義2.3:設是一馬爾科夫鏈,狀態空間為s,稱為由狀態i出發經n步首次到達狀態j的概率,其中,;稱為由狀態i出發經有限步到達狀態j的概率。

顯然,。進一步地,當n取∞時,表示從狀態i出發永不到達狀態j的概率,即。

對,稱為markov鏈x首次到達狀態j的時刻,也就是首次到達狀態j的間隔。顯然,對任意的有,

● ●● 定義2.4:若,則稱狀態i是常返的;若,則稱狀態i是非常返的。另外,如果,則稱i為吸收狀態。

進一步地,定義

為常返狀態i的平均返回時間,表示markov鏈x自狀態i出發,首次重返狀態i所需時間的期望值。

定義2.5:如果,則稱常返狀態i為正常返的;如果,則稱常返狀態i為零常返。

例2.3 設markov鏈的狀態空間。轉移矩陣為,判斷哪些狀態是常返的。

[解]:圖2.1中畫出了各狀態之間的轉移圖。

從圖2.1可知,,,所以;,,,所以;,, 所以;,,所以。於是,狀態2,3,4是常返狀態,而狀態1是非常返狀態,且狀態4還是吸收狀態。

圖2.1 某markov鏈的狀態轉移圖

2、狀態的週期性

定義2.6:如集合非空,則稱該集合的最大公約數d=d(i)=為狀態i的週期。如d>1,就稱i為週期的;如d=1,就稱i為非週期的。特別地,若,則狀態i是非週期的。

定義2.7:如果狀態i既是正常返的,又是非週期的,則稱狀態i是遍歷的。

例如,吸收狀態是一種最特殊的遍歷狀態。

例2.4 設某markov鏈狀態空間為,轉移概率矩陣p為

試求狀態0的週期。

[解]:不難直接算出,,,而,,。由於的最大公約數為2,所以狀態0的週期為2。

3、判別狀態類別的兩種方法

從前述可知,狀態類別判斷的依據是首達概率。

1) 首達概率的計算

定理2.1:首達概率的計算方法為

(1)(2)

例2.5設markov鏈x的狀態空間為,其一步轉移概率矩陣p由下式給出:

試判斷出以上各狀態是常返的或是非常返的。

[解]:由定理2.1的結論(1)有

,,由於,故。從而,,故狀態1為正常返的。其次,仍由定理2.1的結論,對任意,有

(2.2)

在上式中取,即。由此可推得。於是,結合(2.2)式,有。故,這表明狀態2是非常返的。

類似地,可求得,故,於是狀態3也是非常返的。

最後,由定理2.1的結論(2),有。由此推知,,類似地可以求出。

綜上所述,狀態2與3皆為非常返的,而狀態1是正常返的。

2) 勢矩陣的計算

為避開首次概率的計算,下面給出判斷常返狀態的另乙個準則。

稱為markov鏈x的勢矩陣,其中。令,並記

, 於是,勢矩陣的概率含義為:

定理2.2:對任意,有

引理2.1:(1)對任意,;

(2)對任意,,有如下結論成立:

, 下面是常返態的另一判別準則:

定理2.3:狀態j為常返的充要條件是。

4、狀態空間的分解

定義2.8:1) 如果存在,使得,則稱狀態i可達(accessible)狀態j,記作;

2) 如對一切,皆有,則稱從狀態i不可達狀態j,記作;

3)如果且,則稱狀態i與狀態j是互達的,記作。

其中,所有狀態都可互達的齊次markov鏈稱作不可約的。

定理2.4:互達關係是數學上的乙個等價關係,即滿足

1) 自反性:;

2) 對稱性:,則;

3) 傳遞性:,,則。

定理2.5:狀態的充要條件是。

推論2.1:設狀態,則的充要條件是。

定理2.6:設i 是常返狀態,且,則,而且j也是常返狀態。

定理2.7:設,則以下結論成立:

1) 若狀態i為常返的,則狀態j也為常返的;

2) 若狀態i為非常返的,則狀態j也為非常返的;

3) 狀態i與狀態j具有相同的週期。

利用上面的結論,可對狀態空間進行分解。若markov鏈x的狀態空間s是不可約的,則無法進行分解。否則,分別用c、d表示markov鏈x的所有常返狀態及非常返狀態,有。

如果,可以按照互達關係繼續進行分解。於是,可將常返類c分解成一些互不相交的等價類c1,c2,…,即,從而有。因此,對,或,有或()。

例2.6 繼續考慮例2.1,已知描述顧客偏愛變化的轉移概率矩陣p為:

與它相對應的轉移圖在圖2.2中給出。由此轉移圖不難看出,狀態空間中的任意兩個狀態之間都是互達的,即此markov鏈是不可約的。

顯然,若以圖2.2中所示的轉移圖為依據,也可反寫出相應的轉移概率矩陣p。一般來說,轉移概率矩陣和轉移圖是相互對應的。

圖2.2 描述顧客偏愛變化的轉移圖

§2.3 轉移概率的極限性質

下面,用c與d表示markov鏈x的常返類與非常返類,用c(i)表示常返狀態i所屬的不可約常返類,即。

定理2.8:1)對任意,如果,則有;對任意,如果,則有;

2)對任意,有;對任意,有。

定理2.9:對於任意以及,恒有。

定理2.10:對,j為非常返狀態,則。

下面的定理表達了常返狀態與轉移概率的極限概率之間的聯絡:

定理2.11:設j為常返狀態,則

1) j為零常返狀態的充要條件是;

2) j為遍歷狀態的充要條件是;

3) j為週期的正常返狀態的充要條件是不存在。

定理2.12:設j為零常返狀態或遍歷狀態,則對有

當出現下述兩種情形時,轉移概率的極限值不存在:

(1)i與j為互達的、週期的正常返狀態;

(2)i為非常返狀態,j為週期的正常返狀態。

但它們的平均極限總是存在的,且對一切恒有:

§2.4 平穩分布

在markov鏈x中,狀態概率是乙個重要的量,表示系統在時刻n處於狀態j的概率。這裡的問題是:是否存在乙個不隨時間變化的所謂「平穩的」概率分布?

馬爾可夫鏈模型簡介

設考察物件為一系統,若該系統在某一時刻可能出現的事件集合為,兩兩互斥,則陳為狀態。稱該系統從一種狀態變化到另一狀態的過程稱為狀態轉移,並把整個系統不斷實現狀態轉移的過程稱為馬爾可夫過程。定義1 具有下列兩個性質的馬爾可夫過程稱為馬爾可夫鏈 1 無後效性,即系統的第次實驗結果出現的狀態,只與第次有關,...

第7章馬爾可夫過程與泊松過程

7.1 馬爾可夫過程 1 引例 例1 隨機游動問題。質點在一直線上作隨機游動,如果某一時刻質點位於點,則下一步質點以概率向左移動一格達到點,以概率向右移動一格達到點。用表示時刻質點的位置,則是一隨機過程。在時刻質點所處的位置只與時刻質點的位置有關,而與以前的位置 無關。例2 遺傳病問題。某些疾病常遺...

馬爾科夫矩陣

移步轉移矩陣的性質與證明 數學1401吳寶龍201464100122移步轉移矩陣的定義 我們稱滿足如下條件的矩陣為移步轉移矩陣1.2.先說明高等代數中的幾個概念 1.向量範數 如果向量x的某個實值函式滿足條件 則稱2.向量的p範數 3.向量的 4.矩陣範數 如果矩陣 滿足條件 則稱n a 是上的乙個...