第十八章無約束最優化的梯度方法

2022-08-30 08:18:06 字數 4809 閱讀 7671

,目的是在找一點稱為此無約束最優化問題的全域性最優點。然而在實際中,大多數最優化方法只能求到區域性最優點,即在中可找到一點使得在的某個鄰域中有。但在實際中,可以根據問題的意義來判斷求得的區域性極小點是否為全域性最優點,無約束最優化可以分為兩大類:

一類是使用導數的方法,也就是根據目標函式的梯度(一階導數)有時還要根據hesse矩陣(即二階導數)所提供的資訊而構造出來的方法,稱為梯度方法。如:最速下降法,newton法,共軛梯度法和變尺度法。

另一類是不使用導數的方法,統稱為直接方法。前者收斂速度快,但計算複雜(一階,二階導數)後者不用導數,適應性強,但收斂速度慢。因此在可以求得目標函式導數資訊時,盡可能用前一方法,而若求目標函式導數很困難,或者根本不存在導數時,就用後一種方法。

18.1 最速下降法

最速下降法是求多元函式極值的最古老的數值演算法,它直觀,簡單,計算方便,而且後來的一些新的有效的方法大多數是對它的改進,或受它的啟發而得到的。其缺點是收斂速度較慢。

18.1.1 演算法思路

假定我們已經迭代到第 k次,即已有,從出發進一步迭代。

圖18.1.1 )

顯然應沿下降方向進行,而下降最快的方向是,為使目標函式沿此方向下降的最多,沿此方向進行直線搜尋,從而得到第k+1次迭代點,即。其中步長因子滿足。

按我們以前的記號,上面兩式可記為:

18.1.1)

當給定初始點(可任選),就可產生乙個序列。在滿足一定條件時,此序列必收斂於的極小點。

稱以(18.1.1)為迭代公式的演算法為最速下降法。

以後為方便,記:

18.1.2 演算法過程

已知目標函式及其梯度,給定終止準則h及終止限

1)選定初始點,計算

2)做直線搜尋

3)判定終止準則h是否滿足,若滿足則列印最優解,終止。否則轉2)。

將最速下降法用於具有對稱正定矩陣q的二次函式:

而此處即為:,其中

即:,從而:

因此:18.1.3 鋸齒現象

最速下降法在兩個相鄰點之間的搜尋方向對於正定二次函式是正交的,因而最速下降法向最小點逼近是曲折前進的。這種現象稱為鋸齒現象。

除最特殊的目標函式和極特殊的初始點外,這種現象都會發生。這是因為最速下降法的下一步搜尋方向是 ,

從而知:。

圖18.1.2

這說明其前後兩個搜尋方向總是垂直的,這就造成了最優步長的最速下降法逼近極小點過程是「之」字形,並且越靠近極小點步長越小,移動越慢,以至在實際運用中在可行的計算時間內得不到需要的結果。

這似乎與「最速下降」的名稱矛盾。其實不然,因為梯度是函式區域性性質,從區域性看,函式在這一點附近下降的很快,然而從整體看,則走過了許多彎路。因此反而是不好的。

為了清除最優步長最速下降法中兩個搜尋方向正交的不良後果,人們發明了不少方法,如:

(1)選擇不同初始點。

例如:對問題:

取初點,

為求,沿方向從出發求的極點,即**搜尋

代入函式式,

則解得, 然後再從開始迭代,經過10次迭代,近似得最優解計算中可以發現,開始幾次迭代,步長比較大,函式值下將降較快但當接近最優點時,步長很小,目標函式值下降很慢。如果不取初點為而取雖然後一初點較前一初點離最優點遠,但迭代中不含上面出現的鋸齒現象。這時:

一步就得到了極小點。

可見:造成距齒現象與初始點的選擇有關,但怎樣選乙個初始點也是一件困難的事。

(2)採用不精確的一維搜尋。

用一維搜尋求出的步長為時,我們不取,而用的乙個近似值作為如取=0.9。

這樣可使相鄰兩個迭代點處的梯度不正交,從而改變收斂性。

對於最速下降法,有時為了減少計算工作量,不採用直線搜尋確定步長,而採用固定步長λ的方法,稱為固定步長最速下降法。

只要λ充分小,總有:但λ到底取多大,沒有統一的標準, λ取小了,收斂太慢,而λ取大了,又會漏掉極小點。

18.1.4 用於二次函式時的收斂速度

定理18.1.1 對於二次函式q為對稱正定,分別為其最小最大特徵值,從任意初點出發,對此二次函式,用最速下降法產生的序列,對於有:

並且由於

而的極小點恰好是。故最速下降法對於二次函式關於任意初點均收斂,而且是線性收斂的。

下面說明最速下降法收斂性的幾何意義。考慮具有對稱正定矩陣

,其中這個函式的等值線為, c>0改寫為:

這是以和為半軸的橢圓。

圖18.1.3

圖18.1.4

從下面的分析可見,兩個特徵值的相對大小決定最速下降法的收斂性。

(1) 當時,等值線變為圓。此時

因而由上述定理知:

既只需迭代一步就到了極小點,這表明最速下降法用於等值線為圓的目標函式時,只需迭代一步就到了極小點。

(2), 等值線為橢圓。

此時對於一般的初始點將產生鋸齒現現象。

(3)當等值線是很扁的橢圓。

此時, 對於一般的初始點收斂速度可能十分緩慢,鋸齒現象嚴重。

圖18.1.5

18.1.5 加速最速下降法的收斂性

上面我們已經證明最速下降法具有收斂性,收斂速度較慢,為了加速其收斂性,shah等人於己於人2023年提出了一種「平行切線法」(簡記為partan法)。其演算法過程如下:

選擇初始點及控制誤差

1)求2)求

3)求為下乙個一維搜尋所確定的

再求4) 若

這個演算法的思路就是:與最速下降法一樣計算,但從求就不同。就是先從zk出發沿負梯度進行一維搜尋,把求得的極小點記為,然後從出發沿著指向的方向用一維極小的方法求出。

顯然,在一般情況下要比好一些 ,所以平行切線法的每次迭代至少不會比最速下降法的一次迭代差,因此收斂速度加快了。

仍用前面的例子加以說明

用平行切線法求解時,,仍和最速下降法一致。而表中的在平行切線時作為,然後從出發沿方向,作一維搜尋,則一步就得到極小點。當然由於計算中的捨入誤差,上述方向指向極小點方向的右偏移,因而一步求出的是的近似值。

18.2 newton法

如果目標函式在rn上具有二階導數,且hesse矩陣正定,並且表示式為顯式時,就可使用下述newton法。這種方法收斂速度很快。其缺點是計算量大,二是很賴於初始點的選擇。

18.2.1 演算法的基本思路

考慮到到的迭代過程,在點處對taylor展開:

若hesse矩陣正定,則存在,由此求出二次函式q(z)的極小點為 :. 以此作為f(z)極小點的乙個新的近似。此公式即為newton迭代公式。其幾何意義如下:

(圖18.2.1 )

函式f(z)過點的等值面為:,在點zk處用乙個二次曲面代替此等值面,即:。

當正定時,它是乙個超橢球面。而的極小點正是這個超橢球

的中心,此點作為的極小點的乙個新的近似。

例18.2.1 用newton法求的極小點。

解取初點

則: 代入newton迭代公式得:

此即為問題的最優點。

18.2.2 演算法過程

以知目標函式, 梯度,hesse陣,給定終止準則h及控制誤差限

1)選定初始點計算

2)計算

3)由方程

4)令5)判別終止準則h是否滿足。若滿足,則列印最優解:

轉2)。

在此演算法中,沒有直接用newton迭代公式,而是通過3求解線性方程組進行。因為這樣可以減少計算工作量,而且解線性方程組有標準程式。

上面我們看到newton法用於具有對稱正定矩陣的二次函式時,一次迭代即可得到極小點。而對於一般的具有對稱正定hesse矩陣的函式,在極小點附近近似地呈現為二次函式,所以可以想象newton法在解點附近具有較高的收斂速度。

18.2.3 收斂性

定理18.2.1 若(1)是的駐點,即

(2)在的鄰域中具有直到三階的連續有界偏導數,即對均有:

(3) hessen矩陣的逆陣存在,且對均有,則由newton迭代公式所產生的序列. 若收斂,則收斂階為2。

注證明:因為序列收斂,不妨設當時,總有

由, 雖然

此二式兩邊相減並利用條件(3)得:

考慮梯度的第i個分量在處的展開:

令,相應的設為。利用條件(2),

對於可推得:

故根據定義可知是2階收斂的。

定理18.2.1:設定理1中條件(1),(2),(3)成立。且(4)若取初始點, 則由newton迭代公式產生的序列收斂於。

證明:先用數學歸納法證明:若,則,時,由定理1證明結果知:

由條件(4)

即:因而,,

故: 設 , 經證,因為:

因為故又newton法的乙個重要缺點之一就是要計算,因而必須非奇異,否則迭代就無法進行。而且即使非奇異,也不保證演算法一定收斂。例:

,則則而 →。

它的極小在t=0達到,此時newton法不能產生新點,而不是極小點,其原因在於不正定, 即不恒為正為了使newton法適應於不是正定的,甚至奇異的情形,必須對newton法作進一步修正。

方法1: marquart-levanberg法.

搜尋方向取為其中,為乙個非負數,為一給定矩陣, 至少為半正定矩陣.

演算法過程:給定

這種方法是newton法和最速下降法的結合,它可以克服這兩個方法各自的一些缺點。在中若把取為單為矩陣,或取對角線上為正數的對角陣,此時,在這個迭代公式中取充分小時,的第二項不起多大作用,從而方法近似於newton法,當它取足夠大時,ak中第二項起主要作用,故而方法近似於最速下降法,並且當非正定時,取適當大,一定為正定。

方法2 goldstain——price法

這種方法也可以看成newton和最速下降法二者的結合,也可以彌補而方法的缺點。設我們已有點,下面分別討論如何找到搜尋方向和步長。當迭代到後,首先計算乙個矩陣,其中的第i列向量為ⅰⅱ

ⅲ現在有了搜尋方向和步長,則迭代公式為:,在此方法中,顯然為f(z)的二階導數矩陣的乙個近似,迭代中有時取梯度方向,有時取近似newton方向,而步長的選擇是保證每步迭代f(z)的值均下降。

關於無約束最優化問題的信賴域解法

一 引言 無約束優化問題是實際工程中最常見的問題之一。這類問題雖然形式比較簡單,但是對於某些大規模的或者非線性很強的問題,求解它們仍然是有相當難度的。無約束問題的演算法大致分成兩類 一類在計算過程中要用到目標函式的導數,另一類則只要求目標函式值。本文中所講述的信賴域法,與牛頓法 最速下降法 共軛梯度...

第三章無約束最優化方法

把乙個多維問題轉化為一系列較少維數的問題稱為降維。降維方法有幾種,座標輪換法是用得較多的一種,這是一種不需要求函式導數的直接探索目標函式最優解的方法。直接法 降維法 一 座標輪換法的基本思想 其基本思想就是通過每次僅對多元函式的乙個變數沿其座標軸進行一維探索,其餘各變數均固定不動,並依次輪換進行一維...

債權法第十八章債的種類

按份之債一般是由於民事法律行為引起的。其成立須具備以下條件 第一,債權人或債務人為二人或二人以上 第二,基於同一法律行為而發生。乙個合同不是幾個合同。你貸一千,他貸一千,不是。第三,債的標的是可分的。按份之債的效力表現在 各債權人或債務人都是獨立的,只就屬於自己的那份債權或債務享受權利或承擔義務。任...