計算機數學外文翻譯外文文獻英文文獻模糊決策森林

2022-12-28 01:12:04 字數 4878 閱讀 5841

模糊決策森林

cezary z. janikow

department of math and computer science

university of missouri – st. louis

摘要:過去,我們已經提出了模糊決策樹,現在作為一種擴充套件就稱本文中的方法為模糊決策森林。森林背後的想法不僅是要代表多個樹,而且還要代表在每棵樹的各級進行的測試選擇。

這樣產生的樹其實是乙個三維樹。森林允許在決策樹的一些或所有的結點進行測試的多種選擇。然而,有多個測試選擇的主要優點是在測試資料的特徵是不可靠或丟失的情況下,有選擇測試決策。

在本文中,我們概述了模糊決策森林背後的想法,並且用特徵值缺失的資料進行了大量的實驗,證明了這種方法的增強能力。

一引言當今時代,面對海量的的資料,開發能夠處理和挖掘資料的電腦程式顯得尤為重要。對於分類任務,決策樹被證明是最成功的方法之一[1] [6] [7]。用決策樹的形式以及推理步驟的來獲取知識,一直以準確性,效率和可理解性為人稱道。

決策樹方法原本是為符號域和乙個簡單的決策過程提出的[6],它有著許多方**的進步性,如能產生二叉樹處理連續資料[1],新的推理過程,例如,計算決策的概率[7],最後納入模糊集和不確定性推理推論法說明噪音和不確定的狀況[2] [8]。決策樹是由兩個要素組成:乙個自上而下的劃分遞迴過程,生成決策樹,然後從得到的樹推出規則。

該過程開始於訓練集,根據可用的變數和域通過特徵的組合來表達,並劃分為若干類。劃分過程一次選擇乙個測試,通常是乙個特徵,然後根據測試特徵將資料分成幾個子集。選定的測試是為了最大限度地提高一些目標,如將不同類的樣例分離[7]。

一旦樣例被完美的分類或者達到一些其他目標,遞迴過程就停止 [7]。隨後的推理規則使用樹來分配新的測試資料,到達一些相同的類。

模糊集與邏輯被提出用來處理語言和資料有關的不確定性[9]。同不確定性推理相結合,模糊表達提供了更大的穩定性和魯棒性。這種表示已納入決策樹,在樹中仍然保持了其標準的優勢,並且更強大和更穩定[2] [8]。

乙個模糊決策樹(fid)就是這樣乙個擴充套件[2]。 fid可以處理由符號值和連續變數混合描述的資料。 fid原本要求所有域預劃分成模糊集。

之後又被擴充套件到允許預劃分和未劃分的變數共存[3] [4]。然而,fid具有和所有決策樹一樣的傳統缺點。決策樹過程試圖儘量減少訓練資料分類的測試次數。

這大大提高了綜合性,但同時也減少了在資料中學習到的特徵數量。認識到這個潛在的問題以後,研究人員提出了擴充套件,如:得到多個不同的決策樹,隨後表決或應用另乙個決策過程再對新的資料集進行分類。

模糊決策森林包含了與模糊決策樹相似的思想。最後獲取的知識是更高維的而且是更不好理解的。但是模糊決策森林的簡單切片卻減少了對簡單樹的描述。

此外,最後得到的模糊決策樹提高了分類的精度,尤其是處理特徵值丟失的測試資料的時候。在本文中,我們綜述了模糊決策樹背後的思想,然後給出了實驗結果,說明它的增強能力。

二模糊決策森林

建立乙個決策樹的過程是:每乙個樹結點選擇乙個測試,這可以最大化的使不同類的資料分離。這種單一的測試產生最小的知識——決策樹的過程就是乙個判別學習過程的乙個例子,其目的是儘量減少類描述,從而減少了測試的變數和測試特徵的集合。

當兩個測試在乙個結點提供相似的質量,其中乙個需要遺棄,取捨哪乙個有時候是很隨機的。遺棄的那個測試減少了樹中表達的知識。

在乙個結點上執行的不同測試可能會導致不同的決策。保留這多個測試,用衝突的解決過程組合,增加了分類的潛力。這在兩種情況下尤其重要:

1.與成功測試相關的特徵在給定的測試資料可能是有噪音或不準確的。保留選擇測試提高了**精度。

2.在乙個給定的測試資料中,和成功測試相關的特徵可能資訊存在丟失。處理這個問題傳統的方法是測試這個特徵的所有情況然後解決由此產生的衝突[7]。再者,保留其他相關的測試,可以使得推理更全面和更正式。

模糊決策森林通過允許在所有結點上執行選擇測試來擴充套件模糊決策樹。fdf除了以下的方面,建樹過程和fid是一樣的:在乙個特定的結點,可以選擇不止乙個測試。

每乙個測試結果,將生成不同的子樹。實際選擇的測試的數量,是基於一些啟發式和引數。通過選擇將相似類分離是重要的;但是,潛在的選擇試驗次數在更深的層次將減少。

如果在根結點有不止乙個測試,結果得到的樹其實是乙個森林。此外,選擇測試也可以在更深的層次探索,產生了乙個三維樹[5]。

通過在每乙個結點選擇乙個測試可能會產生森林的乙個部分。森林的一部分確實是乙個決策樹。從相同的資料中,在每個結點進行最好的選擇測試生成的森林和決策樹建立的樹是一樣的。

當然,你需要乙個推理過程來探索在森林保留的額外資訊。fid提供了許多推理過程[2]。每乙個推理過程需要用到路徑約束匹配測試資料的所有葉子,並以一些方式結合那些葉子的類別。

當資料和模糊決策森林不止一棵樹匹配的時候,就會導致僅僅是更多的葉子參與最終投票。樹的每個部分投出屬於自己的一票。然後,每乙個部分提出推理和類別。

這一推論是:

a)每個類的投票和(乙個簡單的投票),

b)加權和,在部分中(片相匹配的測試資料更具有加權更高的表決),

c)加權和,用產生結果的每個測試的長度來加權(匹配測試資料的部分不但更好而且有更多的訓練資料有較高的投票)

模糊決策森林如圖1所示,在這裡我們假設三個變數a,b和c,域作為說明。森林在兩個結點只使用了兩個選擇測試,看上去是個二維的。

圖示中的森林可以用三種方法分解,如圖2所示。假設第乙個部分對應佔主導地位的模糊決策樹,就是如果不選擇替代測試方法會建成的那棵樹。現在假設,我們有具有以下特點的測試資料:

a=a2, b=b1, c=c1.。第一部分將資料分到的葉子上類別,第二部分將資料分到的葉子上類別,第三部分將資料分到葉子上的類別。當解決了這三者之間的潛在的衝突時,我們可以給來自主導樹的中更高的權重。

另外,如果有更多訓練資料,我們給它更高的權。這證明了來自森林的潛在推論。

三實驗我們已經進行了兩組實驗,一組是在從機器學習保管人那裡得到的真實資料---glass的資料,另一組是人為修改過的資料---修改過的glass資料。

3.1 玻璃資料

glass資料集是機器學習中使用的標準資料之一。它包含214個樣本,7個不同的glass類。每個資料樣本由9個連續值屬性描述,並且屬性值是無缺失的。

首先,我們訓練乙個模糊決策樹,模糊決策森林在10字交叉驗證中建立起來,當面臨著同樣的終止條件,計算訓練集中的錯誤(避免與實驗一過分專業化),結果列於表1。正像我們所看到的,模糊決策森林訓練是為了讓訓練資料達到更高的精度。

如果模糊決策樹通過overspecializing它的樹實現了較高的訓練精度,這本身可能是不相關的。為了驗證這一點,我們用測試資料測試生成的模糊決策樹和模糊決策森林,同樣是用10字交叉驗證,在真實資料上開始進行。結果如表1,它表明模糊決策森林具有更高的精度。

然後,我們重複同樣的試驗,但每次從測試集中刪除不同百分比的特徵。這些結果如圖3所示。正如所看到的,模糊決策森林和單獨的模糊決策樹相比在缺失特徵資料上顯示出了更高的魯棒性

3.2 修改過的glass資料

我們還修改了glass資料,如下:對於每三個隨機屬性,我們增加了兩個屬性並隨機生成對應的屬性值,但通過這種方式,新屬性到原始屬性的關係是0.75和0.

5。這是為了模擬乙個或多個屬性是相關的,能產生相似的測試的情況。然後,我們重複以前的10字交叉驗證實驗:

訓練模糊決策樹和模糊決策森林,之後在缺失特徵值的資料上測試。結果如圖4所示,它說明用模糊決策樹方法可以在屬性相關上取得優勢以建立多餘的部分來提高**精度(給定執行引數,切片數量從6到11)。

4 結論

我們提出了模糊決策森林的概念,它通過在樹的一些結點進行多種測試來重新訓練,從而擴充套件決策樹。最終得到的樹確實是乙個三維的森林。森林可以被切割,產生單個決策樹。

但是,很多切片可以用在對測試資料進行分類的推理過程中。當測試資料中的一些特徵是含噪音的,不確定的,或者只是缺失的時候,這個過程特別有用。實驗結果確實證明,產生的森林在我們經常遇到但又不好的條件下,更有推理能力。

該軟體可從得到。

10. 參考文獻

[1] breiman, l., friedman, olshen, stone, classification and regression trees, wadsworth

and brooks, 1984.

[2] janikow, 「fuzzy decision trees: issues and methods」, ieee transactions on man, systems, and

cybernetics, vol. 28, issue 1, pp. 1-14, 1998.

[3] m. fajfer, janikow, 「bottom-up partitioning in fuzzy decision trees」, proceedings of the 19th

international conference of the north american fuzzy information society, atlanta 2000, pp. 326-330.

[4] janikow, m. fajfer. 「fuzzy partitioning with fid3.

1」, proceedings of the 18th international conference of the north american fuzzy information society, ny 1999, pp. 467-471.

[5] janikow, m. fajfer, 「fuzzy decision forest」,proceedings of the19th international conference of the

north american fuzzy information society, atlanta 2000,pp. 218-221.

[6] quinlan, 「induction on decision trees」, machine learning, vol. 1, 1986, pp. 81-106.

[7] quinlan, c4.5: program for machine learning, morgan kaufmann, san mateo, ca, 1993.

外文文獻翻譯要求

畢業設計 外文文獻翻譯要求 根據 普通高等學校本科畢業設計 指導 的內容,特對外文文獻翻譯提出以下要求 一 翻譯的外文文獻一般為2篇,外文本元要求不少於1.5萬 或翻譯成中文後至少在以上 二 翻譯的外文文獻應主要選自學術期刊 學術會議的文章 有關著作及其他相關材料,應與畢業 設計 主題相關,並作為外...

如何翻譯外文文獻

在科研過程中閱讀翻譯外文文獻是乙個非常重要的環節,許多領域高水平的文獻都是外文文獻,借鑑一些外文文獻翻譯的經驗是非常必要的。由於特殊原因我翻譯外文文獻的機會比較多,慢慢地就發現了外文文獻翻譯過程中的三大利器 google 翻譯 頻道 金山詞霸 完整版本 和cnki 翻譯助手 2fg0f8c7a 夜十...

外文文獻翻譯要求及封面

畢業設計 外文文獻翻譯要求 根據 普通高等學校本科畢業設計 指導 的內容,特對外文文獻翻譯提出以下要求 一 翻譯的外文文獻一般為1 2篇,外文本元要求不少於1.5萬 或翻譯成中文後至少在以上 二 翻譯的外文文獻應主要選自學術期刊 學術會議的文章 有關著作及其他相關材料,應與畢業 設計 主題相關,並作...