對葡萄酒的評價的分析

林彩密葛欣雨蔣耀萱

問題一的解答

本文提供了大量與葡萄酒有關的資料，要求參賽者通過資料的處理確定葡萄酒的質量。主要設及4個問題：

1、分析附件1中兩組評酒員的評價結果有無顯著性差異，哪一組結果更可信？

2、根據釀酒葡萄的理化指標和葡萄酒的質量對這些釀酒葡萄進行分級。

3、分析釀酒葡萄與葡萄酒的理化指標之間的聯絡。

4、分析釀酒葡萄和葡萄酒的理化指針對葡萄酒質量的影響，並論證能否用葡萄和葡萄酒的理化指標來評價葡萄酒的質量。

問題一要求我們分析兩組評酒員評價結果有無顯著性差異。在進行差異性檢驗之前必須先對資料服從的分布進行檢驗，從而選定合適的檢驗方法進行檢驗。

問題二要求根據釀酒葡萄的理化指標和葡萄酒的質量對釀酒葡萄進行分級。由題意可知除了葡萄酒的質量對葡萄的分級有比較大的影響外，釀酒葡萄的理化指標在一定程度上也會影響葡萄的質量。問題意在讓我們建立乙個綜合葡萄酒質量與釀酒葡萄理化指標綜合影響和葡萄分級的模型。

問題三要求分析釀酒葡萄與葡萄酒理化指標之間的聯絡。由於釀酒葡萄理化指標眾多，在分析兩者的聯絡之前需要對葡萄的理化指標進行篩選。

問題四要求分析釀酒葡萄和葡萄酒的理化指針對葡萄酒質量的影響，並論證能否用葡萄和葡萄酒的理化指標來評價葡萄酒的質量。難點在於對附件三葡萄酒和葡萄芳香物資料的使用。

這是關於大型資料處理與分析的結果，前面三個問題是第四個問題的基礎，最終目的是分析葡萄和葡萄酒理化指針對葡萄酒質量的影響。

問題二的解答

我們選擇的**是《葡萄酒的評價》（附件一），這篇**主要過程如下：

問題一：

在問題四中，先用用逐步回歸法分析葡萄酒理化指針對葡萄酒質量的影響，然後建立了芳香物質對葡萄酒質量影響的函式關係。

問題三、四的解答

文中主要用到了逐步回歸的擬合方法，公式

β0，β1，β2，β3…βn是待估引數，ε是表示誤差的隨機變數。

逐步回歸的基本思想是：對全部因子按其對y影響程度大小（偏回歸平方的大小），從大到小地依次逐個地引入回歸方程，並隨時對回歸方程當時所含的全部變數進行檢驗，看其是否仍然顯著，如不顯著就將其剔除，知道回歸方程中所含的所有變數對y的作用都顯著是，才考慮引入新的變數。再在剩下的未選因子中，選出對y作用最大者，檢驗其顯著性，顯著著，引入方程，不顯著，則不引入。

直到最後再沒有顯著因子可以引入，也沒有不顯著的變數需要剔除為止。

逐步回歸分析時在考慮的全部自變數中按其對y的貢獻程度大小，由大到小地逐個引入回歸方程，而對那些對y作用不顯著的變數可能是中不被引入回歸方程。另外，已被引入回歸方程的變數在引入新變數進行f檢驗後失去重要性時，需要從回歸方程中剔除出去。

求回歸方程的方法步驟如下：

設有含量為n的樣本，對每個觀察單位觀察了m個自變數xj(j=1，2，…m)和乙個應變數y(可記為xm+1)，得原始資料如表1。

表1 原始資料格式

(一) 資料的標準化轉換

其中是原變數的平均數、標準差。

標準化變數中：

標準化變數的回歸方程：

解下列方程組可求標準化變數的回歸係數：

其中：( i = 1, 2, … ,p ; j =1, 2, ……, p )

將原方程組的係數改換為相關係數的形式,再將(n-1)消去,得下面的形式。

標準化變數回歸係數與原變數的回歸係數間的關係可以表示為下面的形式:

（見下面推導過程）

因為所以

（二）初始相關矩陣

將正規方程組等號兩邊的簡相關係數構成矩陣,稱增廣矩陣,在其下方添上一行構成對稱矩陣,稱初始陣r(0),其實初始陣就是第十章所研究的簡相關係數矩陣r。引入或剔除變數後都要按一定規則對r(k)逐步變換來進行。(k為變換次數)。

r(0)=

1.偏回歸(貢獻)的計算及相關陣的轉換

無論是引入或剔除乙個因子都要計算該因子的偏回歸平方和(貢獻),計算式如下。

k=1,2,3,…

r(k)=

其中: k 為第k次轉換,i 為第 i 行,j 為第j 列。rij 為r(k)中第 i 行,第j 列的元素,t為引入或剔除因子序號。

當引入因子時應取vi中最大者,當剔除因子時應取vi 中最小者。每引入乙個因子或者剔除乙個因子,矩陣r(k)都要進行變換。每一次變換結果,矩陣的最右一列的最後乙個值就是標準化變數的q*,而u*=1- q*, 被引入變數xi 的回歸係數 bi 就是該列的第 i 個元素的值。

先規定乙個f*值，作為引入或剔除自變數時進行f檢驗的界值。對於給定的顯著性水準a來說，每一步作檢驗時的fa(1，n-m′-1)值是不同的，f但由於樣本含量n比引入自變數的個數m′大得多(一般在10倍以上)，所以各步的m′雖然不同，但fa(1，n-m′-1)值都近似相等。故為方便起見，可取乙個定數f*作為f檢驗的標準。

2. 計算每個變數的均數xj、離均差平方和(lii、ljj)，每兩個變數的離均差積和lij，以及相關係數rij，

並以求得的rij為元素列出原始相關矩陣r(0)(陣中rij(0)=rij)：

以後每引入或剔除乙個變數都計為一步運算。設r(0)經l步所得的r(l)為

對於每一步，r(l)均同樣按式(2)變換成r(l+1)。設引入或剔除的變數為xg(g為該變數的下標)，按式(2)作變換lg，則r(l)成r(l+1)時，兩矩陣中的各元素rij，有如下關係式：

（三）選自變數。

1. 引入未選量。按式(3)計算各未選量的偏回歸平方和vj(l+1)，

找出其中最大者，記作va(l+1)，就它所對應的自變數xa按式(4)作f檢驗：

式中m′為已引入變數的個數。當f1>f*時引入變數xa，並對r(l)按式(2)作變換la，得r(l+1);當f1≤f*時挑選變數工作就此結束。

2. 剔除已選量。引入新變數後，對原先引入的已選量分別計算其偏回歸平方和vj(l)：

3. 找出vj(l)中最小者，記作vb(l)。就vb(l)所對應的自變數xb按式(6)作f檢驗。

當f2≤f*時，剔除xb，並對r(l)按式(2)作變換lb得r(l+1);下一步對其餘已選量再按式(5)、(6)求vj並作f檢驗，直到已選量中沒有可剔除時為止;當f2>f*時，已選量都不能被剔除，於是再考慮從未選量中能否引入新變數。如此反覆進行到第l步，若已選量都不能被剔除，未選量都不能引入時，逐步運算結束。

4. 求回歸方程。由相關矩陣r(l)求得的回歸方程

稱為標準回歸方程，式中b′j是標準偏回歸係數，按式(7)求得。

b'j=rj.m+1(l)。(7)

實用中多元線性回歸方程常用變數xj的原單位，因此須再按式(8)求化成原單位後xj的偏回歸係數bj。

式中lm+1，m+1＝lyy，即y的離均差平方和，ljj為xj的離均差平方和。回歸方程的常數項按式(9)計算，

b0＝-∑bjxj9)

式中j為已選量的下標。於是得多元回歸方程為

b0+∑bjxj10)

5. 回歸方程的線性假設檢驗。按式(11)作方差分析。

回歸的剩餘標準誤差s按式(12)計算。

其意義標準誤差定義為各測量值誤差的平方和的平均值的平方根，故又稱為均方誤差。

多元相關係數r按式(13)計算，r是可決係數，用來表示擬合優度。人越大，擬合效果越好。

求得多元線性回歸方程後，就可利用它來進行**。

對葡萄酒的評價的分析

葡萄酒的評價

葡萄酒的評價

葡萄酒的評價

相關推薦