誰是最好的客戶

《資料探勘》課程作業

課程名稱資料探勘

指導老師張蕊

班級軟體工程0703

學號0120710680319

姓名向堯

日期 2023年6月10日

目錄摘要3

關鍵字3

引言3一、資料集說明3

二、資料處理4

三、總結17

四、參考文獻18

誰是最好的客戶？

摘要本文使用spss 的頻數分析、描述性分析、缺失值分析、方差分析、卡方檢驗、交叉表、

均值比較、相關分析、線性回歸、決策樹等統計方法及餅狀圖、條形圖、箱圖、散點圖、

樹形圖等圖表對乙個客戶資料案例進行分析，以發現不同客戶群體的特徵，為市場推廣活

動提供依據。

關鍵詞市場，細分，客戶，統計，分析，比較

引言：誰是最好的客戶？任何行業專業人士——市場人員，銷售經理，產品開發者和服務專家——都樂意回答這個問題。

在當今激烈的市場中，開發，吸引和保留客戶越來越困難同時也越來越昂貴。由於這些壓力，更多的組織使用營銷資料庫最大化他們現有的客戶價值。轉換客戶資料為知識和資訊的行為是乙個有力的手段和企業生存的一項必需的技能。

理解客戶的固有特徵可以給你有價值的發現。了解最有價值或至少有利潤的客戶，他們的購買方式，購買行為和人口統計特徵是制訂營銷計畫的關鍵。較好地理解客戶是什麼可以幫助你開發忠誠的，有持續回報的客戶，制訂提公升銷售和交叉銷售及營銷定位計畫。

集思廣益的決策也是廣告，**，直接郵寄活動和其他營銷成功的基礎。

有許多方式可以確定最佳客戶的特徵，也有許多方法可用來度量這些特徵。本文說明使用spss實現客戶分析的一種方法。

一、資料集說明

案例營銷資料庫中包含2000個客戶和下列資料：

首次成為公司客戶的日期

購買歷史

不同**方案的響應率

家庭收入

地區性別和其它人口統計資料

本文中我們從資料庫中析取可控資訊，使用各種資料分析技術，從初級的到高階的，目標是依據過去的銷售額用人口統計資料來識別不同的細分客戶群。

即使最普通的過程產生的結果對怎樣理解客戶也可以產生深刻的含意。不要低估這些方法。用靈活和有力的分析工具結合你的業務背景是從資料中獲得有價值資訊的最好方法。

二、資料處理

首先探索：典型客戶是什麼樣的？

我們通過從資料庫中探索不同的變數來回答這樣的問題：

客戶住在**？在三個銷售區域中客戶的分布如何？

客戶的平均收入是多少？

成為公司客戶的時間有多長？

對不同的**方案，客戶平均響應是多少？有多少人響應第一**方案？

客戶花費是多少？

spss 提供了可以迅速回答以上問題的幾種分析方法，頻數和描述性分析過程可以提供對客戶資料的初步印象。

從圖1 餅狀圖中可以看出，東部地區所佔比例最大(34%)，西部地區最小(19%)，而有16.9%的資料未列出所屬地區。

圖 1 和表 1。spss自動形成的圖表顯示最多的客戶（34%）生活在東部地區。

頻數和描述過程非常適合對資料進行原始整理，可能在分析中許多想法都要用這種方法實現。

分析客戶住居在**幫助我們確定銷售版圖。頻數過程提供分類變數計數和百分比表，同時可用條圖，直方圖和餅圖表示資料。spss 自動地呈現這些表和圖的結果。

從分析中我們可以認識到什麼證明是重要的。餅圖和表1顯示最大的客戶群（34%）生活在東部地區，最小的客戶群（19%）生活在西部地區。並且有16.

9%的客戶在資料庫中沒有列出居住區域。

spss 用特殊的處理表示缺失資料。知道何時為什麼資訊缺失很有必要。例如，你可能想區別是因為它們沒有涉及而缺失還是因為它們難以獲得而缺失。

表1中，「百分數」包括缺失資料，「有效百分數」從計算中排出了缺失資料，可以從表上迅速並行比較缺失資料怎樣影響結果的。

要得到家庭收入的資訊，我們需要幾個基本的統計量作為最初描述統計量。如平均值，最小和最大值，或連續變數，如以美元為單位的收入和以年數為單位的年齡。描述過程為我們提供了一系列匯**計量。

從表2可以看到在2000個客戶中家庭收入的平均值大約是 $61,000, 大部分收入範圍在 $50,000和 $72,000之間。

表2. 描述過程顯示平均家庭收入大約是$61,000.

要回答「成為公司客戶的時間有多長?」的問題，我們必須處理乙個字段然後計算每個時間週期的客戶數。因為資料庫包含第一次成為公司客戶的日期，首先計算乙個新變數：

作為客戶的時長。使用spss中提供的眾多的時間函式，可以輕而易舉地用年數轉換成日期計算客戶的時長。計算這個新變數後，用時長的頻數表來表示客戶存在時間。

表 3. 頻數表顯示51%的客戶存在超過7年。

從表 3 看出大約有29%的客戶存在10年以上，差不多有過半數的客戶在7年以上。接下來，我們要問「誰消費最多？」，最好的客戶理所當然是最有利潤的客戶，或為組織花費最多的客戶。

為了得到準確的客戶生命週期價值，結合前期購買和客戶行為建立**模型**未來購買。

本例中，我們開始用總訂單金額代替每個客戶。首先，建立乙個新變數，對資料庫中每個訂單金額（訂單1的金額，訂單2的金額等等）求和。因為總訂單金額是連續變數，直方圖是顯示結果的最有效的方法。

圖 2. 從直方圖可以看出大部分客戶消費低於$500，少數幾個客戶消費量比較大。

直方圖的直條代表乙個資料範圍。在圖2中大部分客戶消費低於$500，少數幾個客戶消費量比較大。每個客戶平均消費量是$1,360 ，很少有客戶消費量超過$7,000。

當目前為止，我們知道典型的客戶是：

生活在東部

家庭平均收入為$61,000

有七年購物歷史

在公司產品和服務上消費 $1,360

客戶對不同的**有怎樣的響應？

進行**分析是理解客戶的另乙個重要步驟。評估營銷計畫和**幫助分辨可以做什麼可以不做什麼。它準確地告訴我們何時及為什麼某個計畫成功，所以你可以拷貝你的成功經驗和學習失敗的經驗。

要回答「每種**有多少人響應？」和「不同的**平均響應是多少？」的問題，可以對每種**響應執行頻數分析過程和對四種**的訂單執行描述分析過程。

表 4. 大約有45%，或890人對第一**方案有響應。

在表4中，有890人，或大約45%的客戶響應第一**方案。對其它**進行類似的分析，第二**方案的響應率是39%，第三**方案的響應率是37.4%，第四**方案的響應率是17.

4%。這裡出現乙個新問題：在第四**方案中唯一的特徵是它較成功的獲得客戶響應的原因嗎？換句話說，這種結果有意義嗎？

購買歷史（表5）資訊顯示第三**方案的平均值是$294, 低於其它**方案。這種差別是否有統計意義還需進一步分析來確定。

表 5. 購買歷史分析顯示第三**方案的平均值是$294, 低於其它**方案。

進一步分析：我們的客戶怎樣不同？怎樣相似？

既然對客戶和各種**的成功有乙個基本的理解，通過觀察兩個或多個變數立刻支援這種有力的分析。spss 幫助發現用別的方式難於發現的潛在關係。例如，已經知道客戶在各區域分布和有多少客戶響應第一**方案。

接下來要觀察各區域響應第一**方案的客戶有多少。通過研究回答這些問題：

每個地區客戶生命週期平均是多少？

各區域人們怎樣響應第一**方案？

spss很容易實現比較不同的分組資料。crosstabs過程，means過程, 分段條圖和箱圖都可以清晰地表示這些結果；當結果有統計意義時，可用卡方統計量，方差分析和chaid識別。當你知道什麼是有統計意義時，這就很重要了，因為你沒有浪費你的努力。

下一步探索的問題是「每個區域客戶平均生命週期是多少？」。乙個強有力的統計圖，箱圖將均值和資料分布顯示在一起。圖3箱圖中很容易看出西部地區客戶平均生命週期大於其它地區。

圖 3. 箱圖將均值和資料分布顯示在一起。很容易看出西部地區客戶平均生命週期大於其它地區。

均值比較提供聯合分布的匯**計。表6（包含與箱圖相同的資訊，但用表的形式）顯示總平均時長是 7.49 年，西部地區比東部和中部地區平均占有期長。這個發現有意義嗎？

統計顯著性告訴你如果差別是隨機的，或它們概率值很大，需進一步分析判斷。如果差別是隨機的，意味著結果同原假設一樣。即變數沒有顯著性影響或對結果沒有發生影響。

如果差別有統計意義，意味著備擇假設成立，表明有非隨機因素的潛在影響。當統計意義存在時，進一步探索非常必要。

表6. 均值比較報告顯示總平均生命週期是 7.49 年，西部地區比東部和中部地區占有時間要長。

圖7的anova表顯示區域與時間週期有統計意義的差別。因為顯著性水平是0.000, 或小於0.

05，能夠得出均值間差別很可能統計意義的結論：區域和生命週期的差別很可能不是隨機因素引起的而與其它因素有關。可能的原因是：

首先在西部區域開展**，但在不同的區域有更多的產品需求，或某種產品功能在乙個區域成功地**。了解你的業務，關鍵資料，支援你的直覺也是很重要的。

表7. anova表顯示各區域有統計意義差別，表明要做進一步的分析。

接著對**響應進行分析。spss使用分段條圖將四種**資訊組合在一起，並將其視覺化。圖4提供按區域響應方式彙總表。

可見中部地區同其它兩個地區相比訂單較少，特別是同西部相比。通過觀察區域頻數分布不會得出這個推測，它只告訴我們西部地區包含最少的人口。

圖 4. spss 分段條圖提供快速清晰的方式表達各區域響應方式。

要查明如果這是顯著的，我們要進一步按區域探索各種**結果。要回答「有多少人在各區域響應第一**方案」的問題，我們在第一**方案和區域因素上執行交叉表過程。表8顯示響應第乙個**方案的人有41.

3%來自東部地區（列百分比）。而響應第乙個**方案的人只有26.5%來自西部地區，超過半數（50.

5%）的西部居民（行百分比）響應了**。要理解如果區域確定對第一**方案可能的響應，比較的是區域百分比（行百分比）並發現東部地區的居民45%響應了這個**，中部地區的居民40%響應這個**。根據這個資訊，對第一**方案，得出西部是乙個**較好銷售區域的結論。

可是，當百分數看起來不同時，在西部地區啟動拷貝第一**方案就沒有充分的理由。首先，我們必須確定這些百分數是否有統計意義。這裡，如果統計意義存在，卡方統計量可以表示。

誰是最好的客戶

誰是誰的誰

誰是誰的誰

誰是我的朋友

誰是最好的客戶

誰是誰的誰

誰是誰的誰

誰是我的朋友

相關推薦