聚類分析在使用者分類中的應用

來源:果殼範文吧 2.99W

什麼是聚類分析?

聚類分析在使用者分類中的應用

聚類分析屬於探索性的資料分析方法。通常,我們利用聚類分析將看似無序的物件進行分組、歸類,以達到更好地理解研究物件的目的。聚類結果要求組內物件相似性較高,組間物件相似性較低。在使用者研究中,很多問題可以藉助聚類分析來解決,比如,網站的資訊分類問題、網頁的點選行為關聯性問題以及使用者分類問題等等。其中,使用者分類是最常見的情況。

聚類分析的基本過程是怎樣的?

選擇聚類變數

聚類分析

找出各類使用者的重要特徵

聚類解釋&命名選擇聚類變數

設計問卷的時候,我們會根據一定的.假設,儘可能選取對產品使用行為有影響的變數,這些變數一般包含與產品密切相關的使用者態度、觀點、行為。但是,聚類分析過程對用於聚類的變數還有一定的要求:

這些變數在不同研究物件上的值具有明顯差異;

這些變數之間不能存在高度相關。因為,首先,用於聚類的變數數目不是越多越好,沒有明顯差異的變數對聚類沒有起到實質意義,而且可能使結果產生偏差;其次,高度相關的變數相當於給這些變數進行了加權,等於放大了某方面因素對使用者分類的作用。

識別合適的聚類變數的方法:

對變數做聚類分析,從聚得的各類中挑選出一個有代表性的變數;

做主成份分析或因子分析,產生新的變數作為聚類變數。聚類分析

相對於聚類前的準備工作,真正的執行過程顯得異常簡單。資料準備好後,丟到統計軟體(通常是spss)裡面跑一下,結果就出來了。

這裡面遇到的一個問題是,把使用者分成多少類合適?通常,可以結合幾個標準綜合判斷:

看拐點(層次聚類會出來聚合係數圖,如右圖,一般選擇拐點附近的幾個類別)

經驗或產品特性判斷(不同產品的使用者差異性也不同)

在邏輯上能夠清楚地解釋找出各類使用者的重要特徵

確定一種分類方案之後,接下來,我們需要返回觀察各類別使用者在各個變數上的表現。根據差異檢驗的結果,我們以顏色區分出不同類使用者在這項指標上的水平高低。如下圖,紅色代表“遠遠高於平均水平”,黃色代表“平均水平”,藍色代表“遠遠低於平均水平”。其他變數以此類推。最後,我們會發現不同類別使用者有別於其他類別使用者的重要特徵。

聚類解釋&命名

在理解和解釋使用者分類時,最好可以結合更多的資料,例如,人口統計學資料、功能偏好資料等等(如下圖)……最後,選取每一類別最明顯的幾個特徵為其命名,就大功告成啦!



熱門標籤