0x00 前言 數據圖表的選擇(上),分享了「時序數據」和「比例數據」的可視化圖表方案。 不同的數據類型、不同的闡述目的,決定了數據可視化展現形式的差異。因此,今天這篇文章,主要是分享兩類不同的可視化目的及其可選擇的圖表形式。
0x01 對比型數據可視化 在實際工作中,我們經常需要對比多組數據之間的差異,而這些差異通常是通過不同的標記和視覺通道體現出來。
1.柱狀圖 在《數據圖表的選擇(上)》有寫到,柱狀圖是離散時間數據可視化的方式之一,只不過這里的系列值的數據類型是「時間」而已。 柱狀圖除了可以用于離散時間數據的可視化,更多的是用于比較不同分類數據的可視化,且柱狀圖的數據條數,最好不要超過12條。 以下根據數據類別的個數和可視化的目的,細化柱狀圖的圖表選擇:
2.條形圖 條形圖,可以視為是柱狀圖的一種變體,在大部分情況下,是可以互換的。那么在哪些情況下,條形圖能比柱狀圖更好的展示數據呢?
3.面積圖 面積圖,是折線圖的一種延伸,其實就是折線圖和折線圖投影到X軸的直線所圍成的面積。 按照對比方式的不同,面積圖可以分為:「重疊對比型面積圖」和「堆砌對比型面積圖」,兩者的區別如下。
面積圖,一般也是用于趨勢分析中。 當需要分析各個系列,隨時間的變化趨勢時,此時使用「重疊對比型面積圖」比較合適;當既需要分析整體隨時間的變化趨勢,又要了解整體的各構成項隨時間的變化趨勢時,使用「堆砌對比型面積圖」比較合適。 4.氣泡圖 氣泡圖,和散點圖的區別是,氣泡圖一般是用于三維數據的可視化,而散點圖是用于二維數據的可視化。 在散點圖中,圓點的面積是相同的,主要是通過圓點在坐標軸中的坐標點(X,Y)確定的位置,來映射數據。 而氣泡圖,是通過氣泡的面積大小來對比數據的圖形方式,它除了可以反映散點圖中坐標點X、Y的相關關系,還有一個維度的數據可以映射到氣泡的面積大小上,因此「氣泡圖」可以在二維平面展示三維信息的數據。 如上圖所示,左側的氣泡圖,每個氣泡展示了三個屬性的信息,X-代表人均GDP,Y-代表對應國家的平均壽命,Z-即氣泡的大小,代表對應國家的人口數量。所以,相較于散點圖而言,氣泡圖除了可以展示X、Y兩個變量間的相關關系,同時還可以對比主體另一個維度的數據,并且這個數據是映射到氣泡的大小上的。 當只有一個系列時,只需要一種氣泡圖只需要一種顏色即可。當有多個系列時,不同系列之間可以用顏色來區別。 5.單詞云圖 單詞云圖,主要是用于網絡文本中詞頻數據的可視化,如關鍵詞搜索,文章高頻詞,熱點事件關鍵詞等。 單詞云圖,是通過單詞的字號大小來反映詞頻的大小,字號越大,詞頻越高。通常,為了達到貼合主體的特征,以及視覺美觀的目的,用戶可以自定義單詞云的配色方案、背景形狀等設計層面的個性化。 通過單詞云圖,用戶可以快速找出網站搜索的高頻詞匯、了解文章的主旨、get到熱點事件的關鍵信息。但是要注意一點,單次云圖只適合表示一組文本數據的對比,不適合多個類別的文本數據之間的比較。 6.雷達圖/星狀圖 當需要對比一個主體、或多個主體本身,在不同維度上的特征時,雷達圖和星狀圖是不錯的選擇。 雷達圖和星狀圖的區別是:
簡單理解就是,雷達圖可以視為是星狀圖中的一行記錄。而且,一般情況下,會給予不同維度上的數值一定的權重,從而算出各個主體的綜合得分,我們的芝麻信用分就是這么來的。 0x02 分布型數據可視化 數據的分布特征,是統計學中「描述性統計」模塊研究的內容。要對數據的分布情況進行可視化呈現,首先需要了解數據的描述性度量(集中趨勢、離散程度、偏態和峰度),通過這些反映數據分布特征的關鍵指標,才能確定能夠使用哪些圖表來進行可視化展示。 描述性統計的相關內容,可以參考這篇文章《統計學第1篇 描述性統計》。 1.直方圖 我們常用的直方圖,主要有「頻數直方圖」和「頻率直方圖」,它們都是用于展示離散型分組數據的分布情況。 繪制直方圖,有如下幾步:
若縱軸表示的是頻數,則是「頻數直方圖」;若縱軸展示的是「頻率」,則為「頻率直方圖」,如上圖所示。 「頻數分布直方圖」中,頻數乘以組距得出每個分組的數量,可以看出頻數分布直方圖是用面積來表示頻數的,和柱狀圖(條形圖)是用長方形的高度(寬度)表示數量是有本質性區別的。 2.莖葉圖 莖葉圖一般適合數據為整數的數據的可視化,就目前而言,我工作中用得比較少,簡單講下用法。 莖葉圖的原理是,將一組數據按照數據位數進行比較,將數據中的高位數作為樹莖,低位數作為樹葉。假設有如下一組數據: 3,7,9,14,15,16,25,26,29,36,41,43,45,46,49 數據范圍頻數0-9310-19320-29330-39140-495 對應的樹莖和樹葉可以表示為: 樹莖樹葉03791456256936413569 圖形化表示為: 3.箱線圖 在描述性統計中,有涉及到分位數相關的知識,其中比較常用的是四分位數,即一組數據中的下四分位數Q1、中位數、上四分位數Q3,關于分位數的概念不清楚的同學可以自行查閱相關資料。 一組數據中的四分位數,加上這組數據的最大值、最小值,這5個特征值,就可以繪制一個箱線圖。 箱線圖釋義:
箱線圖常用的場景有如下幾類: (1)對比多組數據的分布情況。 (2)檢測數據中的異常值或離群點。 4.概率密度圖 若要描述連續型隨機變量其分布規律,概率密度圖是一種很直觀表現形式。 在數學中,連續型隨機變量的概率密度函數是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數,簡單理解就是,連續型隨機變量取值某個確定數值的概率,即為縱切直線與概率密度函數交點的縱坐標的值。而隨機變量的取值落在某個區域之內的概率則為概率密度函數在這個區域上的積分,也就是區間的上下限與概率密度曲線圍成的面積。 通過圖形化的方式,我們可以清楚的看到隨機變量分布的對稱性情況,以及隨機變量取值是集中還是分散,這些可以通過偏態系數和峰度系數來度量,此處不深入闡釋。 5.散點圖/氣泡圖 可參照上述氣泡圖描述部分,不重復贅述。 但是需要記住散點圖和氣泡圖的區別:
6.熱力圖 熱力圖,是通過密度函數進行可視化,用于表示地圖中點的密度的熱圖。現階段,熱力圖在地圖、網頁分析、業務數據分析等其他領域也有較為廣泛的應用。
7.地圖 當數據帶有地理型信息屬性時,首選的可視化圖表為地圖。按照展示的數據空間劃分,地圖可以分為二維平面地圖和三維立體地圖。 比如我們常用的導航軟件、天氣預報、降水量、臺風移動路線等都和地理信息相掛鉤,這些數據一般也是在地圖上進行呈現,給人以直觀的視覺體驗。 0xFF 總結 無論是要對比數據,還是研究數據的分布情況,都需要根據數據的類型、數據的特征來確定可視化的最佳方式。 根據數據之間的關系、分析目的、數據特征,來選擇和確定相應的圖表類型,這個是可視化過程中需要牢牢把握的要點。圖表的目的,是為了更直觀、準確的呈現數據背后的信息和知識,不同數據關系應該選擇什么圖表都是有套路的可循的。 但是,如果只是為了使用某個覺得高大上的圖表,而不管數據的特征是否適用,則是舍本逐末的做法,最終的可視化效果也必定是不理想的。 |
|
來自: CDA數據分析師 > 《數據分析·Python編程·可視化》