感謝關(guān)注天善智能,走好數(shù)據(jù)之路↑↑↑歡迎關(guān)注天善智能,我們是專注于商業(yè)智能BI,大數(shù)據(jù),數(shù)據(jù)分析領(lǐng)域的垂直社區(qū),學(xué)習(xí),問答、求職一站式搞定! 之前在Excel圖表合集那篇文章了曾提了幾點(diǎn)Excel與其他可視化工具以及編程類軟件在可視化理念方面的粗淺理解,有小伙伴兒在后臺(tái)回復(fù)說還是沒有聽明白。 可能是我當(dāng)時(shí)沒有說清楚,今天這篇,我專注于Excel的作圖規(guī)則,深入的研究下Excel由數(shù)據(jù)源到可視化圖表之間的關(guān)系是如何對(duì)應(yīng)的,倘若你已經(jīng)在工作中橫跨好幾種可視化工具(包括Excel),那么本文可以更好地幫助你理解Excel與其他工具的區(qū)別。 倘若你還一直局限在Excel的圈子內(nèi),那也沒關(guān)系,仔細(xì)體會(huì)這一篇內(nèi)容,后續(xù)記得跟蹤我針對(duì)其他可視化工具作圖理念的匯總,相互比對(duì)就能體會(huì)其中深意。 Excel對(duì)寬數(shù)據(jù)和長(zhǎng)數(shù)據(jù)的適用范圍: 1、Excel的圖表模塊更適合寬數(shù)據(jù)(即匯總過的二維表); 在長(zhǎng)表中,我將選中得三列全部作為簇狀柱形圖的數(shù)據(jù)源,默認(rèn)的柱形圖如下所示,雖然在橫軸上也出現(xiàn)了兩個(gè)維度信息(公司維度、日期維度),但是兩個(gè)維度布局的很不友好。 2、針對(duì)寬數(shù)據(jù)而言,Excel并不嚴(yán)格限定行列(允許行列自由轉(zhuǎn)置),過渡的自由有時(shí)候會(huì)造成制圖效率的低下,所以如果能領(lǐng)會(huì)我接下來教給你的心得,那么你的制圖效率將會(huì)提高很多。 在詳細(xì)解釋以上內(nèi)容之前,你需要對(duì)數(shù)據(jù)結(jié)構(gòu)中的基本概念有所了解,即什么叫維度、什么叫度量。 如果不那么嚴(yán)格的進(jìn)行定義,你可以粗略的將數(shù)值型指標(biāo)當(dāng)做度量(并不絕對(duì),要視實(shí)際意義而定),類別型指標(biāo)視作維度。(這其實(shí)對(duì)應(yīng)于統(tǒng)計(jì)學(xué)中的變量類別劃分標(biāo)準(zhǔn):定類變量/定序變量——維度,定距變量/定比變量——度量) 了解變量類型之后,我們可以知道,我們的源數(shù)據(jù)包含兩個(gè)維度(公司、日期),一個(gè)度量(對(duì)應(yīng)日期某公司的指標(biāo))。 源數(shù)據(jù)的維度之間可以自由的轉(zhuǎn)置(與線性代數(shù)中的轉(zhuǎn)至概念沒什么差別,就是行列位置的對(duì)應(yīng)調(diào)整,并不改變具體度量值,改變的只是呈現(xiàn)數(shù)據(jù)的方式)。 轉(zhuǎn)置在Excel中有兩種方式可以完成,一種是復(fù)制數(shù)據(jù)源,選擇性黏貼——行列轉(zhuǎn)換。 另一種則是在已經(jīng) 完成的默認(rèn)圖表選擇菜單中點(diǎn)擊行列數(shù)據(jù)變換。 我使用同一數(shù)據(jù)源的原始維度和轉(zhuǎn)之后的維度分別插入了默認(rèn)的簇狀柱形圖。結(jié)果如下。 仔細(xì)分析以上數(shù)據(jù)源與默認(rèn)圖表的行列對(duì)應(yīng)關(guān)系你會(huì)發(fā)現(xiàn),三個(gè)指標(biāo)的位置在原始表格與圖形化后的圖表上分布及其有規(guī)律。 列標(biāo)題總是對(duì)應(yīng)圖表中的橫軸,行標(biāo)題總是對(duì)應(yīng)圖表中的圖例。而度量總是呈現(xiàn)在圖表的縱軸(數(shù)量軸或者說Y軸)上。 這個(gè)規(guī)律是Excel圖表的默認(rèn)規(guī)則,當(dāng)然你不必要嚴(yán)格執(zhí)行此規(guī)則,那么不執(zhí)行的后果就是,如果維度呈現(xiàn)的順序不符合你的意圖,你要么需要在源數(shù)據(jù)中進(jìn)行數(shù)據(jù)轉(zhuǎn)置,要么需要在圖表的選擇菜單里進(jìn)行行列變化,進(jìn)而轉(zhuǎn)換成你中意的圖表呈現(xiàn)形式。 所以結(jié)論就是,你的數(shù)據(jù)源組織,需符合以下要求:
3、Excel的圖表模塊并沒有數(shù)據(jù)聚合功能。 (原因大概是這個(gè)模塊并不能識(shí)別因子變量)。 我所說的聚合是指,通過將一組分類指標(biāo)(一個(gè)維度與一個(gè)度量)按照類別分開并計(jì)算各類的均值、眾數(shù)、中位數(shù)、方差、標(biāo)準(zhǔn)差、求和計(jì)算等。 所以,無論你的維度里面包含多少類別,Excel圖表都只會(huì)把單個(gè)觀測(cè)值視作單獨(dú)的指標(biāo),這是它與主流可視化工具以及編程類工具在可視化功能上的最大差別和缺憾,也是驗(yàn)證上述觀點(diǎn)中:Excel圖表模塊專為二維表(寬數(shù)據(jù))所設(shè)計(jì)的證據(jù)之一。 以上圖示中,列是一個(gè)呈現(xiàn)公司維度的指標(biāo),這種維度在數(shù)據(jù)庫中非常常見,可能是日期的細(xì)分維度、也可鞥是地區(qū)的細(xì)分維度。 但是Excel的默認(rèn)圖表將維度的單個(gè)觀測(cè)全部視作唯一值,而不會(huì)對(duì)其進(jìn)行任何分類聚合操作。 所以我們要想直接呈現(xiàn)匯總后的圖表,需動(dòng)用數(shù)據(jù)透析表進(jìn)行維度透析,或者,將其整理成二維表制作多分類的可視化圖表。 (以上操作同樣適合條形圖,只是條形圖實(shí)質(zhì)上相當(dāng)于將柱形圖向右旋轉(zhuǎn)了90,所以條形圖的行列概念與柱形圖剛好顛倒過來) 4、Excel是如何識(shí)別維度指標(biāo)的。 這里先放四張圖供大家思考: 我想大家一定看出了些貓膩,但是好像還不說不出其中的端倪。 我是這么理解的,Excel的圖表模塊是通過行列標(biāo)題來自動(dòng)探測(cè)并識(shí)別維度指標(biāo)的。以上四幅圖最符合我們需求的的應(yīng)該是第一張圖,該圖完整的呈現(xiàn)了兩個(gè)維度和度量的信息。 圖二中,我們?cè)谑仔惺琢械奈恢梅湃肓艘粋€(gè)YEAR的名稱,我們理所當(dāng)然的以為這個(gè)只是首列的標(biāo)題而已,可是Excel并沒有這么智能,它將其視作與后幾列同樣性質(zhì)的公司維度中的一個(gè)名稱。因?yàn)槭琢幸渤闪艘粋€(gè)特殊的公司(日期則成了該特殊公司的另一個(gè)維度不同水平的指標(biāo))。 所以整個(gè)圖表的行維度(公司數(shù))變成了6個(gè),而因?yàn)闆]有定義列維度(原始數(shù)據(jù)中失去了行標(biāo)題,其實(shí)是有的,但是因?yàn)樘砑恿艘粋€(gè)首行首列交叉位置的YEAR標(biāo)簽,結(jié)果Excel將首行作為列維度的一個(gè)分類,因而也就不存在名義上的日期維度分類)。 盡管Excel不知道丟失的維度的具體水平及名稱,可是改變不了原始數(shù)據(jù)是一個(gè)二維表這樣一個(gè)事實(shí),因而還是給丟失的維度信息在圖表中補(bǔ)全了,但是是通過默認(rèn)的系列1、系列2、系列3……等方式來彌補(bǔ)的。 接下來看圖示3: 該圖的原始數(shù)據(jù)仍然是一個(gè)二維表,但是只有明確的行列維度信息(你以為你寫了一組2012、2013^2016這么一組有規(guī)律的數(shù)據(jù),Excel就能明白這是一個(gè)日期維度呀,那你真的是想多了,它跟其他的數(shù)值型指標(biāo)沒有任何的區(qū)別),與圖2的過程類似,維度信息的丟失改變不了原始數(shù)據(jù)是二維表這樣一個(gè)事實(shí)。因而Excel仍然會(huì)幫其補(bǔ)全行列維度(圖表橫軸補(bǔ)全了原始表列維度信息【即我們想當(dāng)然以為當(dāng)做行維度信息的日期和后5列指標(biāo)】,圖表縱軸補(bǔ)原始表中行維度信息,此時(shí)行為度信息已經(jīng)不是我們想當(dāng)然以為的那個(gè)日期指標(biāo),而是一組未知度量)。 圖示4: 圖示4中只明確了表格中列維度信息,而沒有聲明行維度信息,因?yàn)椴淮嬖阱e(cuò)誤識(shí)別,該狀況下,Excel可以很完美的識(shí)別列維度(呈現(xiàn)在圖表的橫軸上)。而丟失的行維度信息則自動(dòng)補(bǔ)全(呈現(xiàn)在圖例的分類顏色指標(biāo)上)。 綜上所示,Excel識(shí)別維度信息是通過原始二維表表結(jié)構(gòu)中的首行首列標(biāo)簽來識(shí)別的(切記不要在首行首列中寫入任何信息,一定要留白、一定要留白、一定要留白)。 倘若不慎將首行首列(即行列維度標(biāo)簽的交叉單元格)標(biāo)簽交叉位置寫入任何內(nèi)容,那么結(jié)果是致命性的,你的列為度(也就是圖表的橫軸上)會(huì)被加入一個(gè)虛假的維度類別指標(biāo)。 5、關(guān)于作圖效率: 以下是分別在Excel中制作多分類序列圖表和其他軟件工具(包含桌面端可視化工具以及編程工具等)所分別適用的數(shù)據(jù)源。 從效率上來說,自然是其他 工具所使用的數(shù)據(jù)源(即一維表或者說長(zhǎng)數(shù)據(jù))效率更高一些,Excel將每一個(gè)分類都視作一個(gè)列字段(典型二維表風(fēng)格),其他的工具是通過將分類序列進(jìn)行堆棧操作,聚合成一個(gè)包含類別變量(因子變量)和一個(gè)度量(數(shù)值型變量)從而大大簡(jiǎn)化了數(shù)據(jù)源,這在分類特別特別多的時(shí)候具有很大的優(yōu)勢(shì)。(想象一下如果有一千個(gè)分類,你難倒要在Excel里面列出1001個(gè)列字段嗎,使用二維表仍然是三個(gè)字段,公司名稱、日期,指標(biāo))。 現(xiàn)在你應(yīng)該明白Excel為啥無法勝任大數(shù)據(jù)可視化了吧,出了本身性能的限制之外,更重要的是她的作圖理念,本就不是為大數(shù)據(jù)而生的。 當(dāng)然 也不能說Excel這種二維表作圖一無是處,二維表直觀易懂,其本身就兼具圖形化的信息呈現(xiàn)功能,否則為什么很多專業(yè)的報(bào)告中除了圖表之外,包含很多表格呢,而一維表這種篇原始(但是易于存儲(chǔ))結(jié)構(gòu)的數(shù)據(jù)應(yīng)該不會(huì)常用于報(bào)告中。 所以說對(duì)于小數(shù)據(jù)或者二維表而言,Excel的圖表工具還是非常適于此種可視化場(chǎng)景,而要是將二維表用于其他可視化工具來進(jìn)行可視化(可視化桌面端工具或者編程工具),則你需要額外進(jìn)行數(shù)據(jù)的長(zhǎng)寬轉(zhuǎn)換。 (關(guān)于數(shù)據(jù)長(zhǎng)寬轉(zhuǎn)換以及多維數(shù)據(jù)集在不同可視化工具中的最優(yōu)可視化解決方案,我會(huì)專門列一篇進(jìn)行分析講解) 以上關(guān)于行列維度的分析并不適用于呈現(xiàn)連續(xù)性數(shù)據(jù)的圖表類型(如直方圖、散點(diǎn)圖、氣泡圖等),原因很簡(jiǎn)單,如果圖表的二維坐標(biāo)系中都呈現(xiàn)連續(xù)性指標(biāo),那么也就無所謂維度了,維度是針對(duì)分類資料所定義的一種特殊指標(biāo),連續(xù)性指標(biāo)也就只剩下度量指標(biāo)啦。 事實(shí)上Excel出了為二維表作圖而生之外,還是轉(zhuǎn)門為分類數(shù)據(jù)可視化而生的(可能我說的比較絕對(duì)了,大家不要噴我),為什么的,原因有兩個(gè): 1、Excel的現(xiàn)存圖表庫中絕大多數(shù)圖表是適應(yīng)分類數(shù)據(jù)作圖,(只要一個(gè)軸支持分類數(shù)據(jù)即可算作離散數(shù)據(jù)可視化類型,而真正用于連續(xù)性數(shù)據(jù)可視化呈現(xiàn)的圖表類型及其少,比如散點(diǎn)圖【你會(huì)發(fā)現(xiàn)Excel的散點(diǎn)圖也是支持類別變量的】、氣泡圖、直方圖【直方圖以往都是在數(shù)據(jù)分析庫模塊中,需要單獨(dú)調(diào)用才能使用,近期才加入普通圖表的菜單入口】)。 2、普通的業(yè)務(wù)分析場(chǎng)景下,更多的是不同維度間的交叉對(duì)比和匯總分析,而連續(xù)數(shù)據(jù)的可視化多用于預(yù)測(cè)與建模,這在學(xué)術(shù)研究中(時(shí)間序列數(shù)據(jù)的建模)以及企業(yè)的戰(zhàn)略數(shù)據(jù)挖掘部門(市場(chǎng)拓展與銷售預(yù)測(cè)等)使用場(chǎng)景比較多,而且數(shù)據(jù)量一般都大。(這也決定了Excel使用的局限性,即更適合客觀呈現(xiàn)、適合分類資料的匯總可視化,不適合用于大數(shù)據(jù)量的挖掘呈現(xiàn))。 3、當(dāng)然我還有一個(gè)證據(jù)在證明我以上的看法,那就是最近兩年微軟公司盡心盡力培育的PowerBI商務(wù)智能系統(tǒng),在數(shù)據(jù)源上完美支持主流數(shù)據(jù)庫,可視化形式上使用一維表進(jìn)行操作,在數(shù)據(jù)量上也大大突破了Excel所能承受的量級(jí)。這或許就是當(dāng)前大數(shù)據(jù)如火如荼的形勢(shì)下,微軟的office系統(tǒng)顯然已經(jīng)無法支撐大數(shù)據(jù)下的分析與可視化需求,必須布局其自己的大數(shù)據(jù)分析與可視化系統(tǒng)。 天善學(xué)院svip正火爆報(bào)名中!包含Excel BI、Python3爬蟲案例、Python機(jī)器學(xué)習(xí)、Python數(shù)據(jù)科學(xué)家、大數(shù)據(jù)體系、數(shù)據(jù)分析報(bào)告、數(shù)據(jù)分析師體系、深度學(xué)習(xí)、R語言案例共10套課程,其他課程只需五折即可,歡迎大家關(guān)注報(bào)名。 本文作者:數(shù)據(jù)小魔方杜雨 他的天善社區(qū)博客地址:https://ask./blog/datamofang |
|