現在很多廣告都吹捧做數據分析都要用Python。其實都是為了割韭菜的,我和我身邊哪些數據分析師起步做這行的時候基本上用的都是Excel。 這個問題咱么從頭說起。 Excel概述Excel 基本上是微軟為 Windows、macOS、Android 和 iOS 等不同操作系統開發的電子表格,配備了多種功能,例如計算、繪圖工具、數據透視表和稱為 Visual Basic for Applications 的宏編程語言(未來要融入Python)構成了 Microsoft Office 的每一部分。 在實際應用中,商業世界已經接受了 Excel,因為使用方式流暢、有效和靈活,幾乎所有主要企業都以一種或另一種方式使用 Excel。適用于任何類型的業務流程,無論是銷售、營銷還是其他,是整體業務不可或缺的一部分。 由于大多數數據可以導入 Excel,因此 Excel 本身如何用于進行數據分析是很有趣的。 什么是數據分析?數據至關重要,而且當下流行的業務模式都已經成為數據驅動,但原始形式的數據并不是很有用。為了使用數據來獲得可操作的信息,需要對其進行檢查、清理和轉換。這種過程就是所謂的數據分析。 有多種方法可以進行數據分析。這些不同的數據分析方式被用于商業、科學甚至社會科學等不同領域。事實上數據分析是當代商業世界蓬勃發展的東西。利用數據分析來收集商業智能以推動業務增長。 數據挖掘也是一種數據分析練習,但它側重于發現新知識以用于預測而非描述目的。就統計應用而言,數據分析可以分為描述性統計、探索性數據分析(EDA)和驗證性數據分析(CDA)。 雖然 EDA 旨在識別數據中的新特征,但是 CDA 努力確認或證明現有假設是錯誤的。 預測分析是應用統計模型進行預測預測或分類的練習。另一方面為了從文本來源中提取和分類信息,文本分析利用統計、語言和結構技術。 這些都是數據分析的變體。數據集成是數據分析之前需要的東西。數據分析還與數據可視化和數據傳播有關。有時人們可以互換使用術語進行數據分析和數據建模。 為什么選擇 Excel 進行數據分析?瀏覽數據本身可能是一場噩夢。 當查閱大量數據時,探索和處理數據非常棘手。分析它很可能是一個獨特的挑戰,但是并不是必須需要 Python,使用 Excel 也是可以的。 Excel 包含可以非常有效和高效地處理大量數據的函數。雖然數據分析的不同任務可能很棘手,但 Excel 函數非常簡單,任何人都可以使用它們來分析數據。 也沒有必要記住所有功能??梢院唵蔚匕俣人⒄页鰯祿治鋈蝿账璧墓δ?。 就其速度、簡單性和準確性而言,Excel 不僅對數據分析有用而且必不可少??梢怨澥氋F的時間并有效地進行數據分析。 如何用Excel進行數據分析?以下是數據分析逐步過程的概述
使用 Excel 進行數據分析的過程:在使用 Excel 進行數據分析時,可以這樣做:數據采集、數據清洗、數據探索(使用數據透視表)、數據可視化。 數據采集
從網頁中提取數據 網站上刷新的數據,可以有效地使用不同的功能 Excel 功能。 網頁中提取數據的分步過程 第 1 步:在 Excel 中打開一個帶有空白工作表的工作簿。點擊數據 -> 自網站 -> 從Web 。 ![]() 第 2 步:在地址旁邊的框中輸入要從中導入數據的網站的 URL,然后單擊執行。其中使用的數據2018 NBA Playoffs Summary | Basketball-Reference.com網址是這個。自己點擊打開后復制。 這里可能會出現無法訪問連接的情況,根據系統不同自己的情況自行百度處理。 ![]() 第 3 步:選擇加載數據自動的進行轉化處理,不過這個加載的過程比較緩慢。 ![]() 第 4 步:單擊導入數據指定要放置數據的位置,然后單擊確定。等待一會出現下面的界面即加載成功,可以根據需要加載不同的的頁面數據,有點類似爬蟲吧。 ![]() 還可以從其他來源收集數據,例如:
數據清洗
1.刪除重復行
按照以下步驟刪除重復值:選擇數據 -> 轉到數據功能區 -> 刪除重復值。 ![]() 2.刪除空格
步驟 1:在相鄰單元格 C1 中輸入公式 =TRIM (A1),然后按 Enter 鍵。 ![]() 第 2 步:選擇單元格 C1 并將填充手柄向下拖動到要刪除前導空格的范圍單元格。然后你可以看到所有單元格內容都被提取了,所有前導空格都被刪除了。請看截圖: ![]() 3.合并和拆分列
第 1 步:轉到數據選項卡,在排序和過濾組中。單擊文本到列。然后選擇數據 -> 分列。 ![]() 第 2 步:單擊并在“空格”復選框上打勾,數據分隔符是“空格”。當點擊它時將能夠在數據預覽框中看到正在分離的數據。然后單擊下一步按鈕。 ![]() 第 3 步:單擊目標以選擇要拆分文本的位置,然后單擊“完成”按鈕。 第 4 步:可以看到列中一個單元格的文本已拆分。 ![]() 還可以將此功能用于可能需要合并到一列或拆分為多列的其他常見值,包括產品代碼、文件路徑和 Internet 協議 (IP) 地址。 4.通過join或match對表數據進行對賬 Excel 還可用于在連接兩個或多個表時查找和更正匹配錯誤。這可能需要協調來自不同工作表的兩個表,例如可以使用它來查看兩個表中的所有記錄或比較表并查找不匹配的行。 函數 vlookup() 將有助于執行此任務,它在表數組的第一列中搜索一個值,并從表數組的另一列中返回同一行中的值。 讓我們看看下表(訂單和客戶)。在訂單表中,我們希望根據公共鍵“客戶 ID”從客戶表中映射城市名稱。 在這里,函數 vlookup() 將使我們能夠執行此任務。轉到公式選項卡-> 在函數庫中單擊查找和參考-> 單擊 Vlookup。現在我們將使用 VLOOKUP 函數并將這個公式輸入 E3。 Vlookup 語法:
這將返回所有客戶 ID 1 的城市名稱,并發布為所有客戶 ID 復制此公式的內容。請看下面給出的截圖: ![]() 使用數據透視表進行數據探索
數據透視表:Excel 的數據透視表是一個匯總表,可讓根據選擇的參考功能進行計數、平均、求和和執行其他計算。 ![]() 第 1 步:創建一個如下所示的數據透視表:選擇表格 -> 轉到插入選項卡,在表格組中,單擊數據透視表,然后選擇想要數據透視表的現有工作表位置。 ![]() 第 2 步:可以看到“數據透視表字段列表”面板,其中包含列表中的字段。需要做的就是將它們排列在面板底部的盒子中。完成此操作后,左側的圖表將成為數據透視表。 ![]() 數據可視化:
1.圖表:Excel 中的一個簡單圖表可以比一張滿是數字的表格說明更多。如所見,創建圖表非常簡單。 創建簡單折線圖: 第 1 步: 在“插入”選項卡的“圖表”組中,單擊“線”符號。 ![]() 第 2 步:現在要創建折線圖,請單擊帶有標記的線。 ![]() 2.數據透視圖 數據透視圖是 Excel 中數據透視表的直觀表示。數據透視圖和數據透視表是相互連接的。返回數據透視表以了解如何創建此數據透視表。 步驟 1:單擊數據透視表內的任何單元格 -> 在插入選項卡上的圖表組中,單擊數據透視圖。然后出現插入圖表對話框。單擊確定以創建數據透視圖。 ![]() 創建數據透視圖后,可以根據特定需求對其進行自定義,通過過濾圖表屬性和更改圖表類型來傳達想要的消息。 ![]() 高級工具和附加組件:PowerPivotExcel 有 1048576 行的限制,這意味著不能分析超過 1048576 行的數據。 Power Pivot 是 Excel 2010 中首次引入的 Excel 加載項,它讓有機會同時導入、合并和準備來自更多數據源的數據。 可以將來自許多不同來源(SQL、Azure、Oracle、Excel、Access 等)的許多表導入 Power Pivot,然后可以將所有這些數據相互關聯。 這意味著可以構建一個包含來自多個不同來源的多個數據集的數據模型,并通過連接它們獲得在一個數據透視表中分析它們的能力。 工具包在開發復雜的統計或工程分析時,可以使用分析工具庫來節省步驟和時間。 需要做的就是為每次分析提供數據和參數,該工具使用適當的統計或工程宏功能來計算并在輸出表中顯示結果。除了輸出表之外,一些工具還會生成圖表。 ToolPak 為數據分析提供了 19 種不同的特征(如相關、協方差、直方圖、回歸等等……)。 |
|