用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

東西二王 2019-05-11

展開全文

為了便于分析，我們將使用Python中的panda庫。因此，如果您還沒有安裝這個庫，請在命令提示符中使用以下代碼之一來安裝panda:

# If you use Anaconda, type the following in anaconda prompt conda install -c anaconda pandas # If you use pip, type the following in command prompt pip install pandas

此外，我假定您已經對Python和pandas庫有了基本的了解。但是不用擔心，如果你還沒有接觸到上面的任何一個，我們將從頭到尾進行詳細介紹。

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

我們的數據集

為了能夠使用上述技術，我們需要數據。我們可以導入csv文件或excel文件，但現在我們只需要用pandas簡單地創建一個小數據集。

以下代碼將生成一個pandas數據框。

import pandas as pd
df = pd.DataFrame({'ID': ['A1', 'A1', 'B1', 'B1', 'C1', 'C1', 'D1', 'D1'],
 'Value': [100, 120, 90, 80, 140, 30, 60, 210],
 'Date': pd.date_range('20190407', periods=8)})

這里顯示以下數據框。

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

如上所述，你可以看到ID，Value和Date。

1 基本的過濾

我們已經加載了pandas庫和創建了數據集，我們開始第一個技術。當你想基于列的值獲得數據的子集時，我們在談論過濾數據。

在pandas我們有多種方式做這個事情，現在我們看一下最常用的方式。

用[]的布爾索引
用.loc的布爾索引

用[]過濾數據如下

# Boolean indexing with square brackets df[df['Value'] > 100]

在pandas中的過濾邏輯是將條件傳遞給方括號之間的DataFrame.

df[condition]

給我們輸出如下結果

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

用.loc過濾

# Boolean indexing with .loc df.loc[df['Value'] > 100]

正如所料，它給出了相同的輸出，因為我們應用了相同的過濾器。

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

哪個更適合使用?對于基本過濾器，正如我們上面看到的，沒有區別或首選項，這取決于您更喜歡哪種代碼語法。但是，當您想應用更高級的數據選擇時，.loc提供了這一功能，并且可以執行更復雜的選擇和切片。但現在不用擔心。

2 基于條件過濾

我們使用了第一個過濾器，非常直接。但是假設你想應用一個有多個條件的過濾器。我們如何在pandas做到這一點?為此，我們研究了Python操作符。

2.1 &操作符

例如，您希望過濾ID等于C1且值大于100的所有行。

要應用這個過濾器，我們必須用&運算符連接兩個條件。這看起來像這樣:

# Filtering with multiple conditions '&' operator
df[(df['ID'] == 'C1') & (df['Value'] > 100)]

并將返回以下輸出:

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

正如預期的那樣，我們返回一行，因為只有這一行滿足我們在過濾器中設置的條件。

2.2 |操作符

Python中的|操作符代表or，如果滿足其中一個條件，則返回True。

我們可以通過應用以下過濾器來顯示這一點:給出日期晚于2019-04-10或值大于100的所有行。

在Python代碼中，它看起來像這樣:

# Filtering with multiple conditions 'or' operator condition = (df['Date'] > '2019-04-10') | (df['Value'] > 100) df[condition]

并將返回以下輸出:

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

正如預期的那樣，返回的所有行都具有大于100的值，或者日期在2019-04-10之后。

3 聚合

有時需要聚合數據，以便創建特定的視圖或進行一些計算。在pandas中，我們使用groupby。

那么groupby到底是什么呢?如果我們引用pandas文檔:

我們所說的“分組”是指涉及下列一項或多項步驟的程序:
根據一些標準將數據分成若干組。
獨立地對每個組應用一個函數。
將結果組合成數據結構。

基本上，它是根據一些指標，將數據分組，讓你自己對這些組做一些操作。

3.1 Groupby 獲得總和

讓我們看一個例子。假設我們想要基于ID得到每個組的value的總值。這就像下面的Python代碼:

# Get the total value of each group based on ID
df.groupby('ID', as_index=False)['Value'].sum()

將為我們提供以下結果

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

所以如果我們再看看我們的DataFrame，我們可以看到這是正確的:

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

例如ID A1的總value是100 120 = 220，這是正確的。

Groupby:獲得最大日期

pandas提供了一個大范圍的函數，您可以在使用groupby之后對您的組使用這些函數。讓我們再看一個。例如，我們可以使用.max()函數獲得每個組的最大日期。

就像這樣

# Get the highest date of each group df.groupby('ID', as_index=False)['Date'].max()

輸出結果如下：

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

4 連接

連接是基于一個公共列以并排的方式組合兩個數據框。大多數情況這些列被當做主鍵列。

join這個術語起源于數據庫語言SQL，之所以需要它，是因為SQL數據庫的數據建模大多是通過關系建模來完成的。

連接有很多類型，您的輸出將基于執行的連接類型。由于這是一個入門教程，我們將介紹最常見的一個:inner join。在本系列后面的部分中，我們將研究更復雜的連接。

內部連接來自韋恩圖表示兩個集合的交集部分。因此，當我們將其轉換為數據時，內部連接將返回兩個數據框中都存在的行。

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料

4.1 我們的數據集

因為我們想合并兩個數據框，所以我們將創建新的數據。這兩個虛構的數據集表示customer主表和orders表。

使用下面的代碼，我們創建了兩個新的數據框:

# Dataset 1 - Customer Table
dfA = pd.DataFrame({'Customer_ID':[1, 2, 3, 4, 5],
 'Name': ['GitHub', 'Medium', 'Towardsdatascience', 'Google', 'Microsoft'],
 'City': ['New York', 'Washington', 'Los Angeles', 'San Francisco', 'San Francisco']})
# Dataset 2 - Orders 
dfB = pd.DataFrame({'Order_ID': [1, 2, 3, 4, 5, 6, 7],
 'Order_date': pd.date_range('20190401', periods=7),
 'Amount':[440, 238, 346, 637, 129, 304, 892],
 'Customer_ID':[4, 3, 4, 1, 2, 5, 5]})

它們看起來像這樣:

用Python做數據分析，這些基本數據分析技術你知道嗎？贈學習資料