久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    常見的模型算法評估指標(biāo)

     ZHAOHUI 2020-06-21
    當(dāng)我們訓(xùn)練完一個模型算法后,該如何評估模型算法的好壞呢?不同的算法任務(wù)適用哪些評估體系呢?哪種評估方式才能真實反饋實際的效果呢?試想一下,如果我們訓(xùn)練了一個二分類的模型,測試數(shù)據(jù)集有100張圖像,正例10張,負(fù)例90張,那么只要每張圖像模型都直接判斷為負(fù)例準(zhǔn)確率都有90%了,我們不能直接說該模型性能Accuracy準(zhǔn)確率達(dá)到了90%,實際上對于正例來說其精確率和召回率都為0。根據(jù)多年的算法開發(fā)經(jīng)驗,今天我們就來探討一下模型算法評估中的“心中尺”和“心里稱”!

    常見的評估指標(biāo)

    先讓我們看一下以下這兩個評估指標(biāo),在大名鼎鼎的ImageNet ILSVRC比賽中經(jīng)常被提及的重要指標(biāo)。
    Top-1錯誤率:預(yù)測輸出的概率最高的類別,是否和人工標(biāo)注的類別一致,如果不一致,此時的概率,比如預(yù)測100張圖像的類別,每張圖像的最高概率錯誤的有2張,那么top-1為2%;
    Top-5錯誤率:預(yù)測輸出的概率最高的前5個類別當(dāng)中,有沒有和人工標(biāo)注的類別不一致,當(dāng)5個都不一致時錯誤次數(shù)占總次數(shù)的概率,比如預(yù)測100張圖像的類別,每張圖像前5個最高概率類別中沒有一個正確時的張數(shù)有3張,那么top-5錯誤率為3%;

    為了引出以下的評估指標(biāo),先讓我們來看一個二分類的混淆矩陣,對于多分類來說,只要把其他類別當(dāng)做負(fù)例則一樣適用。

    二分類混淆矩陣
    表中的四個參數(shù)說明如下:
    True Positive(TP):預(yù)測為正例,實際為正例,即算法預(yù)測正確(True)
    False Positive(FP):預(yù)測為正例,實際為負(fù)例,即算法預(yù)測錯誤(False)
    True Negative(TN):預(yù)測為負(fù)例,實際為負(fù)例,即算法預(yù)測正確(True)
    False Negative(FN):預(yù)測為負(fù)例,實際為正例,即算法預(yù)測錯誤(False)

    由該混淆矩陣可以引出如下Accuracy、Precision、Recall、F1-Score等等評估指標(biāo):

    Accuracy:準(zhǔn)確率,指的是正確預(yù)測的樣本數(shù)占總預(yù)測樣本數(shù)的比值,它不考慮預(yù)測的樣本是正例還是負(fù)例,反映的是模型算法整體性能,其公式如下:

    Precision:精確率,指的是正確預(yù)測的正樣本數(shù)占所有預(yù)測為正樣本的數(shù)量的比值,也就是說所有預(yù)測為正樣本的樣本中有多少是真正的正樣本,它只關(guān)注正樣本,這是區(qū)別于Accuracy的地方,其公式如下:

    Recall:召回率,指的是正確預(yù)測的正樣本數(shù)占真實正樣本總數(shù)的比值,也就是指能從這些預(yù)測樣本中能夠正確找出多少個正樣本,其公式如下:                    

    F1-Score:F1分?jǐn)?shù),是統(tǒng)計學(xué)中用來衡量二分類模型精確度的一種指標(biāo),它被定義為精確率和召回率的調(diào)和平均數(shù),它的最大值是1,最小值是0,其公式如下:

    TPR(True Positive rate):真陽率,指的是在所有實際為陽性的樣本中,被正確地判斷為陽性的比率,同召回率,其公式如下:

    FPR(False Positive rate):假陽率,指的是在所有實際為陰性的樣本中,被錯誤地判斷為陽性的比率,其公式如下:

    ROC(Receiver Operating Characteristic):受試者工作特征曲線,其以FPR假陽率為X軸坐標(biāo),以TPR真陽率為Y軸坐標(biāo),曲線越靠近左上角則說明模型算法性能越好,左上角(0,1)為最理想的情況說明模型性能非常完美,而其對角線對應(yīng)于“隨機(jī)猜測”模型的性能。在圖像分類圖像識別等任務(wù)里,模型算法的輸出通常為一個預(yù)測概率,而我們通常也會設(shè)定一個閾值,超過這個閾值則我們就判斷為其中的一類,反之預(yù)測為另一類。于是,不同的閾值就對應(yīng)了不同的真陽率和假陽率,從而形成了真陽率和假陽率序列,它們就可以在直角坐標(biāo)系上通過描點成為光滑曲線,這個曲線就是 ROC 曲線,其形狀類似如下:

    ROC受試者工作特征曲線
    AUC(Area Under Curve):ROC曲線下的面積,因為ROC“隨機(jī)猜測”模型通常對應(yīng)于其對角線,因而通常AUC的值范圍為0.5~1,其值越大說明模型算法的性能越好,AUC為0.5時模型算法為“隨機(jī)猜測”,其值為1時說明模型算法達(dá)到理想狀態(tài)。通常我們可以使用sklearn.metrics.auc(fpr, tpr)來求得AUC值。
    PRC(Precision-Recall Curve):精準(zhǔn)率-召回率曲線也叫PR曲線,其以Recall為X軸坐標(biāo),以Precision為Y軸坐標(biāo),通過對模型算法設(shè)定不同的閾值會得到不同的precision和recall值,將這些序列繪制到直角坐標(biāo)系上就得到了PR曲線,PR曲線下的面積為1時則說明模型算法性能最為理想。

    以上評估指標(biāo)大部分用于圖像分類圖像識別圖像分割等等任務(wù)中,下面讓我們來看一下在目標(biāo)檢測里經(jīng)常用來評估模型算法性能的指標(biāo)。

    IOU(Intersection over Union):交并比,指的是ground truth bbox與predict bbox的交集面積占兩者并集面積的一個比率,IoU值越大說明預(yù)測檢測框的模型算法性能越好,通常在目標(biāo)檢測任務(wù)里將IoU>=0.7的區(qū)域設(shè)定為正例(目標(biāo)),而將IoU<=0.3的區(qū)域設(shè)定為負(fù)例(背景),其余的會丟棄掉,形象化來說可以用如下圖來解釋IoU:

    IoU形象化公式

    如果我們用A表示ground truth bbox的面積,B表示predict bbox的面積,而I表示兩者的交集面積,那么IoU的計算公式如下:

    AP(Average Percision):AP為平均精度,指的是所有圖片內(nèi)的具體某一類的PR曲線下的面積,其計算方式有兩種,第一種算法:首先設(shè)定一組recall閾值[0, 0.1, 0.2, …, 1],然后對每個recall閾值從小到大取值,同時計算當(dāng)取大于該recall閾值時top-n所對應(yīng)的最大precision。這樣,我們就計算出了11個precision,AP即為這11個precision的平均值,這種方法英文叫做11-point interpolated average precision;第二種算法:該方法類似,新的計算方法假設(shè)這N個樣本中有M個正例,那么我們會得到M個recall值(1/M, 2/M, …, M/M),對于每個recall值r,該recall閾值時top-n所對應(yīng)的最大precision,然后對這M個precision值取平均即得到最后的AP值。
    mAP(Mean Average Percision):mAP為均值平均精度,指的是所有圖片內(nèi)的所有類別的AP的平均值,目前,在目標(biāo)檢測類里用的最多的是mAP,一般所宣稱的性能是在IoU為0.5時mAP的值。常見的目標(biāo)檢測評估指標(biāo)輸出樣式如下:

    目標(biāo)檢測任務(wù)中評估指標(biāo)輸出樣式
    而對于回歸預(yù)測類常見的評估指標(biāo)如下:

    MAE(Mean Absolute Error):平均絕對誤差,其能更好地反映預(yù)測值與真實值誤差的實際情況,其計算公式如下:

    RMSE(Root Mean Square Error):均方根誤差,用于衡量觀測值與真實值之間的偏差,其對一組預(yù)測中的特大或特小誤差反映比較敏感,常用來作為機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果衡量的標(biāo)準(zhǔn),其計算公式如下:

    以上為常見的模型算法評估指標(biāo),當(dāng)然,針對特定領(lǐng)域還有很多評估指標(biāo),比如在機(jī)器翻譯領(lǐng)域用于評估模型算法的指標(biāo)有BLEU和METEOR,比如用于評估活體檢測算法的指標(biāo)有APCER、BPCER、ACER及HTER等,在這里就不羅列了,留待后續(xù)再進(jìn)行介紹。

    終上所述,評估指標(biāo)非常重要,我們只要掌握了這些常見的評估指標(biāo),并且正確使用它,就能夠合理正確的評估訓(xùn)練出來的模型算法,從而讓我們的工作結(jié)果正確應(yīng)用在業(yè)務(wù)任務(wù)中來!

    掃描二維碼

      本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評論

      發(fā)表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 狠狠综合久久AV一区二区| 老熟妇乱子交视频一区| 337P日本欧洲亚洲大胆精品555588| 又黄又无遮挡AAAAA毛片| 波多野结衣乳巨码无在线观看| 亚洲美免无码中文字幕在线| 一本色道久久东京热| 无码国模国产在线观看免费| 国产精品国产三级国AV| 国产999精品2卡3卡4卡| 正在播放的国产A一片| 国产精品久久久久无码AV| 国产成人啪精品午夜网站| 色翁荡熄又大又硬又粗又视频| 国产睡熟迷奷系列网站| 中文字幕AV无码人妻| 夜鲁鲁鲁夜夜综合视频| 欧美人成精品网站播放| 粗大挺进朋友人妻淑娟| 少妇又爽又刺激视频| 99久久99久久免费精品小说| 亚洲午夜成人精品电影在线观看| 精品熟女少妇AV免费观看| 午夜大片免费男女爽爽影院| 国产精品欧美一区二区三区不卡| 野外做受三级视频| 凹凸在线无码免费视频| 强奷漂亮少妇高潮麻豆| 亚洲一区二区精品另类| 小妖精又紧又湿高潮H视频69| 99热精国产这里只有精品| 国产中文字幕精品喷潮| 野花免费社区在线| VA在线看国产免费| 国产精品中文字幕久久| 无码日韩精品一区二区人妻 | 欧美高清狂热视频60一70| 久久无码人妻丰满熟妇区毛片| 人妻系列无码专区免费 | 精品一卡2卡三卡4卡乱码精品视频| 亚洲精品国产成人99久久6 |