FlightAI 背景介紹 航班延誤對(duì)航空公司、機(jī)場(chǎng)、旅客及相關(guān)行業(yè)一直有著巨大影響。隨著民航產(chǎn)業(yè)和大數(shù)據(jù)技術(shù)的發(fā)展,行業(yè)對(duì)航班延誤預(yù)測(cè)的準(zhǔn)確性和提前期也有了越來越高的要求。攜程機(jī)票研發(fā)大數(shù)據(jù)團(tuán)隊(duì)通過數(shù)據(jù)建模實(shí)現(xiàn)了提前30天預(yù)測(cè)航班延誤,這一預(yù)測(cè)模型攜程已申請(qǐng)專利,并在相關(guān)業(yè)務(wù)應(yīng)用中取得了較好的成果。 預(yù)測(cè)意義 造成航班延誤的原因眾多,目前市場(chǎng)上關(guān)于航班延誤預(yù)測(cè)產(chǎn)品大多輸入因素較少且預(yù)測(cè)提前期短,很難為航司、機(jī)場(chǎng)以及旅客提供準(zhǔn)確且有應(yīng)對(duì)提前量的預(yù)測(cè)結(jié)果。為解決這一問題,攜程全面考量航班延誤的可能因素,排除不可控偶然因素后,采用梯度提升決策樹模型(GBDT),完成了提前期30天、準(zhǔn)確率84% 的航班延誤預(yù)測(cè),由航班延誤衍生的諸多問題有了提前準(zhǔn)備的可靠數(shù)據(jù)支持。 特 征 選 擇 01 航班延誤的原因歸類 導(dǎo)致航班延誤的原因眾多,總結(jié)起來主要是以下幾個(gè)方面:
其中空中流量管制和旅客問題意外性較大,無法提前30天獲取可靠數(shù)據(jù)源;單因素預(yù)測(cè)因數(shù)據(jù)源和其他因素干擾,預(yù)測(cè)效果難以保障,我們主要通過前三項(xiàng)原因構(gòu)造模型特征綜合預(yù)測(cè)。 02 天氣原因 小時(shí)級(jí)別的天氣數(shù)據(jù)提前一天可獲得;天級(jí)別的天氣粒度較粗,如暴雨或大風(fēng)可能僅持續(xù)兩小時(shí),不會(huì)對(duì)航班造成持續(xù)影響;提前兩天內(nèi)的天氣預(yù)報(bào)準(zhǔn)確率可達(dá)90%,遠(yuǎn)期天氣數(shù)據(jù)準(zhǔn)確率漸低。 03 前序航班 前序航班對(duì)當(dāng)前航班延誤與否的影響可以從兩個(gè)角度體現(xiàn),一是前序航班的近期延誤率,二是當(dāng)前航班起飛時(shí)間和前序到達(dá)時(shí)間的間隔。 當(dāng)前我們只能在航班起飛當(dāng)天獲取每個(gè)航班的最準(zhǔn)確的前序航班,為提前30天進(jìn)行預(yù)測(cè),我們統(tǒng)計(jì)近期的航班排班表,估計(jì)每個(gè)航班的前序航班,這存在一定的偏差。 04 承運(yùn)信息 航班計(jì)劃起飛時(shí)段(早上起飛的航班前序航班延誤影響小,延誤率低)、航司、飛行季節(jié)、起飛到達(dá)機(jī)場(chǎng)、計(jì)劃飛行時(shí)長、近期平均飛行時(shí)長、近期平均飛行時(shí)長與計(jì)劃飛行時(shí)長之差(有時(shí)航司為提升到達(dá)準(zhǔn)點(diǎn)率,會(huì)將計(jì)劃飛行時(shí)長設(shè)定得稍長),這些相關(guān)的承運(yùn)因素都會(huì)對(duì)航班延誤產(chǎn)生影響。 航班近期的延誤情況是預(yù)測(cè)的重要參考,我們從各個(gè)維度計(jì)算近期延誤率。包括航班延誤率、各航司在各機(jī)場(chǎng)起飛的延誤率、各起降機(jī)場(chǎng)組合的延誤率、各起飛機(jī)場(chǎng)在各個(gè)時(shí)段的延誤率等。 數(shù)據(jù)說明:機(jī)組人員的身體狀況與飛機(jī)的故障率難以獲取優(yōu)質(zhì)的數(shù)據(jù)源構(gòu)建特征。 預(yù) 測(cè) 效 果 01 預(yù)測(cè)方法 綜合考慮各特征量的影響,我們采用梯度提升決策樹模型(GBDT)進(jìn)行航班延誤預(yù)測(cè)。 選取過去15個(gè)月的數(shù)據(jù)進(jìn)行模型訓(xùn)練,為避免過擬合,在每個(gè)月中隨機(jī)選3天作為驗(yàn)證集,其余天數(shù)的航班作為訓(xùn)練集。 使用gridsearch調(diào)參樹的深度,復(fù)雜度懲罰參數(shù)gamma,l1懲罰參數(shù)alpha,同時(shí)使用early stopping避免過擬合。 樣本分布不平衡(到達(dá)延誤30分鐘以上的占比為16%),采用ROC AUC作為評(píng)估指標(biāo)。 02 模型效果 模型整體預(yù)測(cè)效果較好,隨著提前期的臨近,模型預(yù)測(cè)準(zhǔn)確性提升。
閾值設(shè)為0.4,預(yù)測(cè)延誤概率>0.4時(shí)判斷為延誤 整體準(zhǔn)確率84% 正樣本準(zhǔn)確率50%,預(yù)測(cè)為延誤的航班中有50%會(huì)延誤,整體延誤率為16% 正樣本召回率28%,能夠找到28%的延誤航班 閾值設(shè)為0.24,預(yù)測(cè)延誤概率>0.24時(shí)判斷延誤 整體準(zhǔn)確率80% 正樣本準(zhǔn)確率40%,預(yù)測(cè)為延誤的航班中有40%會(huì)延誤,整體延誤率為16% 正樣本召回率50%,能夠找到50%的延誤航班
03 預(yù)測(cè)效果 提前30天的航班延誤預(yù)測(cè)準(zhǔn)確率可達(dá)80%以上。后續(xù)攜程平臺(tái)也會(huì)陸續(xù)上線上相關(guān)功能,如中轉(zhuǎn)拼接的航班上,顯示第一程航班的延誤預(yù)測(cè),為旅客出行規(guī)劃提供有充分提前量和可靠性的依據(jù)。此外,通過GBDT模型可以得出相關(guān)因素的重要性,航司和機(jī)場(chǎng)可針對(duì)相應(yīng)的時(shí)間、航向乃至航班等進(jìn)行資源準(zhǔn)備采取措施。 04 特征重要性 下面是最主要的航班延誤相關(guān)因素的重要性,附錄中我們展示了單因素在航班延誤的影響。 · 附 錄 · 以國內(nèi)到達(dá)延誤是否超過30分鐘為例,到達(dá)延誤超過30分鐘的航班占比為:16% 總比例下單因素延誤分布情況分別如下: 01 起飛時(shí)段的影響 凌晨(00:00-05:59) 延誤率:20.0% 上午(06:00-11:59) 延誤率:9.8% 下午(12:00-17:59) 延誤率:18.2% 晚上(18:00-23:39) 延誤率:7.1% 02 飛行季節(jié)的影響 春 延誤率:16.1% 夏 延誤率:23.7% 秋 延誤率:11.8% 冬 延誤率:13.0% 03 起飛機(jī)場(chǎng)的方位 04 起飛機(jī)場(chǎng)的規(guī)模 05 計(jì)劃飛行時(shí)長 06 計(jì)劃飛行時(shí)長與近期平均飛行時(shí)長的差 07 前序航班數(shù) 08 航班起飛時(shí)間與前序航班到達(dá)時(shí)間差 09 前序航班平均到達(dá)延誤 ![]() 10 航班近期延誤率 ![]() 11 各航司在各機(jī)場(chǎng)的延誤率 ![]() 12 各種天氣情況下的延誤率 ![]() 上述特征的區(qū)間界值劃分基本可保證各類別分布相對(duì)均勻,可以看到航班延誤率在幾個(gè)有代表性的特征上均存在明顯差異。 |
|