久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    深度學習筆記(一)空間金字塔池化閱讀筆記Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

     mscdj 2016-10-09

     空間金字塔池化


         空間金字塔池化層簡介:


                      在對圖片進行卷積操作的時候,卷積核的大小是不會發生變化的額,反向調節的權重僅僅是數值會發生變化。但是,但是,但是,輸入的圖片的大小你是否可以控制呢?哈哈,我們的輸入圖片大小是會發生變化的,這里圖片大小的變化并不會在卷積操作和polling操作產生影響,但是會對全連接層的鏈接產生影響。這篇文章的核心就是解決如何對于不同的輸入圖片(主要是針對大小不同)都可以直接運用到已經訓練好的網絡中去。

        為什么要引入空間金字塔池化:


              首先說一下為什么要有這個層:我們處理圖片的大小不一,都有自己不同的像素值,但是同一批數據,如果非要進過一定的裁剪把他處理成為相同大小的圖像,例如,我們可以先把圖片的四個角裁剪下來,在加上一個中心區域的圖片,這是五個變形的圖片,然后再把圖片水平翻轉之后依然是相同的操作會得到五個圖片,總合計是10個大小相同的圖片,這是一種方法,當然還有其他的方法,例如在overFeat那篇論文中也提到一種方法,等等。這些裁剪技術都會達到不錯的結果,但是依然會存在一些問題,例如,有些區域裁剪的時候都會有重復,無形之中加大了該區域的權重。所以,這篇paper就提出了金字塔池化來解決輸入圖片大小不一的情況。
          
                                                                               

         觀察圖一,最上面代表的是把原來的圖片都進行適當的crop和wrap之后得到適當的像素值,中間的就是對應的網絡模型。最下面的是這篇論文的模型,在最后一個卷積層后面緊隨種惡一個spatital pyramid polling層,緊跟著的是全連接層。這樣就可以解決不管輸入圖片的大小是多大,都可以用當前的網絡進行測試的問題。

         但是我們需要明白的是為什么這個層放到了最后一個圈基層的后面呢?也就是說為什么convolution和polling都對如數圖片的大小不敏感,而全連接層卻敏感呢?我們來看看。假設輸入圖片的大小是100*100,經過5個卷積核3*3之后會差生5*98*98的feature maps,就算你的輸入圖片的大小變成102*102,那我的feature maps就是5*100*100。這里的feature maps經過2*2的polling之后得到的是25*25和26*26。沒什么影響,這里的卷積核的大小是固定的,可以去卷積任何大小的圖片。但是全連接層就不同了。假設最后一個卷積層有50個輸出,下一層的全鏈接有1000個輸入,那么這個鏈接矩陣就是50*1000,哈哈,你想想,如果這里每次的輸入圖片大小都不一樣,到這里如何進行鏈接呢?因為不同的圖片大小經過最后一個卷積層的輸入到輸出之后壓根就不可能都是50啊。這就是我們為什么要在全連接層這人進行操作的原因。

         空間金字塔池化層的特點


               當然,這篇paper的特點可不是僅僅有一個。金字塔池化層有如下的三個優點,第一:他可以解決輸入圖片大小不一造成的缺陷。第二:由于把一個feature map從不同的角度進行特征提取,再聚合的特點,顯示了算法的robust的特性。第三:同時也在object recongtion增加了精度。其實,你也可以這樣想,最牛掰的地方是因為在卷積層的后面對每一張圖片都進行了多方面的特征提取,他就可以提高任務的精度。好比是不同大小的圖片在不同的網絡中進行訓練一樣,大大提高了模型的精度。SPP在現有的各種網絡模型上都得到了state of the art 的高度,例如R-CNN上面。不僅僅如此,R-CNN需要對不同大小的邊框內的圖像feed into 不同的網絡模型,整個過程是特別的耗時,SPP-Net剛好就可以決絕這個問題,大大的減少了時間。

         什么是金字塔池化層


                 哈哈,唧唧歪歪的說了半天,都沒有說到重點上去,現在我們步入正題,說說什么是金字塔池化層。
                                                                                 
               

               如上圖所示,從下往上看,這是一個傳統的網絡架構模型,5層卷積層,這里的卷積層叫做convolution和pooling層的聯合體,統一叫做卷積層,后面跟隨全連接層。我們這里需要處理的就是在網絡的全連接層前面加一層金字塔pooling層解決輸入圖片大小不一的情況。我們可以看到這里的spatital pyramid pooling layer就是把前一卷積層的feature maps的每一個圖片上進行了3個卷積操作。最右邊的就是原圖像,中間的是把圖像分成大小是4的特征圖,最右邊的就是把圖像分成大小是16的特征圖。那么每一個feature map就會變成16+4+1=21個feature maps。這不就解決了特征圖大小不一的狀況了嗎?
                                  
                       


           那么具體是如何操作的呢?我們來看看:圖片的輸入大小相等的時候,我們假設圖片經過第五層的卷積核之后的輸出大小是a*a (例如,13*13),我們bins的大小是n*n,那么每一個窗口win=cell(a/n),然而stride的大小是stride=floor(a/n),前面一個是向上取整,后面的是向下取整,最終會形成如上圖所示的三個pooling操作。這三個的本質都是最大化池,只不過使用了不同的窗口大小和移動的步長而已。fc6代表的是全鏈接層。實驗表明,多層次的卷積行為可以使得實驗的最終精度提升。而不同大小的圖片操作都是一樣的方法。


          其他的都是一些實驗相關的數據,很簡單,自己看把。



                  
                 

                 

        











             

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 99久久精品费精品国产一区二| 国产精品中文字幕自拍| 亚洲av永久无码精品水牛影视| 国产线播放免费人成视频播放| 中文字幕理伦午夜福利片| 国产一区二区精品久久| 亚洲AV国产福利精品在现观看| 内射口爆少妇麻豆| 性欧美VIDEOFREE高清大喷水| 免费一区二区无码东京热| 国产高清一区二区不卡| 久久99国产精品久久99小说| 国产福利深夜在线观看| 国内揄拍国内精品人妻| 国产成人精品中文字幕| 52熟女露脸国语对白视频 | 中文字幕日韩精品有码| 亚洲色大成网站WWW尤物| 欧美变态另类zozo| 搡女人真爽免费视频大全| 国产精品视频亚洲二区| 无码人妻久久一区二区三区免费丨 | 日本高清在线观看WWW色| 成人AV无码一区二区三区| 中文字幕亚洲日韩无线码| 成人午夜av在线播放| 国产成人亚洲精品| 国产精品电影久久久久电影网 | 99久久国产成人免费网站| 亚洲熟妇AV一区二区三区漫画| 高大丰满熟妇丰满的大白屁股| 国产成人毛片无码视频软件| 搡女人真爽免费视频大全| 无码AV无码免费一区二区| 国产另类ts人妖一区二区| 久久久久亚洲精品无码蜜桃| 欧美孕妇乳喷奶水在线观看| 少妇人妻偷人精品免费| 亚洲国产精品一区二区WWW | 亚洲精品无码久久一线| 狠狠做五月深爱婷婷天天综合|