亚州av综合色区无码一区,午夜一区二区三区亚洲影院电影网,天堂а√在线地址,性人久久网av,无码内射成人免费喷射

曉木蟲
學術數(shù)據(jù)庫客戶端

自動化所提出不規(guī)則卷積神經網(wǎng)絡

 找回密碼
 注冊新賬號

QQ登录

微信登录

自動化所提出不規(guī)則卷積神經網(wǎng)絡

摘要:   近日,中國科學院自動化學習所馬佳彬、王威、王亮等學習人員在科學預印本網(wǎng)站arxiv上預發(fā)表了一項學習,提出了一種新形式的卷積神經網(wǎng)絡——不規(guī)則卷積神經網(wǎng)絡,這種新的方法能夠解決常規(guī)卷積效率低下的問題。 ...

  近日,中國科學院自動化學習所馬佳彬、王威、王亮等學習人員在科學預印本網(wǎng)站arxiv上預發(fā)表了一項學習,提出了一種新形式的卷積神經網(wǎng)絡——不規(guī)則卷積神經網(wǎng)絡,這種新的方法能夠解決常規(guī)卷積效率低下的問題。
  在深度卷積神經網(wǎng)絡(CNN)中,卷積核是最基本和最重要的組件。學習人員給卷積核配置了形狀屬性以生成不規(guī)則卷積神經網(wǎng)絡(ICNN)。與傳統(tǒng)CNN使用規(guī)則卷積核(如3x3)不同,該方法訓練了不規(guī)則的內核形狀,以更好地適應輸入特征的幾何變化。換言之,除權重以外,形狀也是可以研究的參數(shù)。在端對端的訓練中,使用標準的反向傳播算法,卷積核的形狀和權重就能同時研究出來。學習人員使用ICNN進行了圖像語義分割的實驗,以驗證模型的有效性。
  近年來,卷積神經網(wǎng)絡(CNN)在學界和業(yè)界廣受歡迎,已被成功地應用到各種特征提取的任務當中。CNN的效果相較于前有很大提升,對各種任務的實用性都非常強,但盡管如此,經典CNN仍存在一些問題值得探討和深究。
  首先,卷積核的規(guī)則形狀和不規(guī)則的特征模式并不匹配。在視覺任務中有一個重要的事實:雖然輸入圖像擁有矩形的形狀且尺寸固定,但圖像中的物體大多是形狀不規(guī)則的——而這些物體才是學習中真正感興趣的局部。以圖像分類為例,常常需要的是給圖像中的目標分類,而非圖像本身。而這種情況在物體檢測和分割中更加明顯,因為這些任務的基本思想就是將不規(guī)則的目標從圖像中分離出來。由于卷積運算本質上是兩個向量的點積操作,即特征模式和卷積核,那么這兩個向量在理想狀態(tài)下應該具有相同的屬性,這樣才能獲得更加準確的響應。也就是說,卷積核應該跟輸入特征模式一樣,也擁有不規(guī)則的形狀,這樣模型才能更好地提取最有價值的信息。而傳統(tǒng)卷積神經網(wǎng)絡的內核形狀通常是固定的,不能通過訓練來直接研究得到。
  相應地,形狀的不匹配導致了規(guī)則卷積核在對不規(guī)則特征模式進行建模時效率低下。實際上,規(guī)則形狀的卷積核也可以模擬不規(guī)則的特征模式,其基本思想是,在規(guī)則形狀內不同尺度的權重分布可以具有與不規(guī)則形狀相類似的效果。如圖1(b)所示,兩個規(guī)則卷積核K1和K2都因為其特殊的分布,而擁有了建模不規(guī)則形狀的能力。但這種方式消耗了18個權重參數(shù)去建模9個像素的輸入特征。而且需要注意的是,如果輸入特征更加細長或離散、如果卷積核更加離散(Dilated Convolution),這種低效的情況還會加劇。
  由于基本問題是規(guī)則卷積核與不規(guī)則輸入特征的形狀不匹配,那么最直觀而合理的解決方案就是使卷積核的形狀不規(guī)則且可訓練。如圖1(c)所示,3x3的規(guī)則卷積核可以通過變形研究到一個新的不規(guī)則的形狀。在變形的過程中,原本規(guī)則卷積核內的權重將會移動到新的位置來找到更有價值的特征信息。而移動的范圍沒有絕對限制,可以超出原先規(guī)則卷積核的范圍。變形后,雖然權重數(shù)量不變,但不規(guī)則卷積核已經能夠建模更加復雜的特征,而這個特征本應該被多個規(guī)則卷積核共同建模。
  為了讓卷積核擁有形變的能力,直接為其賦予可研究的權重位置變量(用以表征核的形狀信息)。由于可導性的要求,位置變量必須滿足連續(xù)性——用浮點小數(shù)表示。浮點小數(shù)的使用又自然地將插值操作應用進來,進而成功地建立起了用小數(shù)表示的形變位置、用整數(shù)表示的原始位置、輸入特征和輸出特征這四者的函數(shù)關系,最終使權重位置變量獲得可研究的能力。
  為了更深刻地理解卷積核最后變成了什么形狀,論文作者可視化了若干層的卷積核訓練結果。實驗使用Resnet101在pascal voc數(shù)據(jù)集上進行了語義分割訓練。和原始規(guī)則卷積核比較,不規(guī)則卷積核的權重能夠抽取多種不同尺寸和形狀的信息?梢园l(fā)現(xiàn),原本屬于同一位置的權重,在變形后大致?lián)碛幸粋高斯分布的特性。9個分布中心大致與規(guī)則形狀時的原位置相同,但分布的伸展性保證了不同尺度的信息融合。不同層之間的卷積核比較:從圖3(c)和另兩張子圖的比較中可以發(fā)現(xiàn),越深的層,卷積核更加呈現(xiàn)出帶狀延伸。這種大幅的延伸方式使得較深的處理層能夠更好地綜合全局信息。
  在語義分割任務中,對于一個特定的像素點來說,綜合合適的圖像信息對于分類結果的準確性非常重要。該實驗中的熱度圖評估了在對某一特定像素分類時,圖像中各個位置對其分類結果的貢獻值。紅色貢獻大,藍色貢獻小。
  圖4首先表明不規(guī)則卷積核可以更好地過濾掉分散注意力的干擾區(qū)。在第一列中,使用規(guī)則卷積核的傳統(tǒng)卷積網(wǎng)絡不可避免地加強了變化劇烈的梯子局部的響應,而ICNN卻很好地過濾了這局部干擾。再者,它也表明不規(guī)則卷積核能夠考慮更加全局的信息。如第三列所示,在對馬脖子上標記像素進行分類時,除了附近的區(qū)域,不規(guī)則卷積網(wǎng)絡還會加強對馬頭部和后腿部位的響應。而且稍微提升注意力觀察,就能發(fā)現(xiàn)ICNN在對腹部、后腿、尾巴的響應更加精確。
  ICNN的目標在于建立起輸入特征和卷積核的形態(tài)兼容,從而提升參數(shù)利用的效率。通過為卷積核添加形狀屬性,并使用雙線性插值使其可以進行端到端的訓練。這種改進可以在不添加任何子網(wǎng)絡的情況下,平滑地集成到現(xiàn)有的卷積神經網(wǎng)絡模型當中。



  圖1 規(guī)則與不規(guī)則卷積核的對比。(a)不規(guī)則輸入特征,其范圍超越了3x3的區(qū)域;(b)兩個3x3的卷積核,它們聯(lián)合建模了輸入特征;(c)從3x3卷積核到不規(guī)則卷積核的變形過程示例。



  圖2 (a)規(guī)則卷積核各個權重的位置固定在一個矩形上;(b)不規(guī)則卷積核各權重的位置會隨著訓練而發(fā)生變化,損失函數(shù)梯度的反向傳播會直接作用在不規(guī)則卷積核的形狀變量上;(c)位置浮動的雙線性插值。



  圖3 來自不同層的卷積核形狀示意。(a)是最后一個卷積層fc1_voc12的卷積核,(c)是(a)在高-寬二維平面上的投影。(b)和(d)是另外相應層卷積核的二維投影。在這些圖中,相同顏色的點意味著它們原本屬于3x3矩形中的同一個位置。Px,Py代表高-寬平面,而channel代表輸入數(shù)據(jù)流的通道數(shù)。



  圖4 第一行,原始圖像中使用紅色十字標記的像素為最終的分類目標。以下兩行熱圖表示的是對首行標記像素分類結果的貢獻熱度圖,其中第二行代表使用規(guī)則卷積核的結果,第三行代表使用不規(guī)則卷積核的結果。圖中黑色框框出的區(qū)域表示本不該被關注的干擾區(qū),黃色框框出的區(qū)域表示應該關注的有價值的區(qū)域。自動化所提出不規(guī)則卷積神經網(wǎng)絡  |  責任編輯:蟲子
返回頂部