人類視覺系統(tǒng)是世界上眾多奇跡之一。看看下面的手寫數(shù)字序列:
http://wiki.jikexueyuan.com/project/neural-networks-and-deep-learning-zh-cn/images/1.png" alt="" />
大多數(shù)人毫不費(fèi)力就能夠認(rèn)出這些數(shù)字為 504192. 這么容易反而讓人覺著迷惑了。在人類的每個(gè)腦半球中,有著一個(gè)初級(jí)視覺皮層,常稱為 V1,包含 1 億 4 千萬(wàn)個(gè)神經(jīng)元及數(shù)百億條神經(jīng)元間的連接。但是人類視覺不是就只有 V1,還包括整個(gè)視覺皮層——V2、V3、V4 和 V5——他們逐步地進(jìn)行更加復(fù)雜的圖像處理。人類的頭腦就是一臺(tái)超級(jí)計(jì)算機(jī),通過(guò)數(shù)十億年的進(jìn)化不斷地演變,最終能夠極好地適應(yīng)理解視覺世界的任務(wù)。識(shí)別手寫數(shù)字也不是一件簡(jiǎn)單的事。盡管人類在理解我們眼睛展示出來(lái)的信息上非常擅長(zhǎng),但幾乎所有的過(guò)程都是無(wú)意識(shí)地。所以,我們通常并不能體會(huì)自身視覺系統(tǒng)解決問(wèn)題的困難。
如果你嘗試寫出計(jì)算機(jī)程序來(lái)識(shí)別諸如上面的數(shù)字,就會(huì)明顯感受到視覺模式識(shí)別的困難。看起來(lái)人類一下子就能完成的任務(wù)變得特別困難。關(guān)于我們識(shí)別形狀——“9 頂上有一個(gè)圈,右下方則是一條豎線”這樣的簡(jiǎn)單直覺——實(shí)際上算法上就很難輕易表達(dá)出來(lái)了。而在你試著讓這些識(shí)別規(guī)則越發(fā)精準(zhǔn)時(shí),就會(huì)很快陷入各種混亂的異?;蛘咛厥馇樾蔚睦Ь持小?雌饋?lái)毫無(wú)希望。
神經(jīng)網(wǎng)絡(luò)以另一種方式看待這個(gè)問(wèn)題。其主要思想是獲取大量的手寫數(shù)字,常稱作訓(xùn)練樣本,
http://wiki.jikexueyuan.com/project/neural-networks-and-deep-learning-zh-cn/images/2.png" alt="" />
然后開發(fā)出一個(gè)可以從這些訓(xùn)練樣本中進(jìn)行學(xué)習(xí)的系統(tǒng)。換言之,神經(jīng)網(wǎng)絡(luò)使用樣本來(lái)自動(dòng)推斷出識(shí)別手寫數(shù)字的規(guī)則。另外,通過(guò)增加訓(xùn)練樣本的數(shù)量,網(wǎng)絡(luò)可以學(xué)到更多關(guān)于手寫數(shù)字的知識(shí),這樣就能夠提升自身的準(zhǔn)確性。所以,上面例子中我們只是展出了 100 個(gè)訓(xùn)練數(shù)字樣本,而通過(guò)使用數(shù)千或者數(shù)百萬(wàn)或者數(shù)十億的訓(xùn)練樣本我們也許能夠得到更好的手寫數(shù)字識(shí)別器。
本章我們將實(shí)現(xiàn)一個(gè)可以識(shí)別手寫數(shù)字的神經(jīng)網(wǎng)絡(luò)。這個(gè)程序僅僅 74 行,不適用特別的神經(jīng)網(wǎng)絡(luò)庫(kù)。然而,這個(gè)短小的網(wǎng)絡(luò)不需要人類幫助便可以超過(guò) 96% 的準(zhǔn)確率識(shí)別數(shù)字。而且,在后面的章節(jié),我們會(huì)發(fā)展出將準(zhǔn)確率提升到 99% 的技術(shù)。實(shí)際上,最優(yōu)的商業(yè)神經(jīng)網(wǎng)絡(luò)已經(jīng)足夠好到被銀行和郵局分別用在賬單核查和識(shí)別地址上了。
手寫識(shí)別常常被當(dāng)成學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的原型問(wèn)題,因此我們聚焦在這個(gè)問(wèn)題上。作為一個(gè)原型,它具備一個(gè)關(guān)鍵點(diǎn):挑戰(zhàn)性——識(shí)別手寫數(shù)字并不輕松——但也不會(huì)難到需要超級(jí)復(fù)雜的解決方法,或者超大規(guī)模的計(jì)算資源。另外,這其實(shí)也是一種發(fā)展出諸如深度學(xué)習(xí)更加高級(jí)的技術(shù)的方法。所以,整本書我們都會(huì)持續(xù)地討論手寫數(shù)字識(shí)別問(wèn)題。本書后面部分,我們會(huì)討論這些想法如何用在其他計(jì)算機(jī)視覺的問(wèn)題或者語(yǔ)音、自然語(yǔ)言處理和其他一些領(lǐng)域中。
[待續(xù)]