久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

專欄中心

EEPW首頁(yè) > 專欄 > 【領(lǐng)域報(bào)告】圖像OCR年度進(jìn)展|VALSE2018之十一 (1)

【領(lǐng)域報(bào)告】圖像OCR年度進(jìn)展|VALSE2018之十一 (1)

發(fā)布人:深度學(xué)習(xí)大講堂 時(shí)間:2020-12-17 來(lái)源:工程師 發(fā)布文章

編者按:

“清風(fēng)不識(shí)字,何事亂翻書。”

早在1929年,德國(guó)科學(xué)家Tausheck提出了OCR的概念,定義為將印刷體的字符從紙質(zhì)文檔中識(shí)別出來(lái)。而技術(shù)發(fā)展至今,識(shí)字,已不再僅限于識(shí)別書本上的文字,而是要識(shí)別真實(shí)世界開放場(chǎng)景中的文字。因此,也衍生出了一系列問(wèn)題,例如真實(shí)環(huán)境中文字角度不可控、語(yǔ)種復(fù)雜多樣、環(huán)境噪聲多變等,針對(duì)這些問(wèn)題,學(xué)術(shù)界開展了OCR領(lǐng)域研究工作。本文中,來(lái)自華中科技大學(xué)的白翔教授,將為大家介紹過(guò)去一年中,OCR領(lǐng)域的研究進(jìn)展。

文末,大講堂提供文中提到參考文獻(xiàn)的下載鏈接。

10.jpg9.jpg

報(bào)告從文本檢測(cè),文本識(shí)別,端到端識(shí)別,還有數(shù)據(jù)集四個(gè)方面展開。

8.jpg

文本檢測(cè)方面。首先是去年自動(dòng)化所發(fā)表在ICCV的研究成果。之前的回歸方法大多為計(jì)算給定的default box和待要檢測(cè)的文本框的offset,而這里采用的是基于一個(gè)像素點(diǎn)回歸的方法,也就是回歸文本框與當(dāng)前像素點(diǎn)的offset。另一個(gè)區(qū)別是融合不同層的特征,通過(guò)多任務(wù)學(xué)習(xí)進(jìn)行文本分割以及文本框的回歸。整體上,他們的工作在場(chǎng)景文字檢測(cè)任務(wù)上帶來(lái)了一定性能上的提升。

7.jpg

另外一個(gè)工作是用全卷積網(wǎng)絡(luò)將文本區(qū)域分成三種類型,第一種類型是文本內(nèi)部區(qū)域,第二種類型是背景區(qū)域,第三種類型是文字的邊界。這種手段可以較好地應(yīng)對(duì)之前的基于分割的場(chǎng)景文本檢測(cè)方法難以區(qū)分相鄰的文本實(shí)例的問(wèn)題,從而帶來(lái)檢測(cè)性能的提升。

6.jpg

上面這項(xiàng)工作的思路相對(duì)比較簡(jiǎn)單,就是在SSD基礎(chǔ)上加了一個(gè)模塊,這個(gè)模塊引入了attention的機(jī)制即預(yù)測(cè)text mask,通過(guò)文本和非文本的判別讓檢測(cè)更加關(guān)注到文本區(qū)域上。

5.jpg

這是百度的工作,做法也比較直接:通過(guò)一個(gè)弱監(jiān)督的框架使用單詞級(jí)別的標(biāo)注來(lái)訓(xùn)練字符檢測(cè)器,然后通過(guò)結(jié)構(gòu)分析將檢測(cè)到的字符組合成單詞。

4.jpg

這篇是我們今年發(fā)表在TIP上面的一篇工作。其主要改進(jìn)點(diǎn)為在去年TextBoxes基礎(chǔ)上增加了額外的兩個(gè)分支,其中一個(gè)分支被用來(lái)回歸文字水平包圍盒,另外一個(gè)分支被用來(lái)回歸四邊形(表示為4個(gè)頂點(diǎn))。此外,我們還用識(shí)別信息來(lái)過(guò)濾檢測(cè)到的候選框,進(jìn)一步提升檢測(cè)結(jié)果。

3.jpg2.jpg

這是我們今年被CVPR接收的一篇文章。其主要思路是:對(duì)于文本來(lái)說(shuō),無(wú)論是回歸還是分類,特征往往是共享的。然而對(duì)于場(chǎng)景文本檢測(cè)問(wèn)題來(lái)說(shuō),特征共享對(duì)于這兩個(gè)任務(wù)其實(shí)是不利的。首先對(duì)于文本與背景的分類問(wèn)題,一般要求特征具有方向不變性。但是對(duì)于回歸出文本的包圍框這個(gè)任務(wù),又要求特征對(duì)方向信息是敏感的。因此直接對(duì)這兩個(gè)任務(wù)做特征分享可能會(huì)帶來(lái)性能損失。這里我們采用非常簡(jiǎn)單的方法來(lái)解決這個(gè)問(wèn)題,就是在應(yīng)對(duì)回歸和分類兩個(gè)不同任務(wù)時(shí),在回歸部分跟原來(lái)一樣,在分類部分中加入oriented response pooling。這個(gè)做法可以讓分類特征具有旋轉(zhuǎn)不變性,可以更好地關(guān)注它是文本還是非文本的問(wèn)題,方向不帶來(lái)額外影響。最后對(duì)兩個(gè)任務(wù)進(jìn)行多任務(wù)學(xué)習(xí),可以提高性能,在應(yīng)對(duì)長(zhǎng)文本和方向變化比較劇烈的情況,提升尤為顯著。

1.jpg

這篇同樣是我們今年被CVPR接收的一篇場(chǎng)景文本檢測(cè)的文章。這項(xiàng)工作主要是為了解決場(chǎng)景文本多方向,長(zhǎng)寬比變化較大等場(chǎng)景文本檢測(cè)中的難點(diǎn)問(wèn)題。之前的方法大多采用包圍盒回歸的方法或者文本區(qū)域分割的方法去解決上述問(wèn)題,但是效果并不是特別好。本篇文章用了一個(gè)新的思路來(lái)解決這個(gè)問(wèn)題,即檢測(cè)文本區(qū)域的角點(diǎn),然后通過(guò)組合角點(diǎn)的方式得到文本框。因此,我們?cè)O(shè)計(jì)了corner detection,思路是直接檢測(cè)文本區(qū)域的四個(gè)頂點(diǎn)。由于我們是檢測(cè)角點(diǎn),所以首先我們的方法不會(huì)受到感受野的影響,其次我們的方法對(duì)方向比較魯棒。此外我們還結(jié)合了position sensitive segmentation來(lái)提供文本區(qū)域的位置信息以及文本的實(shí)例信息,并使用segmentation map信息為角點(diǎn)組合成的包圍盒進(jìn)行打分,這比直接計(jì)算包圍盒得分更加魯棒。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

關(guān)鍵詞:

相關(guān)推薦

一個(gè)新時(shí)代的連接:由AWS賦能的NXP S32K3邊緣設(shè)備

全球經(jīng)濟(jì)減緩——半導(dǎo)體產(chǎn)業(yè)的機(jī)會(huì)在哪里?

SN74LS373, SN74LS374 常用的8d鎖存器

面向 RF 應(yīng)用的低相位噪聲頻率合成器

將 DC/DC 轉(zhuǎn)換器改造為高性能的全功能電池充電器

家居服務(wù)機(jī)器人技術(shù)應(yīng)用現(xiàn)狀分析

曝蘋果發(fā)布會(huì)虛假宣傳Siri:內(nèi)部員工感到驚訝

輸出電壓調(diào)節(jié)

S3C44B0x Samsung ARM7TDMI 應(yīng)用手冊(cè)

中國(guó)國(guó)際國(guó)防電子展覽會(huì)

視頻 2012-01-12

應(yīng)對(duì)多電機(jī)電動(dòng)汽車的設(shè)計(jì)挑戰(zhàn)

中國(guó)項(xiàng)目組目標(biāo):在AMD Zen處理器上運(yùn)行RISC-V代碼

SC1175 雙DC-DC轉(zhuǎn)換芯片

面向電動(dòng)兩輪車的模塊化硬件/軟件開發(fā)生態(tài)系統(tǒng)

資本圈給人形機(jī)器人當(dāng)頭一棒?后該如何發(fā)展

交流和直流功率繼電器的開關(guān)設(shè)計(jì)有什么區(qū)別?

采用每輪電機(jī)的電動(dòng)汽車的智能扭矩矢量方法

IMU在人形機(jī)器人中的作用

SC1102 電源芯片

SAMSUNG KM29U128 16M字節(jié) NAND Flash

更多 培訓(xùn)課堂
更多 焦點(diǎn)
更多 視頻

技術(shù)專區(qū)