久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

專欄中心

EEPW首頁 > 專欄 > 【領域報告】圖像OCR年度進展|VALSE2018之十一 (2)

【領域報告】圖像OCR年度進展|VALSE2018之十一 (2)

發布人:深度學習大講堂 時間:2020-12-17 來源:工程師 發布文章

13.jpg

角點檢測使用的是基于DSSD的方法,此外我們將角點檢測和文本區域的分割在同一個網絡框架內實現。

從實驗結果中可以看出用了角點以后檢測性能提升比較明顯。

12.jpg

第二個方面是關于文本識別的進展,進展稍微小一點,因為目前的識別性能已經比較好。

11.jpg

利用attention model去做序列文字識別,可能會因為圖像分辨率較低、遮擋、文字間間隔較大等問題而導致attention位置并不是很準,從而造成字符的錯誤識別。海康威視在ICCV2017上提出使用字符像素級別的監督信息使attention更加準確地聚焦在文字區域,從而使識別變得更精準。他們用了部分像素級別的標注,有了類別信息以后做多任務,結果較為精準。并且只要部分字符的標注就可以帶來網絡性能的一定提升。

10.jpg

針對有形變或者任意方向文字的識別問題,Cheng等人在CVPR2018上提出了該模型。他們在水平方向之外加了一個豎直方向的雙向LSTM,這樣的話就有從上到下,從下到上,從左到右,從右到左四個方向序列的特征建模。接下來引入一個權重,該權重用來表示來自不同方向的特征在識別任務中發揮作用的重要性。這對性能有一定提升,尤其是對任意排列的文字識別。

9.jpg8.jpg

端到端識別從ICCV2017開始出現了將檢測和識別統一在一個網絡框架下的思路。目前來說這種做法訓練起來較為困難。它的主要思路是通過RPN產生一些proposal,然后在后面接上序列識別網絡。為了使網絡有效,往往需要對檢測和識別模塊分別進行預訓練,預訓練完后再把兩個模塊一起進行進一步訓練。這種方法較為復雜。

7.jpg

其它方法也采用了大同小異的思路,比如去年ICCV的這篇文章,在RPN的基礎上,加入能產生任意方向文字框的proposal,可以做任意方向文字的端到端識別。

6.jpg

這篇CVPR的工作也是大同小異,使用了更好的檢測器EAST,識別部分和訓練過程基本和之前端到端的識別工作類似。

5.jpg4.jpg3.jpg

最后我們介紹一些新的數據集。比如說去年icdar比賽中的中文數據集RCTW,以及多語言檢測數據集MLT,同時包含了語種識別和檢測任務。RCTW數據集主要由場景中文文字構成,總共包含了12,034張圖片,其中訓練集8034張,測試集4000張。比賽分為文字檢測和端到端文字識別兩部分。MLT數據集由6個文種共9種語言的文字圖片構成,共18,00張圖片。該比賽包括了文字檢測、語種識別以及文字檢測加語種識別三個任務。

2.jpg1.jpg

另外是今年華南理工金連文老師提出的比較有意思的數據集,用來探討異常排列、有形變的文字的檢測和識別問題。該數據集共1000張訓練圖片和500張測試圖片,每張圖片包含了至少一個曲行文字樣本。另外,ICDAR2017上也有一個類似的數據集Total-Text,包括了水平方向、多方向以及曲形文字共1555張圖片。

總結一下,通過數據集的演變過程,關于場景文字的研究方法有這樣幾個趨勢:第一,以后檢測和識別端到端進行可能是一個趨勢,但是未必一定把這兩個任務接在一起;第二,處理更難的文字,例如不規則文字,可能也是一個有意思的方向;第三,方法的泛化能力,英文上結果比較好的模型在中文中不一定有效,中英文差別很大,應設計適應多語種的方法來解決這些問題。

參考文獻鏈接:

https://pan.baidu.com/s/10LT47XsUpzBjHu8S9mcy7Q 密碼: k2iv

*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

關鍵詞:

相關推薦

PC 產業駛入創新超車道,蓉城萬人同慶AI PC一周年

Counterpoint 報告 2024Q3 全球折疊手機出貨量:三星同比降 21%、華為增 23%、榮耀增 121%、摩托羅拉增 164%、小米增 185%

格科成功量產多光譜CIS解決方案

Bourns全新推出11款Riedon?功率電阻產品系列

自由度直升機控制系統視頻演示

視頻 2009-03-24

aa

embedded1 2005-02-22

【科技和移動性亮點】斯巴魯與安森美合作開發圖像傳感器

Teledyne推出用于在線3D測量和檢測的Z-Trak 3D Apps Studio軟件工具

PXI Express混合信號儀器視頻教程

視頻 2009-03-24

【科技和移動性亮點】電裝與T-Hub合作推動印度的汽車創新

國際視野 2024-11-27

“新”享5G-A萬兆網絡前沿體驗 高通攜手產業伙伴亮相第二屆鏈博會

LabVIEW 8.5在各行業的應用集錦

視頻 2009-03-24

aa

embedded1 2005-02-22

橋梁健康檢測系統視頻演示

LabVIEW 循環定時之謎

視頻 2009-03-24

aa

embedded1 2005-02-22

美國新當選總統計劃為自動駕駛汽車制定聯邦框架

研究顯示:警車、救護車閃爍車燈會引發智能駕駛“數字癲癇”

更多 培訓課堂
更多 焦點
更多 視頻

技術專區