以下爲臨時文案,内容由您定義--------------------------------------------------------------------------
利用計算機自動識别字符的技術,是模式識别應用的一個重要領域。人們在生産和生活中,要處理大量的文字、報表和文本。爲了減輕人們的勞動,提高處理效率,50年代開(kāi)始探讨一般文字識别方法,并研制出光學(xué)字符識别器。60年代出現了采用磁性墨水和特殊字體的實用機器。60年代後(hòu)期,出現了多種(zhǒng)字體和手寫體文字識别機,其識别精度和機器性能(néng)都(dōu)基本上能(néng)滿足要求。如用于信函分揀的手寫體數字識别機和印刷體英文數字識别機。70年代主要研究文字識别的基本理論和研制高性能(néng)的文字識别機,并著(zhe)重于漢字識别的研究。
文字識别一般包括文字信息的采集、信息的分析與處理、信息的分類判别等幾個部分。
信息采集
將(jiāng)紙面(miàn)上的文字灰度變換成(chéng)電信号,輸入到計算機中去。信息采集由文字識别機中的送紙機構和光電變換裝置來實現,有飛點掃描、攝像機、光敏元件和激光掃描等光電變換裝置。
信息分析和處理
對(duì)變換後(hòu)的電信号消除各種(zhǒng)由于印刷質量、紙質(均勻性、污點等)或書寫工具等因素所造成(chéng)的噪音和幹擾,進(jìn)行大小、偏轉、濃淡、粗細等各種(zhǒng)正規化處理。
信息的分類判别
對(duì)去掉噪聲并正規化後(hòu)的文字信息進(jìn)行分類判别,以輸出識别結果。
識别方法編輯
文字識别方法
文字識别方法基本上分爲統計、邏輯判斷和句法三大類。常用的方法有模闆匹配法和幾何特征抽取法。
① 模闆匹配法
將(jiāng)輸入的文字與給定的各類别标準文字(模闆)進(jìn)行相關匹配,計算輸入文字與各模闆之間的相似性程度,取相似度較大的類别作爲識别結果。這(zhè)種(zhǒng)方法的缺點是當被(bèi)識别類别數增加時,标準文字模闆的數量也随之增加。這(zhè)一方面(miàn)會(huì)增加機器的存儲容量,另一方面(miàn)也會(huì)降低識别的正确率,所以這(zhè)種(zhǒng)方式适用于識别固定字型的印刷體文字。這(zhè)種(zhǒng)方法的優點是用整個文字進(jìn)行相似度計算,所以對(duì)文字的缺損、邊緣噪聲等具有較強的适應能(néng)力。
②
幾何特征抽取法
抽取文字的一些幾何特征,如文字的端點、分叉點、凹凸部分以及水平、垂直、傾斜等各方向(xiàng)的線段、閉合環路等,根據這(zhè)些特征的位置和相互關系進(jìn)行邏輯組合判斷,獲得識别結果。這(zhè)種(zhǒng)識别方式由于利用結構信息,也适用于手寫體文字那樣(yàng)變型較大的文字。
文字識别
文字識别
應用領域編輯
文字識别可應用于許多領域,如閱讀、翻譯、文獻資料的檢索、信件和包裹的分揀、稿件的編輯和校對(duì)、大量統計報表和卡片的彙總與分析、銀行支票的處理、商品發(fā)票的統計彙總、商品編碼的識别、商品倉庫的管理,以及水、電、煤氣、房租、人身保險等費用的征收業務中的大量信用卡片的自動處理和辦公室打字員工作的局部自動化等。以及文檔檢索,各類證件識别,方便用戶快速錄入信息,提高各行各業的工作效率。
中國(guó)現狀編輯
随著(zhe)我國(guó)信息化建設的全面(miàn)開(kāi)展,OCR文字識别技術誕生20餘年來,經(jīng)曆從實驗室技術到産品的轉變,已經(jīng)進(jìn)入行業應用開(kāi)發(fā)的成(chéng)熟階段。相比發(fā)達國(guó)家的廣泛應用情況,OCR文字識别技術在國(guó)内各行各業的應用還(hái)有著(zhe)廣闊的空間。随著(zhe)國(guó)家信息化建設進(jìn)入内容建設階段,爲OCR文字識别技術開(kāi)創了一個全新的行業應用局面(miàn)。文通,雲脈技術、漢*等中國(guó)文字識别的領軍企業將(jiāng)會(huì)更加深入到信息化建設的各個領域。