歡迎光臨陜西驪山低速風(fēng)機動力制造有限公司官網(wǎng)!

全國咨詢熱線:

400-8888-888

丫一接線圖講解_丫型接線法

所屬分類:風(fēng)葉 發(fā)布日期:2024-10-20 瀏覽次數(shù):4

  緬甸聯(lián)邦共和國丫一接線圖講解,原名緬甸,是東南亞丫一接線圖講解的一個國家,從1962年到2010年,緬甸一直被政變后上臺的軍政府統(tǒng)治,直至最近5年它才對外界開放,與其他國家建立了貿(mào)易與文化聯(lián)系。

 丫一接線圖講解_丫型接線法

  緬甸語由很多方言組成,但所有方言都共享一個核心字母表,該核心字母表主要用于正式文本和印刷媒體,有33個輔音和12個輔助字符,地區(qū)方言可能還使用其他字符,完整列表大約有核心字母表的三倍大。幸運的是,丫一接線圖講解我們的工作是識別使用流行的至少10點大小的緬甸3字體書寫的標(biāo)準(zhǔn)緬甸文本,文本圖像可以是灰度、黑白或彩色的,分辨率至少有300dpi,下面是典型的緬甸文本樣板:

 丫一接線圖講解_丫型接線法

  在項目初步階段,丫一接線圖講解我們必須實現(xiàn)75%的OCR準(zhǔn)確度,最小目標(biāo)準(zhǔn)確度為94%。

  緬甸腳本就是所謂的alphasyllabary,在這里每一個輔音字母也都傳達(dá)“默認(rèn)”元音聲,其他元音聲使用特殊字符和輔音上面、下面、前面、后面的變音符號甚至輔音周圍的變音符號轉(zhuǎn)錄。

  字母大多由半圓組成,因為在過去,文本都是寫在棕櫚葉上,很容易被直線切口損壞。

  緬甸語是一種有聲調(diào)的語言,有三個主要聲調(diào)—高、低和嘎吱聲,和兩個次要聲調(diào)—入耳調(diào)和降調(diào)。

  由于聲調(diào)也要在書寫中進(jìn)行轉(zhuǎn)錄,緬甸腳本實際上有兩種可分辨的符號,可能放在主要字母上面、下面或同時放在主要字母的上面和下面,這兩種層疊的可分辨系統(tǒng)給OCR軟件帶來了重大挑戰(zhàn),但不僅僅如此。

  若要讓事情變得更復(fù)雜,有些字母組合可以融合在一起形成新字符。

  在大多數(shù)常規(guī)術(shù)語中,光學(xué)字符識別如雷貫耳。當(dāng)OCR軟件收到圖像文件時,它會使用OCR技術(shù)執(zhí)行一些初步處理,將圖像轉(zhuǎn)換為黑白文本并糾正看得見的扭曲,接下來檢測包含不同類型文本(標(biāo)題、正文、腳注)、照片和表格的區(qū)域,文本塊隨后解析成行,行再到單詞,單詞再到字母,單個字母識別完成之后,文本將自下至上重組,緬甸文本的圖像處理和板塊檢測和大多數(shù)其他語言里的操作一樣,但是檢測文本行是一件棘手的事。

  由于變音符號的豐富性,教電腦識別短文本行非常困難,這就是原因所在,我們的運算法則使用很多功能體現(xiàn)文本行,其中的一個功能是虛構(gòu)的基線,所有主要字符都位于這個基線上,電腦需知道在哪里畫一條基線,以便生成有關(guān)單個字符的合理假設(shè)。

  電腦使用統(tǒng)計數(shù)據(jù)檢測基本文本行,為了收集必要的數(shù)據(jù),要觀察構(gòu)成字母的黑點生成的直方圖上的峰值,在歐洲字母的直方圖上,有三個清晰可見的峰值對應(yīng)于基線和小寫字母的高度:

  然而在緬甸語中,文本行正常寬度以外的眾多變音符號在直方圖中導(dǎo)致額外的統(tǒng)計學(xué)上有意義的峰值,為此,我們的最初面向歐洲腳本的運算法則,無法正確地識別緬甸文本行的重要參數(shù)。

  在下面的圖形中,程序正確地檢測到了前兩行,但沒有檢測到第三行:

  針對文本行檢測運算法則,我們必須要做一些調(diào)整,讓其同樣適用于緬甸文本。

  本文中我們提到的OCR技術(shù)指的就是ABBYY FineReader 12,更多相關(guān)內(nèi)容,請點擊訪問你的電腦會閱讀緬甸語嗎(下)。

評論列表

還沒有評論,快來說點什么吧~

發(fā)表評論

真誠期待與您的合作

獲取報價·了解更多業(yè)務(wù)·7*24小時專業(yè)服務(wù)

聯(lián)系我們