Contactus
related product information

 

文字辨識軟體開發套件 (OCR SDK )



產品總覽


文字辨識軟體開發套件( Optical Character Recognition Software Development Kit, OCR SDK),提供開發者及設備製造商,整合OCR SDK並應用於軟體流程或嵌入於硬體設備或系統中。採用丹青文件辨識系統的核心技術,以超精準的中文語系辨識效果著名,支援東西方44國語系,可將輸入的文件影像資料(彩色、灰階、黑白影像)轉換為可以編輯的文字檔案,核心技術每秒鐘辨識超過1,000個字元數。


技術特點:


◆ 圖書曲線校正,並自動分頁檔案
◆ 影像背景消除
◆ 收據邊緣校正
◆ 去除影像雜點及噪點
◆ 表格與文件傾斜校正
◆ 自動偵測文件方向及表格辨識
◆ 學習字庫
◆ 自動圖文分離
◆ 辨識後保留原稿版型
◆ 內建詞庫校正功能與字元比對功能
◆ 可輸出為TXT、HTML、RTF、PDF及Microsoft Excel XLS多種文件檔案格式
◆ 支援東方語言字型:明體、黑體、楷書、仿宋、圓體、隸書等
◆ 配合不同後端系統,提供各種資料


應用範疇


◆ 文件辨識:
應用於掃描器或多功能事務機之硬體廠商、手機或平板APP軟體開發商,結合文字辨識軟體開發套件,加值商品功能。

 

◆ 文件紙本資料數位化:
協助企業機構、圖書館、出版業、報業、醫院、銀行等,使用文字辨識技術,整理大量紙本文件,數位化文件檔案,建立各種知識庫,大量節省人力打字的時間。

 

◆ 證照光學辨識:
適用於各式身分證件、企業員工或會員證件,例如身分證、健保卡、駕照、會員卡等,透過文字辨識技術,協助企業、海關、警政、戶政、交通等單位迅速確認資訊,進行資料整理及安全監控。

 

 嵌入系統辨識:
提供硬體設備廠商,如掃描器、多功能事務機、數位相機、攝影機等影像輸入裝置,結合文字辨識核心模組進行文字辨識之應用。

 

文件影像雲端應用:

以雲端OCR SDK(OCR SDK - Optical Character Recognition Software Development Kit)技術,不需安裝任何軟體,即可透過網頁方式,輸入文件資料、名片、收據、證件或表格等影像資料,無論是PDF檔案、掃描檔案、圖檔等,透過雲端辨 識技術,均可輕鬆轉換為可編輯的文字檔案,所有辨識過程,統一於雲端完成,使用者無需安裝任何程式,其核心技術每秒鐘可辨識超過1,000個字元數,運用 類神經網路技術,維護性高、辨識率佳,同時支援東西方44國語系,可依據客戶的需求,提供各種 文件影像雲端應用開發。

 

 

 

◆ 軟體開發商:
以雲端OCR SDK技術,可輕鬆整合並應用於Windows、Mac、Linux、iOS、Android等多平台系統,為軟體開發商提供客製化雲端辨識套件解決方案,亦可提供手機或平板APP軟體開發商,結合文字辨識軟體開發套件,加值商品功能,提供客戶全面、多元的服務。

 

◆ 系統整合商:
提供IaaS (Infrastructure as a Service,基礎架構即服務) 、PaaS(Platform as a Service,平台即服務)及SaaS(Software as a Service,軟體即服務)不同類型雲端維運開發管理服務,依客戶不同需求打造專屬雲端辨識應用解決方案。

 

企業服務即時通

ID: @newsoftoa

◆  文字辨識或證件辨識客製化服務需求,歡迎聯繫 02-77212080 或來信 contactus@newsoft.com.tw
★ 得泓資訊與我們合作客製化文字辨識系統,將史料報刊影像檔轉為文字影像檔方便管理及搜尋,觀看成功案例了解詳情。
■  請掃描右方 QR Code透過Line留言,詢問更多服務細節 。 
◎  證件辨識開發套件(IDR) 與你一起搶攻金融3.0商機,立即瞭解詳情! 。
★ 丹青文件辨識系統採用自行研發之文字辨識核心,馬上下載丹青文件辨識系統試用版,體驗繁體中文高度辨識力。

 

應用案例

 


企業建構數位資料庫
數位化時代來臨,報社、雜誌社須將公司內所有紙本文件,轉換為數位資料庫。力新國際與國內報社、雜誌社合作,客製專屬光學辨識服務,協助區分出文字與、雜誌內容區塊,將紙本文件以文字辨識技術進行圖文辨識,並轉為電子檔案格式,匯出至指定分類資料夾,協助客戶建構數位資料庫。客戶進行內部資料或專題整理時,搜尋資料庫即可輕易找到所需歷史資料內容。

適用在Windows、Mac OS、Linux等平台系統。


 

系統商應用
公家機關資訊、行政流程逐漸數位化,協助提升行政流程處理速度,力新國際與企業合作證件辨識技術,民眾拿出身分證件即可進行辨識,辨識資訊自動匯入資料庫中,簡化申辦文件過程填寫眾多表格的繁複程序,提升處理程序與效率。

支援Windows、Mac OS、Linux等平台資料庫系統。



 

開發商作為底層程式
運用丹青文字辨識套件,整合開發文件、名片、收據等類型之應用軟體或開發 iOS 、Android平台之行動APP商品;若您為硬體廠商,亦可將丹青文件管理套件結合硬體,開發掃描辨識應用的裝置。

 


開發商加值商品應用
將OCR SDK應用模組 (如:文件傾斜校正/影像文件方向/字元辨識等不同模組內容)嵌入於於掃描裝置,直接將掃描結果輸出於記憶卡或電腦,方便保存與攜帶資料。

 

◆  文字辨識及證件辨識客製化服務需求,歡迎來電 02-77212080 或來信 contactus@newsoft.com.tw 與我們聯繫。
◎  金融3.0 政策推動需要證件辨識技術開發線上開戶系統,立即了解 證件辨識開發套件(IDR)  搶攻金融3.0商機! 。
★ 丹青文件辨識系統採用自行研發之文字辨識核心,馬上下載丹青文件辨識系統試用版,體驗繁體中文高度辨識力。

 

得泓資訊有限公司

客製化文字辨識套件 協助建置報刊數位資料庫


 

客戶背景
 
‧ 產業別:電子資料庫資訊商
‧ 合作客戶:國家級圖書館、大專院校圖書館
‧ 服務據點:台北 
 

 


合作緣由 



歷史報刊由紙本轉為電子資料庫
 

得泓資訊深耕中國古文書籍、近代報刊電子資料庫領域,精選多種影響範圍廣、存續時間長、史料價值高、反映時代意義、具開創性或代表性的古文書籍及報刊雜誌,持續將紙本內容轉換成數位化資料庫,讓對於中國文學、歷史文學、近代歷史有興趣的研究者、學子及民眾,可快速透過電子資料庫查詢所需資料。
 

得泓資訊透過數年的努力,已將大量的古文書籍、近代報刊轉化為影像式數位資料庫,使用者可透過影像資訊查詢所需要的歷史訊息。為了內部檔案資料分類歸檔更為便捷、也為了未來方便使用者調閱訊息,得泓資訊計畫逐步將資料庫的影像內容,透過文字辨識技術將影像中的文字擷取出來,建置數位資料庫。 
 

得泓資訊與擁有自行開發文字辨識核心及影像前處理技術的力新國際進行合作,需求如下:
 

1) 影像文字式資料庫:希望透過文字辨識,逐步將報刊影像資料庫內容轉為影像加上文字的資料庫,完成後方便內部分類、歸檔檔案內容,未來亦可開放使用者透過搜尋的方式快速找到所需的報刊史料。

2) 字形大小及字型校閱:由於報刊文字字體大小不一,標題字級大、文章內容字級小,同一個字也有不同字型的問題。希望文字辨識的結果,能解決字體太小、字型不統一的問題。

3) 客製化詞庫校對:對於連續性刊載的新聞或雜誌,自動分析字詞頻率、接續詞頻率及辨識錯誤頻率,並利用詞庫資料,設計階段性除錯及自動比對程式,藉此降低人力校對時間。 

 

 

成果及效益:

 

  • 輸入報刊內容關鍵字,可快速找到影像資訊 

以往影像資料庫,於各影像建檔時,輸入相關的關鍵字方便使用者查找資訊。若使用者搜尋資料時,沒有輸入正確關鍵字,會有找不到資料的情況發生。


藉由文字辨識,將影像資料庫全面文字化,方便內部建置數位資料庫時內容分類及歸檔。待資料庫建置完成,內部或使用者輸入報章雜誌的符合的關鍵內容,即可找到所需要的內容。 

 

  • 文字字體統一,不怕字小看不清楚:

近代報刊有著內文文字過小,有時看不清的問題,透過影像前處理技術,加強文字辨識度,讓輕鬆辨識內文文字,加速整理文字資料庫的速度。近代報刊使用多種字體呈現內容,同一個字在標題、內容採用不同的字體,由於文字辨識可辨識多種字體,解決字體不統一,有時誤認文字的困擾。

 

  • 客製字詞庫校對,大幅降低人力校對時間:

報刊內容,針對特定主題經常有連續性的報導,與政經時局及社會氛圍有關,且有一定撰寫格式,因而有固定經常出現的詞彙、或當下流行的字詞。


除了文字辨識技術外,力新國際協助客製化字詞庫校對,分析字詞出現頻率、接續詞頻率及辨識錯誤頻率,利用字詞庫設計階段性的文字除錯及自動比對機制,大幅將低影像轉文字資料庫時人力校對的時間。

 

◆ 提供文字辨識系統客製化服務,歡迎來電 02-7721-2080 或來信 contactus@newsoft.com.tw 洽詢 。
證件辨識開發套件助力數位金融3.0商機,立即深入瞭解服務內容。
◆ 丹青文件辨識系統採自行開發之文字辨識核心,馬上下載丹青文件辨識系統試用版體驗高度文字辨識率。

 

影像掃描器製造商

影像前處理模組 提升掃描影像品質

 

客戶背景
 
˙ 產業別:影像掃描器製造業
˙ 員工數:100人以上
˙ 據點:新竹 

 


合作緣由 



更多元的影像處理功能 提升掃描影像檔品質  

 

成立近30年,總公司位於新竹科學園區的影像掃描器製造商,在美洲及歐洲皆設有行銷通路,以生產多樣化掃描器著名,如A3/A4平台式、手持式、iPhone/iPad專用和WiFi無線行動掃描器等。


為了提供專業且具市場需求的產品,掃描器廠商進行調查,了解消費者需要更高的文件影像掃描品質。透過開發晶片改善影像品質的時程漫長,因而與專精影像前處理技術的力新國際合作,採用以下影像前處理模組導入掃描器產品,給予消費者最佳的掃描影像品質。

 

1) 去除網紋(Descreen):相片及圖片是精細點所組成,網紋是掃描照片或影像時,產生因為不均勻層次或條紋圖案的現象,去除網紋可以減少掃描後網紋的情況。


2) 去除雜點(Despeckle):掃描照片或影像出現黑色的雜點及噪點,藉由重新取樣並修改影像,讓影像看起來更柔和。
 

3) 消除裝訂孔 (Punch Hole Removal):對於有裝釘孔的文件,掃描後的檔案會出現黑色孔洞,藉由自動消除裝釘孔功能將對這些點進行背景化。


4) 邊緣校正(Edge Correction):對於掃描的影像,可自動抓取書本或文件頁面範圍,完整呈現掃描檔案的原始樣式。


5) 空白頁偵測(Blank Page Detection):有些文件間會有空白頁的情況,藉由空白頁偵測,在偵測過程中,可跳過空白頁,藉此提升文件閱讀性及降低檔案儲存所需空間。


6) 自動裁切影像 (Auto Crop):尋找掃瞄影像內容的邊緣及判斷背景範圍,刪除框線外的影像可縮小檔案,或進行文字辨識時,能減少空白影像的干擾。
     

7) 傾斜校正(Auto Deskew):將自動偵測傾斜頁面並按需進行校正,提升掃描影像檔的閱讀性,後續影像檔進行光學文字辨識時,也會提高文字辨識結果的正確性。
 

8) 影像平滑(Image Smoothing):減少影像傳輸中因品質較差的引起的鋸齒效果,提高影像檔閱讀的舒適性,未來影像檔進行文字辨識時,亦能提升文字內容辨識率。

去除雜點

 

 

自動裁切影像 

 

傾斜校正

 


成果及效益:


˙ 針對硬體需求,快速導入影像前處理技術
每款掃描器依其市場定位或功能差異化需要不同的軟體功能,掃描器製造商可針對不同款式的掃描器,快速導入所需影像前處理模組,如手持式掃描器須強化傾斜校正功能,或相片掃描器須強化去除雜點功能等。


˙ 採用專業影像前處理模組,專注硬體開發
掃描器硬體不含任何功能,由掃描器晶片提供基本功能,若欲新增功能至晶片,開發時程長且費用高昂。依據產品定位及使用族群需求,彈性採用力新國際開發的影像前處理模組,導入成本合宜,且不必花費漫長時間等待晶片增加功能、設計及製造過程。即可大幅提升文件影像的品質,降低掃描過程中產生的網紋、雜點或鋸齒的情況,提供裁切影像、校正文件歪斜或偵測空白頁的功能。


˙ 持續精進影像前處理各式效能,滿足3C製造廠商需求
在影像技術、影像前處理技術及文字辨識技術領域著名已30年的力新國際,持續研發各式影像前處理技術,整合為專業影像處理模組,提供給掃描器、事務機、影印機與數位相機等3C週邊製造商。讓合作夥伴不用投入大量的軟體研發人力、時間及金錢,即可用合理的成本採用高品質的影像前處理模組,導入產品中,快速推出具競爭力、市場差異化的產品。
 

◆  提供影像前處理模組,歡迎來電 02-7721-2080 或來信 contactus@newsoft.com.tw 洽詢 。
★  得泓資訊與我們合作客製化文字辨識系統,將史料報刊影像檔轉為文字影像檔方便管理及搜尋,觀看成功案例了解詳情。
◆  金融3.0 政策推動需要證件辨識技術開發線上開戶系統,立即了解 證件辨識開發套件(IDR)  搶攻金融3.0商機! 。