光学式文字認識(OCR)は、ソフトウェア技術とコンピュータの検索可能なテキストに印刷されたテキストの翻訳を含むプロセスを指します。
正しく行えば、OCRで検索し、ファイルまたはページ内に含まれる個々の単語を取得したりすることができます。さらに、ファイルのセットがインデックス化されている場合、ユーザーは全体のドキュメントライブラリでキーワードを検索し、正確な精度で各ページを取得することができます。 OCRは、秒、一度完了するまでに数時間または数日を取ることができる検索で検索を実行したりすることができます。
しかし、この技術は、テキストとグラフィックの混在フォントまたはその組み合わせが含まれている古いや低品質の文書でうまく動作しませんでした。今まで!
いくつかの最近のテクノロジーの進歩のために、それは文書コレクションのこれらのタイプからシックスシグマレベルの文字の精度を得ることができるようになりました。
それは紙の文書の品質と状態がまだ成功したOCRの変換で重要な要因であることを心に留めておくことは重要ですが、劇的に改善された結果は、処理前にスキャンされた画像の品質を高めることによって得ることができます。
ボーダー、スペックルとスキューのノイズ除去は、より高度なドキュメントスキャナで現在一般的です。
さらに、高度なカラーフィルタ技術は、画質や認識精度に影響を与える可能性があるページの折り目によってキャストシャドウは削除するマルチ光画像の捕捉技術と組み合わせて、任意のページの背景色を低減するために使用されることがあります。
一度文書のスキャンと処理が完了すると、OCRテキストのレイヤーを実際に追加され、各画像の後ろに隠れてすることができます。追加の方向フィルタは、最高の画像をOCRエンジンに提示されていることを確認するために使用することができます。
可能な限り最高の変換精度を達成するために、画像内の文字は、最高のテキスト認識の適合を判断するために各文字をランク付けマルチエンジンOCR投票技術を使用して処理することができます。ワードが生成されるとし、それは最高品質の結果を保証するために独自の辞書を介して濾過されます。
より高度なドキュメントスキャナ。さらに、高度なカラーフィルタ技術は、画質や認識精度に影響を与える可能性があるページの折り目によりキャストシャドウは削除するマルチ光画像キャプチャ技術と組み合わせて、任意のページの背景色を低減するために使用されることがあります。
一度文書のスキャンと処理が完了すると、OCRテキストのレイヤーを実際に追加され、各画像の後ろに隠れてすることができます。追加の方向フィルタは、最高の画像をOCRエンジンに提示されていることを確認するために使用することができます。
可能な限り最高の変換精度を達成するために、画像内の文字は、最高のテキスト認識の適合を判断するために各文字をランク付けマルチエンジンOCR投票技術を使用して処理することができます。ワードが生成されるとし、それは最高品質の結果を保証するために独自の辞書を介して濾過されます。
0 件のコメント:
コメントを投稿