主要な概念
Optical Character Recognitionのユースケースと実装について学ぶ前に、その基本的な概念を詳しく理解することが重要です。
テキスト認識プロセス
一般的にOCRシステムは、テキストの検出と識別プロセスにトップダウンアプローチを採用しています。
画像またはデジタル書類がZia OCRに送信されると、テキストの検出と認識プロセスは以下のように進行します。
- Ziaは画像の構造を分析し、段落のようなテキスト行の連続したセットのブロックに分割します。
-
次に、Ziaはブロックをさらに分解し、個々のテキスト行を識別します。
-
テキスト行は単語に分割され、各単語は個々の文字に分解されます。
-
Ziaは検出した文字をデータセットと比較し、高度なアルゴリズムと分析を実行して文字を特定し、文字のグループに基づいて単語を認識します。
-
Ziaは、Intelligent Character Recognition(ICR)技術を使用して確率と仮説の大量のデータを処理し、コンテンツの言語を特定します。
-
処理・認識されたテキストは、最終的にJSONまたはドキュメントレスポンスとしてユーザーに返されます。
モデルタイプ
モデルタイプは、Catalystがサポートするタイプを記述するOCR機能の主要な属性です。一般的な光学文字認識機能のために処理するすべての一般的な画像および書類ファイルは、OCRモデルタイプに分類されます。Catalyst OCR APIまたはSDKを通じて画像や書類を処理する際は、常にこれをモデルタイプとして指定する必要があります。
Catalystは、Identity Scannerと呼ばれる独立した機能を通じて、IDの証明書や公式書類の処理、セキュアな本人確認の実行も可能です。これらは、AADHAAR、PAN、CHEQUE、PASSBOOKのそれぞれのモデルタイプに分類されます。
サポート言語
OCRモデルは、9つの国際言語と10のインド言語のテキストコンテンツを検出・認識できます。
インド言語
- English
- Hindi
- Bengali
- Marathi
- Telugu
- Tamil
- Gujarati
- Urdu
- Kannada
- Malayalam
- Sanskrit
その他の国際言語
- Arabic
- Chinese
- French
- Italian
- Japanese
- Portuguese
- Romanian
- Spanish
ユーザーが言語を指定しない場合、Ziaは自動的に言語を検出できます。Ziaは、テキストが判読可能で明確で標準的なフォント構造を使用している限り、手書きコンテンツを認識できます。ただし、画像や図などの非テキストコンテンツは認識できません。
入力形式
Zia OCRは、処理のために以下の形式の入力ファイルをサポートしています。
- .webp/.jpeg
- .png
- .tiff
- .bmp
デバイスのメモリからCatalystアプリケーションに画像または書類ファイルをアップロードするためのスペースをユーザーに提供できます。また、エンドユーザーのデバイスのカメラを使用してテキストコンテンツを含む写真を撮影し、画像を入力ファイルとして処理するようにCatalystアプリケーションをコーディングすることもできます。
APIを使用して提供される入力には、ソースファイル、認識するテキストの言語(オプション)、およびモデルタイプ(オプション)が含まれます。
リクエスト形式はAPIドキュメントで確認できます。
より良い結果を得るために、入力を提供する際には以下のガイドラインに従ってください。
- 画像内のぼやけたまたは認識できないテキストの提供は避けてください。
- 画像ファイル内のテキストが明確で、見やすく、判読可能であることを確認してください。
- 画像ファイルに手書きテキストが含まれている場合は、標準的なフォントを使用していることを確認してください。
- 画像サイズが小さすぎないようにしてください。
レスポンス形式
Ziaは、以下の方法でOCR処理のレスポンスを返します。
- コンソールの場合
コンソールで処理するサンプル画像または書類ファイルをアップロードすると、2つの形式でレスポンスが返されます。
- ドキュメントレスポンス: 元のコンテンツに基づいて行と段落に視覚的に分離されたフォーマットされた読みやすいテキストが、OCRモデルタイプのconfidence scoreとともにパーセンテージ値で返されます。
- JSON response: OCRモデルタイプのconfidence scoreとともに、認識されたテキストがJSON形式で返されます。
- SDKを使用する場合
APIリクエストを使用して画像または書類ファイルを送信すると、上記と同じ形式で認識されたテキストを含むJSON responseを受信します。SDKを使用してコード内でJSON responseのフォーマットをカスタマイズできます。たとえば、レスポンスとして個別の段落や行からの個々の単語を返すことができます。詳細については、Java、Node.js、Python SDKドキュメントを参照してください。
最終更新日 2026-02-23 18:09:41 +0530 IST
Yes
No
Send your feedback to us