Conceptos Clave

# Conceptos Clave

Antes de aprender sobre los casos de uso y la implementación de Optical Character Recognition, es importante comprender sus conceptos fundamentales en detalle.

### Proceso de reconocimiento de texto

Los sistemas OCR en general siguen un enfoque de arriba hacia abajo para el proceso de detección e identificación de texto.

Cuando se envía una imagen o un documento digital a Zia OCR, el proceso de detección y reconocimiento de texto procede de la siguiente manera:

1. Zia analiza la estructura de la imagen y la divide en bloques de conjuntos contiguos de líneas textuales, como párrafos.
<br />
Nota: Un bloque también podría contener contenido pictórico. Sin embargo, cualquier contenido que no sea texto, como diagramas, símbolos o imágenes, no será identificado por Zia OCR.

2. Zia luego descompone los bloques aún más e identifica líneas individuales de texto.

3. Las líneas de texto se dividen luego en palabras y cada palabra se descompone en caracteres individuales.

4. Zia compara los caracteres que ha detectado con su conjunto de datos y ejecuta algoritmos avanzados y análisis para identificar los caracteres y reconocer palabras basándose en las agrupaciones de caracteres.

5. Zia también identifica el idioma en el que está el contenido procesándolo a través de volúmenes de probabilidades e hipótesis utilizando la tecnología de Reconocimiento Inteligente de Caracteres (ICR).

6. El texto procesado y reconocido finalmente se devuelve al usuario como una respuesta JSON o de documento.

### Tipos de modelo

Un tipo de modelo es un atributo clave que describe el tipo de función OCR soportada por Catalyst. Todos los archivos generales de imagen y documento que proceses para la función común de reconocimiento óptico de caracteres caerán bajo el Tipo de Modelo OCR. Necesitarás especificar esto como el tipo de modelo, siempre que proceses una imagen o un documento a través de la API o SDK de Catalyst OCR.

Catalyst también te permite procesar pruebas de identidad y documentos oficiales, y realizar verificaciones de identidad seguras a través de una función independiente llamada Identity Scanner. Estos caerán bajo sus respectivos tipos de modelo de AADHAAR, PAN, CHEQUE y PASSBOOK.

### Idiomas soportados

Los modelos OCR pueden detectar y reconocer contenido textual en 9 idiomas internacionales y 10 idiomas indios.

#### Idiomas indios

1. English
2. Hindi
3. Bengali
4. Marathi
5. Telugu
6. Tamil
7. Gujarati
8. Urdu
9. Kannada
10. Malayalam
11. Sanskrit

#### Idiomas internacionales adicionales

1. Arabic
2. Chinese
3. French
4. Italian
5. Japanese
6. Portuguese
7. Romanian
8. Spanish

Si el usuario no especifica el idioma, Zia puede detectar el idioma automáticamente. Zia puede reconocer contenido escrito a mano siempre que el texto sea legible, claro y use una estructura de fuente estándar. Sin embargo, no puede reconocer ningún contenido no textual como imágenes o diagramas.

### Formato de entrada

Zia OCR soporta archivos de entrada en los siguientes formatos para procesamiento:

1. _.webp/.jpeg_
2. _.png_
3. _.tiff_
4. _.bmp_
5. _.pdf_

Podrías proporcionar un espacio para que el usuario suba el archivo de imagen o documento desde la memoria del dispositivo a la aplicación de Catalyst. También puedes codificar la aplicación de Catalyst para usar la cámara del dispositivo del usuario final para capturar una foto con contenido textual y procesar la imagen como el archivo de entrada.

La entrada proporcionada usando la API contiene el archivo fuente, el idioma del texto a reconocer (opcional) y el tipo de modelo (opcional).

Puedes consultar el formato de solicitud en la documentación de la API.

El usuario debe seguir estas directrices al proporcionar la entrada, para obtener mejores resultados:

* Evita proporcionar texto borroso o irreconocible en imágenes.
* Asegúrate de que el texto en un archivo de imagen sea claro, visible y legible.
* Si hay texto escrito a mano presente en un archivo de imagen, asegúrate de que use una fuente estándar.
* El tamaño de la imagen no debe ser demasiado pequeño.

### Formato de respuesta

Zia devuelve la respuesta del procesamiento OCR de las siguientes maneras:

* En la consola<br /> Cuando subes una imagen de muestra o un archivo de documento para ser procesado en la consola, devolverá la respuesta en dos formatos:<br />
   * Respuesta de documento: Esto devuelve un texto legible formateado que está visualmente segregado en líneas y párrafos basándose en el contenido original, junto con una puntuación de confianza para el tipo de modelo OCR en un valor porcentual.
   * Respuesta JSON: Esto devuelve el texto reconocido en formato JSON junto con la puntuación de confianza para el tipo de modelo OCR.
* Usando los SDKs<br /> Cuando envías un archivo de imagen o documento usando una solicitud de API, recibirás una respuesta JSON que contiene el texto reconocido en el mismo formato mencionado anteriormente. Puedes personalizar el formato de la respuesta JSON en tu código usando SDKs. Por ejemplo, puedes devolver párrafos separados o palabras individuales de una línea como respuesta. Para más información, consulta la documentación del SDK de Java, Node.js y Python.

Antes de aprender sobre los casos de uso y la implementación de Optical Character Recognition, es importante comprender sus conceptos fundamentales en detalle.

Proceso de reconocimiento de texto

Los sistemas OCR en general siguen un enfoque de arriba hacia abajo para el proceso de detección e identificación de texto.

Cuando se envía una imagen o un documento digital a Zia OCR, el proceso de detección y reconocimiento de texto procede de la siguiente manera:

Zia analiza la estructura de la imagen y la divide en bloques de conjuntos contiguos de líneas textuales, como párrafos.

Nota: Un bloque también podría contener contenido pictórico. Sin embargo, cualquier contenido que no sea texto, como diagramas, símbolos o imágenes, no será identificado por Zia OCR.

Zia luego descompone los bloques aún más e identifica líneas individuales de texto.
Las líneas de texto se dividen luego en palabras y cada palabra se descompone en caracteres individuales.
Zia compara los caracteres que ha detectado con su conjunto de datos y ejecuta algoritmos avanzados y análisis para identificar los caracteres y reconocer palabras basándose en las agrupaciones de caracteres.
Zia también identifica el idioma en el que está el contenido procesándolo a través de volúmenes de probabilidades e hipótesis utilizando la tecnología de Reconocimiento Inteligente de Caracteres (ICR).
El texto procesado y reconocido finalmente se devuelve al usuario como una respuesta JSON o de documento.

Tipos de modelo

Idiomas soportados

Los modelos OCR pueden detectar y reconocer contenido textual en 9 idiomas internacionales y 10 idiomas indios.

Idiomas indios

English
Hindi
Bengali
Marathi
Telugu
Tamil
Gujarati
Urdu
Kannada
Malayalam
Sanskrit

Idiomas internacionales adicionales

Arabic
Chinese
French
Italian
Japanese
Portuguese
Romanian
Spanish

Formato de entrada

Zia OCR soporta archivos de entrada en los siguientes formatos para procesamiento:

.webp/.jpeg
.png
.tiff
.bmp
.pdf

La entrada proporcionada usando la API contiene el archivo fuente, el idioma del texto a reconocer (opcional) y el tipo de modelo (opcional).

Puedes consultar el formato de solicitud en la documentación de la API.

El usuario debe seguir estas directrices al proporcionar la entrada, para obtener mejores resultados:

Evita proporcionar texto borroso o irreconocible en imágenes.
Asegúrate de que el texto en un archivo de imagen sea claro, visible y legible.
Si hay texto escrito a mano presente en un archivo de imagen, asegúrate de que use una fuente estándar.
El tamaño de la imagen no debe ser demasiado pequeño.

Formato de respuesta

Zia devuelve la respuesta del procesamiento OCR de las siguientes maneras:

En la consola
Cuando subes una imagen de muestra o un archivo de documento para ser procesado en la consola, devolverá la respuesta en dos formatos:
- Respuesta de documento: Esto devuelve un texto legible formateado que está visualmente segregado en líneas y párrafos basándose en el contenido original, junto con una puntuación de confianza para el tipo de modelo OCR en un valor porcentual.
- Respuesta JSON: Esto devuelve el texto reconocido en formato JSON junto con la puntuación de confianza para el tipo de modelo OCR.
Usando los SDKs
Cuando envías un archivo de imagen o documento usando una solicitud de API, recibirás una respuesta JSON que contiene el texto reconocido en el mismo formato mencionado anteriormente. Puedes personalizar el formato de la respuesta JSON en tu código usando SDKs. Por ejemplo, puedes devolver párrafos separados o palabras individuales de una línea como respuesta. Para más información, consulta la documentación del SDK de Java, Node.js y Python.

Última actualización 2026-03-20 21:51:56 +0530 IST

Yes

Thank you for your feedback!

Send your feedback to us

Skip

Submit