Aplicaciones OCR: la realidad del mercado

Ramón A. Fernández.
01 FEB 2001

Con el paso de los años, las distintas aplicaciones de reconocimiento óptico de caracteres han ido superando obstáculos y limitaciones que restringían enormemente su campo de aplicación. Afortunadamente, las actuales soluciones enfocadas al mercado doméstico y semiprofesional ofrecen muchas más posibilidades y capacidades que sus antecesoras, además de un mayor grado de precisión en el reconocimiento. De este modo, su funcionalidad se amplía considerablemente al poder trabajar e interpretar adecuadamente documentos originales impresos en papel en los cuales haya textos a color, tablas, o incluso, imágenes.

Para la confección del presente artículo, el laboratorio de Dealer World ha querido analizar los tres productos OCR de propósito general que acaparan la práctica totalidad del mercado.

Caere OmniPage Pro 10
Sin duda alguna, el programa Omnipage Pro, en sus distintas y sucesivas versiones, es un producto que goza de una buena reputación, siendo referencia obligada desde hace años en este tipo de software. Además, los responsables de esta aplicación no han permanecido ajenos a la evolución vivida durante todos estos años dentro del mundo OCR, y como buena muestra de ello está su nutrido número de revisiones.
La última y reciente versión, número 10, de OmniPage Pro presenta, en líneas generales, un buen número de innovaciones y características que mejoran sustancialmente las prestaciones y capacidades de anteriores versiones, conformando un paquete mucho más preciso y fácil de manejar.
Para empezar, dispone de una completa y renovada interfaz de usuario que divide verticalmente la pantalla en tres áreas de trabajo, en las cuales se tienen vistas diferentes del documento capturado o archivo abierto. Empezando por la situada más a la izquierda, según miramos la pantalla, la primera ventana irá mostrando, en pequeñas imágenes en tamaño miniatura, las sucesivas páginas que se vayan capturando, permitiendo con ello una mejor gestión de los documentos de varias páginas. En la parte central, una segunda ventana contiene una vista de la imagen de la página explorada con la cual se está trabajando en ese momento, antes de que haya sido reconocida, permitiendo realizar una gran diversidad de manipulaciones para ajustar al detalle las diferentes zonas a reconocer y su correspondiente orden. Además, en el interior de esta ventana hay una larga barra de herramientas repleta de iconos con los que seleccionar manualmente las distintas opciones para configurar las diferentes áreas a reconocer, así como opciones de nivel zoom, rotación de la imagen y herramientas para trabajar con tablas y columnas. Por último, en el extremo de la derecha se encuentra el área que muestra una vista del documento una vez reconocido por el motor OCR, conocida como ventana de texto. En dicha ventana, el texto que aparece es totalmente modificable y, además, puede ser verificado fácilmente ya que se nos ofrece la posibilidad de mostrar una imagen bitmap del original. No obstante, esta configuración de ventanas puede variarse sustancialmente, según los particulares gustos de cada usuario. En este sentido, cada una de estas ventanas puede ocultarse permitiendo que el usuario de centre en una determinada fase del proceso e, incluso, las ventanas de imagen y texto pueden visualizarse simultáneamente tanto de forma vertical como horizontal para poder comparar mejor los resultados en relación con la imagen original. El control de estas posibilidades se ofrece en una serie de diminutos iconos situados en la parte inferior de la ventana junto a la barra que muestra la información contextual de cada elemento.
Por encima de estas tres ventanas tenemos una barra de opciones donde debe seleccionarse uno de los tres botones rectangulares que predefinen el modo de funcionamiento de la aplicación, según el grado de implicación del usuario, es decir, automático, manual y guiado. Tras la elección de cualquiera de ellos, aparecerán una serie de iconos y cuadros de selección desplegables para configurar todos los parámetros necesarios para obtener unos resultados acordes a nuestras necesidades. Por ejemplo, en el proceso manual, el usuario avanzado puede configurar todos los detalles relacionados con el proceso, desde el tipo de imagen a explorar hasta el idioma y el diccionario empleados para el reconocimiento del texto, para conseguir el mejor resultado posible cuando se trabaja sobre elaborados originales alejados del sencillo documento sobre fondo blanco y texto escasamente estructurado. En cambio, en el modo automático, el usuario sólo tiene que definir el origen del documento, el tipo de original, el formato de salida y el destino de los datos. Asimismo, si se opta por llevar a cabo un proceso totalmente guiado, el asistente, a través de una serie de ventanas de selección, irá solicitando los datos necesarios para predefinir el tipo de trabajo a realizar, obteniendo finalmente un resultado realmente ajustado a nuestras intenciones iniciales.
Cabe destacar que, trabajando bajo los modos automáticos, resulta elogiable la correcta capacidad de discernir la estructura de los documentos discriminando con gran acierto entre aquellas zonas de las que debe extraer texto o tratarlas directamente como gráficos. Igualmente, esta mejorada versión detecta acertadamente las áreas de texto con viñetas, tabuladores, tablas o columnas, tratándolas como corresponde y manteniendo en un alto grado el formato de cada elemento. Asimismo, también realiza una eficiente gestión de los gráficos, siempre que estos sean una parte anexa al texto y no como imagen de fondo del documento, en cuyo caso prevalece el área de texto descartando la imagen que hubiera debajo de ésta.
No hace falta añadir que, al igual que se trata de mantener el mayor grado de similitud en el formato y los gráficos del documento original, también resulta apropiado que los tipos y tamaños de letras del texto se correspondan en gran medida, y siempre que sea posible, con el original. Por lo cual, a diferencia de la identificación clásica de versiones anteriores, en la nueva técnica de reproducción de las fuentes se toma en consideración los parámetros métricos de las fuentes, así como también el aspecto de los caracteres y el espacio entre líneas. A pesar de todas estas posibilidades, siempre queda la opción de eliminar todo formato del documento original para extraer únicamente el texto tal cual.
En lo concerniente a la precisión de reconocimiento del texto, Omnipage Pro 10 presenta un nuevo motor OCR que combina las tecnologías propietarias de tres relevantes aplicaciones OCR: OmniPage Pro, WordScan Plus y Reconita Plus. La combinación de dichas técnicas supone un mayor acercamiento al nivel máximo de precisión y se ha dado a conocer con el sobrenombre de POWR++ (Predictive Optical Word Recognition). Esta novedosa tecnología integra una infraestructura matemática y estadística que investiga las diferentes combinaciones de caracteres posibles que conforma la palabra en cuestión.
La tecnología POWR++ permite reconocer, sin aprendizaje, caracteres estándar de 4 hasta 72 puntos de tamaño, en 13 idiomas diferentes (alemán, inglés, francés, español, e italiano, se encuentran entre los más significativos) con diccionarios completos para cada uno de estos idiomas e, incluso, identifica y reconoce varios idiomas en una misma página. Asimismo, integra una funci

Imprimir Subir

TE PUEDE INTERESAR...

Entrevistas

Veeam reconoce la labor de sus principales ‘partners’ en España

Fabricantes

Los ingresos por suscripción hacen crecer el negocio de ServiceNow

Fabricantes

Innovación para adaptarse a los cambios

Mayoristas

DMI Computer lanza Amara DMI Connected

Mayoristas

Sonia Marcos (EET España): “Queremos vender valor añadido, no ser muevecajas”

Fabricantes

Zyxel y Bitdefender emplazan al canal el 14 de mayo en Barcelona

Mayoristas

TD SYNNEX Datech amplía su catálogo de soluciones con Unity

Fabricantes

Veeam anuncia la adquisición de Coveware

Mercado en cifras

El canal norteamericano de TI ingresa menos en el primer trimestre del año

Fabricantes

Salesforce se retira de la compra de Informatica

Fabricantes

Francisco Machuca: “Netskope no quiere quitar negocio al ‘partner’, sino generarlo con él”

Mayoristas

Informática Megasur es nuevo mayorista oficial de Asustor NAS

Fabricantes

Cyberark provee de más negocio a sus MSP

Mayoristas

Globomatik organiza un curso para Certificación de MikroTik

SEGURIDAD

Aitana anuncia una alianza con Grupo Castilla

Mayoristas

Arrow pone a disposición de su canal Copilot para Microsoft 365

Modelo de trabajo híbrido: sí, pero...

16 ABR 2024

No deja de decirse que el modelo de trabajo híbrido ha venido para quedarse. Pero ¿es así? Lo analizamos este mes en el nuevo número de DealerWorld junto con otros contenidos de interés.

Revistas Digitales

Otros Contenidos

Registro:

Eventos:

Aplicaciones OCR: la realidad del mercado

TE PUEDE INTERESAR...

Modelo de trabajo híbrido: sí, pero...

Veeam reconoce la labor de sus principales ‘partners’ en España

Los ingresos por suscripción hacen crecer el negocio de ServiceNow

Innovación para adaptarse a los cambios

DMI Computer lanza Amara DMI Connected

Sonia Marcos (EET España): “Queremos vender valor añadido, no ser muevecajas”

IT ECONOMICS 2020.Tendencias económicas y presupuestarias de las áreas de IT en España (Executive Briefing)

¿Cómo reducir los costes de un centro de datos?

Objetivo: acelerar operaciones de TI y reducir costes con vSAN

¿Por qué elegir VMware vSAN?

Se avecinan cambios en la infraestructura hiperconvergente

Zyxel y Bitdefender emplazan al canal el 14 de mayo en Barcelona

TD SYNNEX Datech amplía su catálogo de soluciones con Unity

Veeam anuncia la adquisición de Coveware