Histórico

Aplicaciones OCR: la realidad del mercado

Con el paso de los años, las distintas aplicaciones de reconocimiento óptico de caracteres han ido superando obstáculos y limitaciones que restringían enormemente su campo de aplicación. Afortunadamente, las actuales soluciones enfocadas al mercado doméstico y semiprofesional ofrecen muchas más posibilidades y capacidades que sus antecesoras, además de un mayor grado de precisión en el reconocimiento. De este modo, su funcionalidad se amplía considerablemente al poder trabajar e interpretar adecuadamente documentos originales impresos en papel en los cuales haya textos a color, tablas, o incluso, imágenes.

Para la confección del presente artículo, el laboratorio de Dealer World ha querido analizar los tres productos OCR de propósito general que acaparan la práctica totalidad del mercado.

Caere OmniPage Pro 10
Sin duda alguna, el programa Omnipage Pro, en sus distintas y sucesivas versiones, es un producto que goza de una buena reputación, siendo referencia obligada desde hace años en este tipo de software. Además, los responsables de esta aplicación no han permanecido ajenos a la evolución vivida durante todos estos años dentro del mundo OCR, y como buena muestra de ello está su nutrido número de revisiones.
La última y reciente versión, número 10, de OmniPage Pro presenta, en líneas generales, un buen número de innovaciones y características que mejoran sustancialmente las prestaciones y capacidades de anteriores versiones, conformando un paquete mucho más preciso y fácil de manejar.
Para empezar, dispone de una completa y renovada interfaz de usuario que divide verticalmente la pantalla en tres áreas de trabajo, en las cuales se tienen vistas diferentes del documento capturado o archivo abierto. Empezando por la situada más a la izquierda, según miramos la pantalla, la primera ventana irá mostrando, en pequeñas imágenes en tamaño miniatura, las sucesivas páginas que se vayan capturando, permitiendo con ello una mejor gestión de los documentos de varias páginas. En la parte central, una segunda ventana contiene una vista de la imagen de la página explorada con la cual se está trabajando en ese momento, antes de que haya sido reconocida, permitiendo realizar una gran diversidad de manipulaciones para ajustar al detalle las diferentes zonas a reconocer y su correspondiente orden. Además, en el interior de esta ventana hay una larga barra de herramientas repleta de iconos con los que seleccionar manualmente las distintas opciones para configurar las diferentes áreas a reconocer, así como opciones de nivel zoom, rotación de la imagen y herramientas para trabajar con tablas y columnas. Por último, en el extremo de la derecha se encuentra el área que muestra una vista del documento una vez reconocido por el motor OCR, conocida como ventana de texto. En dicha ventana, el texto que aparece es totalmente modificable y, además, puede ser verificado fácilmente ya que se nos ofrece la posibilidad de mostrar una imagen bitmap del original. No obstante, esta configuración de ventanas puede variarse sustancialmente, según los particulares gustos de cada usuario. En este sentido, cada una de estas ventanas puede ocultarse permitiendo que el usuario de centre en una determinada fase del proceso e, incluso, las ventanas de imagen y texto pueden visualizarse simultáneamente tanto de forma vertical como horizontal para poder comparar mejor los resultados en relación con la imagen original. El control de estas posibilidades se ofrece en una serie de diminutos iconos situados en la parte inferior de la ventana junto a la barra que muestra la información contextual de cada elemento.
Por encima de estas tres ventanas tenemos una barra de opciones donde debe seleccionarse uno de los tres botones rectangulares que predefinen el modo de funcionamiento de la aplicación, según el grado de implicación del usuario, es decir, automático, manual y guiado. Tras la elección de cualquiera de ellos, aparecerán una serie de iconos y cuadros de selección desplegables para configurar todos los parámetros necesarios para obtener unos resultados acordes a nuestras necesidades. Por ejemplo, en el proceso manual, el usuario avanzado puede configurar todos los detalles relacionados con el proceso, desde el tipo de imagen a explorar hasta el idioma y el diccionario empleados para el reconocimiento del texto, para conseguir el mejor resultado posible cuando se trabaja sobre elaborados originales alejados del sencillo documento sobre fondo blanco y texto escasamente estructurado. En cambio, en el modo automático, el usuario sólo tiene que definir el origen del documento, el tipo de original, el formato de salida y el destino de los datos. Asimismo, si se opta por llevar a cabo un proceso totalmente guiado, el asistente, a través de una serie de ventanas de selección, irá solicitando los datos necesarios para predefinir el tipo de trabajo a realizar, obteniendo finalmente un resultado realmente ajustado a nuestras intenciones iniciales.
Cabe destacar que, trabajando bajo los modos automáticos, resulta elogiable la correcta capacidad de discernir la estructura de los documentos discriminando con gran acierto entre aquellas zonas de las que debe extraer texto o tratarlas directamente como gráficos. Igualmente, esta mejorada versión detecta acertadamente las áreas de texto con viñetas, tabuladores, tablas o columnas, tratándolas como corresponde y manteniendo en un alto grado el formato de cada elemento. Asimismo, también realiza una eficiente gestión de los gráficos, siempre que estos sean una parte anexa al texto y no como imagen de fondo del documento, en cuyo caso prevalece el área de texto descartando la imagen que hubiera debajo de ésta.
No hace falta añadir que, al igual que se trata de mantener el mayor grado de similitud en el formato y los gráficos del documento original, también resulta apropiado que los tipos y tamaños de letras del texto se correspondan en gran medida, y siempre que sea posible, con el original. Por lo cual, a diferencia de la identificación clásica de versiones anteriores, en la nueva técnica de reproducción de las fuentes se toma en consideración los parámetros métricos de las fuentes, así como también el aspecto de los caracteres y el espacio entre líneas. A pesar de todas estas posibilidades, siempre queda la opción de eliminar todo formato del documento original para extraer únicamente el texto tal cual.
En lo concerniente a la precisión de reconocimiento del texto, Omnipage Pro 10 presenta un nuevo motor OCR que combina las tecnologías propietarias de tres relevantes aplicaciones OCR: OmniPage Pro, WordScan Plus y Reconita Plus. La combinación de dichas técnicas supone un mayor acercamiento al nivel máximo de precisión y se ha dado a conocer con el sobrenombre de POWR++ (Predictive Optical Word Recognition). Esta novedosa tecnología integra una infraestructura matemática y estadística que investiga las diferentes combinaciones de caracteres posibles que conforma la palabra en cuestión.
La tecnología POWR++ permite reconocer, sin aprendizaje, caracteres estándar de 4 hasta 72 puntos de tamaño, en 13 idiomas diferentes (alemán, inglés, francés, español, e italiano, se encuentran entre los más significativos) con diccionarios completos para cada uno de estos idiomas e, incluso, identifica y reconoce varios idiomas en una misma página. Asimismo, integra una funci

Revista Digital

Revistas Digitales

DealerWorld Digital

 



Otros Contenidos

Registro:

Eventos: