viernes, agosto 17, 2007

Cómo escanear Texto (OCR)

Siguiendo con el trabajo del PDF con campos rellenables me encontré con muchas fotocopias que debía transcribir, entonces me acorde que en Windows hay un software para escánear texto, entonces me puse a la tarea de encontrarlo pero para linux y lo encontré.

En este link en francés http://doc.ubuntu-fr.org/ocr#abby_finereader_6.0_ocr explica los software de escáner, pero se debe instalar por medio del Synaptic el gocr así:

Sistemas-Administración-Gestión de paquetes synaptic y selecciona "gocr"

Luego de continuar debe encender la impresora.

luego abre Xsane (Aplicaciones-Gráficos-Escáner de imagen Xsane), vaya a las "Preferencias-Configuración" haga clic en la pestaña "OCR" y reemplace gocr por

gocr -f UTF8 y Acepta.

Luego en las "Opciones de Xsane" en el primer Cajón desplegable seleccione

Guardar imagen o Ctrol+s (presione y mantenga el botón control y luego presione la tecla "S").

En el cajón desplegable "Tipo" seleccione "TEXT"

En el cajón desplegable debajo de "Tipo" seleccione "Gris"

La resolución recomendada es 300 o superior, por lo general esta en 100 entonces hay que cambiarla.

Ahora debemos hacer clic en el botón "Adquirir vista previa" el cual se encuentra en la ventana de "Vista Previa" (si no esta abierta hagan clic en Ventana o Ctrl+1) y hay seleccionamos el texto que queremos escanear y por último clicleamos "Escanear".

Recomiendo que seleccionen tres partes de texto de una hoja tamaño carta, ya que estuve probando escanear toda una página y se bloqueo el Xsane.

En este sitio también explican otros programas de Scánear, pero no los he probado.


Tomado de:

ocr#abby finereader_6.0 ocr

5 comentarios:

Iván dijo...

Hola.
¿Podrias decir para que sirve, lo que añades despues de gocr?
Es que, a mi parecer, creo que es una instruccion para que solo detecte el español.
Pero por otra parte, creo que no es para eso, ya que segun leo aqui: http://www2.udec.cl/~jonatanfierro/INF/PSI/PSI-TIC2-G5/PSI-TIC2-G5.pdf
no soporta el español...
Podrias esplicar otro tipo de programa, como por ejemplo el Ocrad, que parece tener buena pinta.
Se que es pedir mucho, pero al menos respondeme a la primera pregunta.

Un saludo, y gracias.

RCBonil dijo...

Hola Ivan, le cuento que -f UTF8 se utiliza para que el gocr reconozca caracteres con acentos.

La verdad es que yo solamente lo escanie unas cuantas veces, funcionando muy bien, y no más, pero sería muy bueno tener otra referencia si tu pruebas el GNU Ocrad y públicas aquí tus experiencias.

Info: Ocrad - El OCR de GNU

Puedes instalarlo desde sinaptic o desde el terminar:

sudo apt-get install ocrad

Ensaya y cuentame.

Gracias de nuevo por tus preguntas.

Mingo dijo...

Me parece interesante tu comentario, en mi caso yo he probado Tesseract (motor OCR), ya que soy marino mercante y tengo muchos convenios impresos que vale la pena convertir en texto.

He leido que ese motor OCR que ahora le pertenece a Google, es muy eficiente, y luego de probarlo deseche el Gocr.

Instale Gscan2pdf (de los repositorios de google), y luego instale el Tesseract con su diccionario para español y el de ingles.

Los resultados son muy satisfactorios, te recomiendo probarlo, hay tambien un script que le permite a Xsane usar tesseract, pero yo desintale Xsane.

RCBonil dijo...

Gracias mingo por tu dato, voy a probarlo y luego le cuento como me fue. Estuve investigando un poquito en Google y descubrí varias páginas tanto de información como de instalación del software, ya que todo se encuentra en los repositorios y simplemente debe seleccionar para hacer la instalación.

Aquí dejo unos links:

Website de tesseract-ocr (Ingles)

Documentación de Ubuntu de tesseract-ocr en francés

Wikipedia (Ingles)

Iván dijo...

Hola a todos.
Yo solamente puedo verificar por ahora su funcionamiento de Tesseract mediante la consola.
No he podido hacer funcionarlo con ninguna aplicación gráfica, me refiero a xsane y Gscan2pdf. (y eso que lo intente concienzudamente)

Lo puede hacer funcionar en la consola instalando lo siguiente.
sudo apt-get install gscan2pdf tesseract-ocr-spa

(en realidad no se si es necesario instalar Gscan2pdf, pero como instalaba algunas dependencias, creo que será necesario)

Y luego con este comando:
tesseract nombreimagen nombreexportado -l extensiondelalengua

por ejemplo:
tesseract image.tiff texto1 -l spa

A mi con un texto sencillo, fue capaz de reconocermelo sin ningún error, aunque en un renglón me añadio: (

Espero que os sirva. Un saludo.