Como instalar o Tesseract OCR no Ubuntu, Mint, Debian e derivados

Se você precisa usar o recurso de reconhecimento de caracteres, conheça e veja como instalar o Tesseract OCR no Ubuntu, Mint, Debian e derivados.

Tesseract é um mecanismo de OCR de código aberto mais preciso que lê uma ampla variedade de formatos de imagem e os converte em texto em mais de 40 idiomas.

Como instalar o Tesseract OCR no Ubuntu, Mint, Debian e derivados
Como instalar o Tesseract OCR no Ubuntu, Mint, Debian e derivados

O Tesseract 5.0.0 foi lançado oficialmente há alguns dias e apresenta: Treinamento mais rápido e desempenho de OCR com menos uso de memória por meio de ‘inchaços rápidos’, suporte para macOS e Apple Silicon mais recentes, melhor suporte para ARM/ARM64, melhorias de API e muito mais.

E, abaixo, este tutorial simples mostra como instalar o mecanismo Tesseract OCR mais recente em todas as versões atuais do Ubuntu via PPA.

Como instalar o Tesseract OCR no Ubuntu e seus derivados

O mecanismo de reconhecimento óptico de caracteres está disponível nos repositórios do Ubuntu, embora sempre seja antigo.

Graças a Alexander Pozdnyakov, o mantenedor do Tesseract OCR no repositório oficial do Debian/Ubuntu, também mantém alguns PPAs com os pacotes mais recentes. E, a maioria das arquiteturas de CPU (amd64, i386, arm64/armhf, ppc64el, s390x) são suportadas.

Dito isso, para instalar o Tesseract OCR no Ubuntu e ainda poder receber automaticamente as futuras atualizações dele, você deve fazer o seguinte:

Passo 1. Abra um terminal (use as teclas CTRL + ALT + T);
Passo 2. Adicione o repositório do programa com um dos comandos abaixo;
Para a versão mais recente do Tesseract OCR 4 (v4.1.3 até agora), o PPA estável mantém os pacotes para Ubuntu 18.04, Ubuntu 20.04, Ubuntu 21.10 e Ubuntu antigo 16.04/14.04, use.

sudo add-apt-repository ppa:alex-p/tesseract-ocr

ou
A nova série de lançamento 5.x está disponível no Devel PPA para Ubuntu 18.04, Ubuntu 20.04 e Ubuntu 21.04. Ubuntu 21.10 de alguma forma não é suportado no momento. Pra essa versão, use.

sudo add-apt-repository ppa:alex-p/tesseract-ocr-devel

Para Debian Stretch, Buster, Bullseye e Sid, existem repositórios apt para Tesseract v4 e v5. Junto com o Ubuntu 21.10, os usuários podem seguir as instruções do link abaixo para adicionar o repositório:
Tesseract repository for Debian
Passo 3. Atualize o gerenciador de pacotes com o comando:

sudo apt update

Passo 4. Agora use o comando abaixo para instalar o programa;

sudo apt install tesseract-ocr

Pronto! Agora, você pode iniciar o programa no menu Aplicativos/Dash/Atividades ou qualquer outro lançador de aplicativos da sua distro, ou digite tesseract ou em um terminal, seguido da tecla TAB.

Desinstalando

Para desinstalar o Tesseract OCR no Ubuntu e derivados, faça o seguinte:

Passo 1. Abra um terminal;
Passo 2. Desinstale o programa, usando os comandos abaixo;

sudo add-apt-repository ppa:alex-p/tesseract-ocr -r -y
sudo apt remove tesseract-ocr --auto-remove
Sobre o Edivaldo Brito

Edivaldo Brito é analista de sistemas, gestor de TI, blogueiro e também um grande fã de sistemas operacionais, banco de dados, software livre, redes, programação, dispositivos móveis e tudo mais que envolve tecnologia.