Formato DjVu

Há algum tempo atrás, ouvi falar pela primeira vez no formato para representação digital de documentos  DjVu  (lê-se dejá Vu).  O formato foi desenvolvido originalmente pela AT&T Labs em 1996. Em 2000 a  LizardTech  adquiriu a tecnologia à AT&T e hoje em dia é comercializado pela LizardTech em parceria com a AT&T Labs.  O formato é aberto – licença GPL-  e as implementações mais conhecidas são open-source.

Descarreguei o software necessário para efectuar a leitura de documentos com este formato e fui experimentar.

Fiquei rendido ás suas vantagens no tratamento, armazenamento e visualização de documentos digitalizados a partir de scanner com ou sem OCR de texto. Este foi o objectivo principal para o qual foi desenhado. As taxas de compressão são claramente superiores aos outros formatos existentes no mercado.O que impressionou mais foi ver documentos digitalizados, com dezenas de páginas repletas de imagens e texto, aparecerem de uma forma quase instantânea -comparando com os formatos mais conhecidos, ex. PDF- no browser, com uma navegação super rápida e com possibilidade de pesquisarmos e seleccionarmos o texto.

Pelo que vi está a ser um formato muito usado para mostrar revistas as-is na internet. Vou ficar atento à sua evolução e difusão. Parece-me estar apenas à espera que, um grande player olhe para o formato, o suporte e divulge numa aplicação mainstream.

Na minha opinião existe ainda uma área onde esta tecnologia poderá ser aplicada com bastante sucesso. Hoje em dia existem empresas que possuem repositórios enormes com documentos no formato TIFF, resultado de alguns anos de digitalização. Diz-me a experiência que estes arquivos raramente são consultados por duas razões: 1ª Os documentos não são pesquisáveis pelo seu conteúdo textual; 2ª A maior parte dos leitores são lentos e tornam a leitura desses documentos um verdadeiro martírio, principalmente quando é pela Web. Assim, o que se passa na prática é que se os documentos não tiverem sido bem catalogados, nunca mais são encontrados – a não ser pelo seu ID ou número de processo- e serão apenas uns consumidores de espaço em disco, sem utilidade nenhuma. Com esta tecnologia será possível reconverter, com vantagens óbvias em vários aspectos, esta informação não pesquisável e morta em informação viva e com uma utilidade enorme para essas empresas.

Alguns links:
http://www.djvu.org

http://djvu.sourceforge.net/

http://en.wikipedia.org/wiki/DjVu#Comparison_of_the_DjVu_and_PDF_file_formats

http://www.computerworld.com.au/index.php/aid;11
 

Anúncios

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s

%d bloggers like this: