<?xml version="1.0" encoding="UTF-8"?>
<item xmlns="http://omeka.org/schemas/omeka-xml/v5" itemId="4072" public="1" featured="0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://omeka.org/schemas/omeka-xml/v5 http://omeka.org/schemas/omeka-xml/v5/omeka-xml-5-0.xsd" uri="http://repositorio.febab.libertar.org/items/show/4072?output=omeka-xml" accessDate="2026-06-04T18:32:22-07:00">
  <fileContainer>
    <file fileId="3141">
      <src>http://repositorio.febab.libertar.org/files/original/29/4072/SNBU2002_064.pdf</src>
      <authentication>d289adc02afcdfe871d0785b20c520d1</authentication>
      <elementSetContainer>
        <elementSet elementSetId="4">
          <name>PDF Text</name>
          <description/>
          <elementContainer>
            <element elementId="92">
              <name>Text</name>
              <description/>
              <elementTextContainer>
                <elementText elementTextId="46137">
                  <text>E-THESES DO CID: RESULTADOS DA NOVA METODOLOGIA DE
CRIAÇÃO DE TESES ELETRÔNICAS
Jayme Leiro Vilan Filho
Professor Assistente do Departamento de
Ciência da Informação e Documentação (CID)
da Universidade de Brasília (UnB)
Campus Darcy Ribeiro – Asa Norte
Brasília – DF – Brasil Cx Postal 04561
CEP 70919-970
jleiro@unb.br

RESUMO:
Iniciado em 1999 o Projeto Teses do CID tem como objetivos preservar a memória técnica e
aumentar o acesso à produção científica do CID/UnB, mais especificamente em relação às
teses de doutorado e dissertações de mestrado produzidas pelo CID desde 1980. Um acervo
eletrônico (e-theses) em hipertexto no formato PDF foi criado a partir de 2001 por meio de
uma metodologia que está em constante evolução. São abordados aspectos relacionados com
a criação de acervos eletrônicos de teses e dissertações (“e-theses”), incluindo estruturas de
“links” e metodologias desenvolvidas com ferramentas do mercado. O acervo está sendo
criado por alunos de biblioteconomia com conhecimentos básicos de informática em um
ambiente acadêmico. São mostrados os primeiros resultados do uso da nova metodologia de
criação de e-these do CID. Dificuldades operacionais são relatadas, bem como novas metas
para a próxima fase do projeto. Conclui que um documento com média de 116 páginas
(média de 6,5 páginas com figuras coloridas) é transformado em uma e-these em
aproximadamente 6 horas de trabalho, incluindo cerca de 40 minutos para montagem dos
cerca de 100 “links”, e resultando em um arquivo no formato PDF texto com tamanho médio
de 5,39 MB. O número de páginas coloridas tem influência direta no tamanho dos arquivos.
PALAVRAS-CHAVE: autoria de hipertexto; e-these; CID/UnB; documento eletrônico;
digitalização

1 INTRODUÇÃO
O Departamento de Ciência da Informação e Documentação (CID) da Universidade de
Brasília (UnB) mantém atualmente dois cursos de pós-graduação em ciência da informação
nos níveis de mestrado e de doutorado. De 1980 a maio de 2002, foram aprovados 161
trabalhos entre teses de doutorado e dissertações de me strado. Tais trabalhos constituem
um acervo localizado no próprio CID, cujo acesso é bastante limitado, além das cópias
existentes na biblioteca central da UnB e em outras instituições como a biblioteca do
IBICT.
A tese e a dissertação são documentos com características específicas que dificultam a sua
preservação e sua disseminação como: o pequeno número de exemplares em locais
públicos, a baixa qualidade editorial, a deterioração causada por manipulação durante o
processo de reprografia e, apenas um pequeno número de títulos são publicados
amplamente.

1

�Uma das alternativas para a preservação e disseminação de informações bibliográficas é a
publicação eletrônica em diversos suportes como disquete, CD-ROM e Internet, que tem
como principais vantagens1:
a) redução de custos;
b) maior capacidade de disseminação da informação e;
c) maior eficiência na administração de coleções na forma de banco de dados.
O termo e-theses é amplamente utilizado atualmente para designar as teses e dissertações
eletrônicas e, dentre as razões e vantagens de sua elaboração temos2:
a) maior liberdade dos autores demonstrar os resultados de sua pesquisa;
b) maior flexibilidade na apresentação de teses;
c) inclusão de links ativos para outras pesquisas e fontes eletrônicas;
d) inclusão de ilustrações com som e/ou movimentos etc;
e) maior canal de feedback;
f) melhor armazenagem da biblioteca digital;
g) melhor acesso público à pesquisa corrente;
h) disponibilidade do documento a qualquer momento e;
i) menos cópias físicas para tratamento, não sendo necessário o pessoal (re)colocar
material.
Nos últimos cinco anos nota-se um grande crescimento do número de iniciativas
institucionais voltadas para a pesquisa, produção e disseminação de e-theses em várias
instituições nacionais, como a PUC-RS3 e a Biblioteca Digital de Teses e Dissertações –
BDTD do IBICT4, e internacionais como a Virginia Tech Graduate School5 , Université de
Lyon 2 6 e Networked Digital Library of Theses and Dissertations (NDLTD)7.

2

�O Projeto Teses em Dissertações do CID tem como objetivos a preservação da memória do
CID e o aumento do acesso à sua produção científica, especificamente teses e dissertações.
Iniciado em 1999, o projeto produziu catálogos bibliográficos automatizados em bancos de
dados 8 9 10 11 e em hipertexto12 e, a partir de 2001, iniciou a digitalização de documentos
visando a formação de um acervo de e-theses 13 14.
Existe um catálogo automatizado disponível nos equipamentos dos laboratórios e salas de
professores do CID para facilitar a identificação de referências das teses e possibilitar a sua
localização física15.
2 O ACERVO ELETRÔNICO DO CID
No primeiro semestre de 2001 foram digitalizados ou convertidos os primeiros 16
documentos em formato PDF, em uma estrutura hipertextual simples16. Entretanto, foram
observados os seguintes problemas:
a) os documentos digitalizados a partir dos originais impressos eram cerca de catorze
vezes maiores que os documentos convertidos de arquivos de editores de texto;
b) em alguns dos documentos convertidos, a versão eletrônica produzida não era
idêntica à versão impressa, na maioria dos casos por problemas de formatação e;
c) o processo de digitalização mostrou-se muito lento tanto por inadequação de
equipamentos quanto de softwares.
A partir do segundo semestre de 2001, em colaboração Instituto Brasileiro de Informação
em Ciência e Tecnologia (IBICT) iniciamos vários esforços para obter equipamentos mais
modernos17 e sistemas de tratamento de imagens e de OCR mais adequados, visando obter
uma nova metodologia de digitalização e autoria de e-theses que proporcione documentos
em PDF fiéis ao original impresso.
Nessa segunda fase, foi considerada prioritária, além da obtenção da nova metodologia, a
padronização do acervo em arquivos únicos no formato PDF texto que permite buscas por
palavras. Foram convertidos nove documentos que estavam em PDF imagem, e foram
acrescentados três novos documentos que somando-se aos sete documentos existentes
totalizam 19 documentos eletrônicos em PDF texto.

3

�A nova metodologia está representada na Figura 1, que mostra a entrada de dois tipos de
documentos: a) os originais impressos por meio de digitalização ou, b) os arquivos
eletrônicos de editores de texto ou PDF imagem fornecidos por autores e convertidos para
um formato específico de editoração.
Na etapa de Editoração é feita a limpeza e correção da imagem de cada página, enquanto a
etapa de OCR transforma as imagens em texto. A última etapa da metodologia, chamada
de Autoria, prevê a montagem dos links de hipertexto que possibilitarão a navegação no
documento eletrônico. Os demais processos representam as tarefas necessárias para a
integração do documento eletrônico ao catálogo bibliográfico em banco de dados e para a
leitura, ou navegação, do documento eletrônico pelo usuário final.

Figura 1 – Visão geral da metodologia de criação de e-theses.

Cada documento eletrônico está estruturado, conforme descrito na Figura 2, com links de
contexto, como no sumário e nas listas de figuras e quadros, e links fora de contexto, em
uma estrutura chamada de marcadores (bookmarks), que reproduz a sequência de partes da
obra.

4

�Figura 2 – Estrutura de links de uma e-these
Na Figura 3 podemos ver a exibição de um documento eletrônico na tela de computador,
(no lado direito) com seus respectivos marcadores (no lado esquerdo da tela). Assim, o
leitor poderá chegar a um determinado capítulo ou anexo, tanto a partir do sumário como a
partir dos marcadores.

5

�Figura 3 – Exibição da estrutura e da folha de rosto de uma e-these
A estrutura dos marcadores (bookmarks) inclui links para todas as partes da obra, incluindo
folha de rosto, ata, resumo, abstract, lista de figuras, lista de quadros, sumário,
agradecimentos, capítulos e anexos. Tanto os capítulos quanto os anexos incluem entradas
hierarquizadas para cada seção e subseção. Desta forma, o usuário tem a esquerda da tela
toda a estrutura detalhada da obra, podendo acessar cada parte com apenas um toque no
mouse.
A maior parte do projeto é executada por meio de trabalhos finais de conclusão de curso de
bacharéis em biblioteconomia. Além dos trabalhos de conclusão de curso, alguns alunos
trabalham voluntariamente em atividades específicas. Existe ainda um projeto PIBIC18
relacionado com as teses do CID.

6

�3 OS RESULTADOS DA NOVA METODOLOGIA
Os resultados obtidos com a utilização da nova metodologia para a criação dos nove
documentos convertidos e para os três documentos digitalizados são descritos na Tabela 1.

Tempo médio de criação em horas

Convertidas (9)
6,22

Digitalizadas (3)
6,04

114,5
99,33
5,33 M B

121
111,3
5,57 MB

Número médio de páginas
Número médio de links
Tamanho do arquivo

Tabela 1 – Resultados da nova metodologia em cada conjunto processado
Infelizmente o número de documentos digitalizados (3) não é suficiente para conclusões,
mas é surpreendente que o tempo médio de digitalização (6,04 horas) tenha sido menor do
que a média da conversão dos documentos (6,22 horas), o que indica que nem sempre a
conversão de um documento eletrônico é mais rápida do que a sua redigitalização.
Na Tabela 2 vemos os resultados considerando o conjunto de 12 documentos processados.
Número médio de páginas
Número médio de páginas coloridas
Número médio de links
Tempo médio para montagem dos links
Tamanho médio dos arquivos sem páginas
coloridas
Tamanho médio dos arquivos com páginas
coloridas
Tamanho médio dos arquivos

116,6
6,5
102,33
40,41 min.
2,67 MB
8,11 MB
5,39 MB

Tabela 2 – Resultados geral da nova metodologia
Pode-se observar a grande diferença de tamanho entre os documentos que possuem e os
que não possuem páginas coloridas.
Em relação à metodologia anterior as vantagens foram:
•

podem ser feitas pesquisas por palavras em todos os documentos;

•

cada documento ocupa apenas um arquivo contra quatro na metodologia anterior;

•

tamanho médio dos arquivos de cada documento é 4,32 vezes menor.

7

�4 CONCLUSÃO
Apesar das dificuldades técnicas iniciais, os alunos de biblioteconomia envolvidos com a
metodologia conseguiram dominar as técnicas de digitalização, de OCR e de autoria de
hiperdocumentos com conhecimentos básicos de informática. Isso comprova não só a
possibilidade de que um bibliotecário inexperiente devidamente treinado produza um
acervo digital com ferramentas de fácil acesso, como revela a sua capacidade de ocupar um
mercado profissional emergente.
A conversão direta dos arquivos fornecidos pelo autores para PDF texto apresenta muitos
problemas em decorrência de:
a) alguns trabalhos serem editados manualmente;
b) a conversão automática dificilmente reproduz as mesmas características da mancha
gráfica original, como as margens e o número de linhas por página;
c) autor faz correções no arquivo eletrônico depois da entrega dos originais.
Foi obtida uma nova metodologia de criação de e-theses de simples operação para alunos
de biblioteconomia usuários de computadores. Esperamos a médio prazo obter recursos
para a montagem de uma laboratório de digitalização de documentos que permita:
a) a digitalização de todo o acervo de teses e dissertações produzidas pelo CID;
b) criar um pacote metodológico de e-theses que possa ser repassado a outras
instituições;
c) aperfeiçoar a estrutura de links das e-theses permitindo mais possibilidades de
navegação;
d) avançar nos estudos de indexação e controle terminológico dos catálogos de teses
visando possibilitar consultas com mais recursos;
e) disseminar os catálogos e o acervo de e-theses para todas as instituições da área de
Ciência da Informação;

8

�f) obter um padrão editorial em formato eletrônico que permita a rápida integração de
novas teses e dissertações ao acervo eletrônico;
g) incluir outros tipos de documentos ao acervo eletrônico, como periódicos e
monografias de graduação produzidos pelo CID.
O tamanho médio dos arquivos de e-theses (5,39MB) possibilita a sua disseminação pela
Internet de maneira mais adequada do que com arquivos da metodologia anterior
(24,09MB). A grande quantidade de links facilita a navegação no documento tanto pelos
links de contexto, incluídos no próprio texto quanto pelos links da estrutura auxiliar de
marcadores (bookmarks), tais links dão uma visão geral do documento permitindo
deslocamentos mais rápidos entre as partes da obra. A possibilidade de localização de
palavras permite a pesquisa direta no texto.
Para efeito de subsidiar projetos e estudos de criação de e-theses podemos considerar que
um documento com média de 116 páginas é transformado em uma e-these, usando-se a
nova metodologia do CID, em aproximadamente 6 horas de trabalho incluindo cerca de 40
minutos para montagem dos cerca de 100 links, e resultando em um arquivo no formato
PDF texto com tamanho médio de 5,39 MB.
Na terceira etapa da digitalização do acervo, que se realizará de junho a setembro de 2002,
pretende-se dar mais ênfase ao aumento do número de e-theses, de 19 para 50 documentos,
e ao maior controle da qualidade, além de identificar pontos críticos da nova metodologia.
O controle do acervo de teses e dissertações do CID/UnB por meio de catálogos
automatizados e e-theses permitirá não só a preservação da memória e a disseminação fácil
e ampla das informações contidas nos documentos, mas também proporcionará condições
de serem realizados trabalhos mais avançados de indexação automática, bibliometria e
metodologia científica.

9

�5
1

REFERÊNCIAS BIBLIOGRÁFICAS E NOTAS
PACKER, Abel L. Publicações eletrônicas, controle bibliográfico e recuperação de informação: um
enfoque integrado. In: CONGRESSO REGIONAL DE INFORMAÇÃO EM CIÊNCIAS DA SAÚDE, 3,
1996, Rio de janeiro. Anais... Disponível: http://www.bireme.br/cgi-bin/crics3/text0?id=crics3-mr1.2mr1.2.2-04 [capturado em 10 out. 2000].

2

MCMILLAN, Gail. Electronic theses and dissertations : merging perspectives. Cataloging and
classification quarterly, v. 22, n° 3/4, p. 105-125, 1996.

3

RAABE, André, POHLMANN FILHO, Omer. Estudo comparativo entre sistemáticas de digitalização de
documentos : formatos HTML e PDF. Ciência da Informação., Brasília, v. 27, n. 3, p. 300-310, set./dez.
1998.

4

Acessível através do URL www.ibict.br

5

MCMILLAN, op. cit.

6

BOULÈTREAU, Viviane, GAUVIN, Jean-François, DUCASSE, Jean-Paul. La publication électronique à
destination de la francophonie. Documentalis: Sciences de l´information, v. 36, nº 6, 1999.

7

Acessível através do URL www.theses.org

8

COLOMBELLI, C.M. Sistema de controle bibliográfico do acervo deteses de doutorado e dissertações
de mestrado produzidas no CID . 1999. Monografia (Bacharelado em Biblioteconomia) – Departamento
de Ciência da Informação e Documentação, Universidade de Brasília, Brasília.

9

MEDEIROS, R.U.F. de. Indexação e resumo dos documentos do acervo de tese do CID. 2000.
Monografia (Bacharelado em Biblioteconomia) – Departamento de Ciência da Informação e
Documentação, Universidade de Brasília, Brasília

10

OLIVEIRA, P. H. N. de. Inclusão de resumos na base de tese do CID . 2000. Monografia (Bacharelado
em Biblioteconomia) – Departamento de Ciência da Informação e Documentação, Universidade de
Brasília, Brasília.

11

MELO, R.de O. Criação de um aplicativo de teses do CID no Winisis. 2001. Monografia (Bacharelado
em Biblioteconomia) – Departamento de Ciência da Informação e Documentação, Universidade de
Brasília, Brasília.

12

ZIMBA, H. Implementação do hipercatálogo de tese do CID. 2000. Monografia (Bacharelado em
Biblioteconomia) – Departamento de Ciência da Informação e Documentação, Universidade de Brasília,
Brasília.

13

RODRIGUES, A.M. Acervo eletrônico de tese do CID . 2001. Monografia (Bacharelado em
Biblioteconomia) – Departamento de Ciência da Informação e Documentação, Universidade de Brasília,
Brasília.

10

�14

ARISAWA, Elisângela Dourado. Digitalização de tese do CID : uma nova metodologia. 2002. Monografia
(Bacharelado em Biblioteconomia) – Departamento de Ciência da Informação e Documentação,
Universidade de Brasília, Brasília .

15

VILAN FILHO, Jayme Leiro. E-theses do CID. In: Congresso Brasileiro de Biblioteconomia
Documentação e Ciência da Informação, 20, 2002, Fortaleza. Anais...

16

RODRIGUES, op. cit.

17

Estão sendo usados os seguintes recursos: um computador IBM Personal Computer 300GL Pentium II de
500 Mhz, 128 MB RAM, HD com 10 GB, sistema operacional Windows 98, monitor de 15” e scanner
TCE S540.

18

DA SILVA, S.D. Indexação e controle terminológico das dissertações e teses do programa de pósgraduação em ciência da informação do CID . – Departamento de Ciência da Informação e
Documentação, Universidade de Brasília, Brasília. Projeto de pesquisa PIBIC sob orientação da Prof.
Dout. Haruka Nakayama (UnB/CID).

11

�</text>
                </elementText>
              </elementTextContainer>
            </element>
          </elementContainer>
        </elementSet>
      </elementSetContainer>
    </file>
  </fileContainer>
  <collection collectionId="29">
    <elementSetContainer>
      <elementSet elementSetId="1">
        <name>Dublin Core</name>
        <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
        <elementContainer>
          <element elementId="50">
            <name>Title</name>
            <description>A name given to the resource</description>
            <elementTextContainer>
              <elementText elementTextId="42108">
                <text>SNBU - Edição: 12 - Ano: 2002 (UFPE - Recife/PE)</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="49">
            <name>Subject</name>
            <description>The topic of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="42109">
                <text>Biblioteconomia&#13;
Documentação&#13;
Ciência da Informação&#13;
Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="41">
            <name>Description</name>
            <description>An account of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="42110">
                <text>Tema: Bibliotecas universitárias: espaços de (r) evolução do conhecimento e da informação.</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="39">
            <name>Creator</name>
            <description>An entity primarily responsible for making the resource</description>
            <elementTextContainer>
              <elementText elementTextId="42111">
                <text>SNBU - Seminário Nacional de Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="45">
            <name>Publisher</name>
            <description>An entity responsible for making the resource available</description>
            <elementTextContainer>
              <elementText elementTextId="42112">
                <text>UFPE&#13;
</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="40">
            <name>Date</name>
            <description>A point or period of time associated with an event in the lifecycle of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="42113">
                <text>2002</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="44">
            <name>Language</name>
            <description>A language of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="42114">
                <text>Português</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="51">
            <name>Type</name>
            <description>The nature or genre of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="42115">
                <text>Evento</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="38">
            <name>Coverage</name>
            <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
            <elementTextContainer>
              <elementText elementTextId="42116">
                <text>Recife (Pernambuco)</text>
              </elementText>
            </elementTextContainer>
          </element>
        </elementContainer>
      </elementSet>
    </elementSetContainer>
  </collection>
  <itemType itemTypeId="8">
    <name>Event</name>
    <description>A non-persistent, time-based occurrence. Metadata for an event provides descriptive information that is the basis for discovery of the purpose, location, duration, and responsible agents associated with an event. Examples include an exhibition, webcast, conference, workshop, open day, performance, battle, trial, wedding, tea party, conflagration.</description>
  </itemType>
  <elementSetContainer>
    <elementSet elementSetId="1">
      <name>Dublin Core</name>
      <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
      <elementContainer>
        <element elementId="50">
          <name>Title</name>
          <description>A name given to the resource</description>
          <elementTextContainer>
            <elementText elementTextId="46129">
              <text>E-THESES do CID: resultados da nova metodologia de criação de teses eletrônicas.</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="39">
          <name>Creator</name>
          <description>An entity primarily responsible for making the resource</description>
          <elementTextContainer>
            <elementText elementTextId="46130">
              <text>Vilan Filho, Jayme Leiro</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="38">
          <name>Coverage</name>
          <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
          <elementTextContainer>
            <elementText elementTextId="46131">
              <text>Recife (Pernambuco)</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="45">
          <name>Publisher</name>
          <description>An entity responsible for making the resource available</description>
          <elementTextContainer>
            <elementText elementTextId="46132">
              <text>UFPE</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="40">
          <name>Date</name>
          <description>A point or period of time associated with an event in the lifecycle of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="46133">
              <text>2002</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="51">
          <name>Type</name>
          <description>The nature or genre of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="46135">
              <text>Evento</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="41">
          <name>Description</name>
          <description>An account of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="46136">
              <text>Aborda aspectos relacionados com a criação de acervos eletrônicos de teses e dissertações (“e-theses”), incluindo estruturas de “links” e metodologias desenvolvidas com ferramentas do mercado.</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="44">
          <name>Language</name>
          <description>A language of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="67599">
              <text>pt</text>
            </elementText>
          </elementTextContainer>
        </element>
      </elementContainer>
    </elementSet>
  </elementSetContainer>
  <tagContainer>
    <tag tagId="16">
      <name>snbu2002</name>
    </tag>
  </tagContainer>
</item>
