<?xml version="1.0" encoding="UTF-8"?>
<item xmlns="http://omeka.org/schemas/omeka-xml/v5" itemId="6836" public="1" featured="0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://omeka.org/schemas/omeka-xml/v5 http://omeka.org/schemas/omeka-xml/v5/omeka-xml-5-0.xsd" uri="http://repositorio.febab.libertar.org/items/show/6836?output=omeka-xml" accessDate="2026-04-04T11:53:34-07:00">
  <fileContainer>
    <file fileId="5898">
      <src>http://repositorio.febab.libertar.org/files/original/62/6836/SNBU2014_322.pdf</src>
      <authentication>3820841c34eb9add81b345bf50ab9d12</authentication>
      <elementSetContainer>
        <elementSet elementSetId="4">
          <name>PDF Text</name>
          <description/>
          <elementContainer>
            <element elementId="92">
              <name>Text</name>
              <description/>
              <elementTextContainer>
                <elementText elementTextId="76534">
                  <text>XVIII Seminário Nacional de Bibliotecas Universitárias
SNBU 2014

AUMENTANDO O ALCANCE E A VISIBILIDADE DE CATÁLOGOS ONLINE E
REPOSITÓRIOS INSTITUCIONAIS COM A AJUDA DO GOOGLE.
Giuliano Ferreira

RESUMO
Este trabalho propõe uma série de procedimentos para aumentar o alcance, a visibilidade e o
número de acessos de Catálogos Online, conhecidos como Online Public Access Catalogs
(OPACs), e Repositórios Institucionais, com a ajuda do sistema de buscas do Google. Analisa
as diversas abordagens dos mecanismos de buscas da Internet e os compara com sistemas de
pesquisas institucionais, particularmente de bibliotecas universitárias. Apresenta os objetivos
por trás do processo de otimização dos catálogos e repositórios. Descreve os procedimentos
utilizados no desenvolvimento e apresenta detalhes do sistema planejado para o
gerenciamento da mesma. Aponta as medidas adotadas para prover um melhor funcionamento
do sistema. Destaca as mudanças de comportamento dos pesquisadores atuais e propõe uma
nova abordagem para alcançar, monitorar e atender esses usuários. Analisa, então, os
resultados parciais alcançados durante o período do projeto piloto. Conclui, apontando os
aspectos vantajosos que devem ser considerados na implantação de um projeto dessa
natureza.
Palavras-Chave: OPAC; Catálogo online; Repositório Institucional; Biblioteca digital;
Indexação; Mecanismos de busca; Google; Programação; Web;
ABSTRACT
This paper proposes a series of procedures to increase the reach, visibility and the numbers of
access of Online Public Access Catalogs (OPACs) and Institutional Repositories with the help
of the Google search tool. It analyzes various approaches to Internet search engines and
compares them with institutional research systems, particularly university libraries. It presents
the objectives behind the optimization process of repositories and catalogs. It describes the
procedures used in the development and provides details of the planned features for managing
the same system. It identifies measures adopted to provide a better functioning system. It
highlights the changes in behavior of current researchers and proposes a new approach to
reach, monitor and serve these users. It then analyzes the partial results achieved during the
period of the pilot project. And it concludes, pointing out the beneficial aspects that should be
considered in the implementation of such a project.
Keywords : OPAC; Online catalog; Institutional repository; Digital library; Indexing; Search
engines; Google; Programming; Web;

4053

�1 Introdução
Novos desafios se colocam diariamente em todos os setores da sociedade, em virtude
das grandes transformações resultantes da evolução das tecnologias da informação. As
bibliotecas universitárias, neste contexto, não são exceção.
Existe hoje um grande esforço sendo feito nestas instituições com o intuito de atender
à sua comunidade e prover acesso aos seus documentos, estejam eles fisicamente localizados
nas dependências da biblioteca, armazenados digitalmente em seus servidores, ou na nuvem,
através das assinaturas das bases de dados e demais links catalogados no sistema.
O grupo de consumidores destas informações deixa de ser formado apenas pelos
usuários membros da comunidade local da instituição e passa a ser composto por todas as
camadas da sociedade. Existe uma demanda crescente por serviços de recuperação de
informações.
Porém, no ponto de vista deste usuário consumidor da informação, também existe um
desafio, que é justamente saber onde buscar essas informações. Como cada instituição
desenvolve sua própria solução de recuperação de informações, com diferentes níveis de
profundidade e eficiência, que são influenciados por diversos fatores, entre os quais, apoio
institucional, investimento financeiro, acesso às tecnologias atuais, capacitação da equipe,
parcerias e outros facilitadores, nem sempre este usuário encontrará o que precisa em uma
única ferramenta de busca. Essa diversidade de soluções, em vez de facilitar, acaba por
dificultar a pesquisa do usuário, que ou fica limitado pelo alcance da ferramenta de busca de
sua instituição, ou fica perdido diante de tantas outras ferramentas que estão espalhadas pela
Internet.
Como mencionado por Karen G. Schneider (2006), em seu artigo “How OPACs Suck’,
as ferramentas de buscas oferecidas pelos catálogos tradicionais sofrem com uma série de
deficiências quando comparadas com um sistema de buscas potente, como o Google. Estas
deficiências vão desde a ausência de um bom ranking de relevância com uma ordenação de
resultados decentes, a falta de uma recuperação por termos correlacionados, a inexistência de
correções ortográficas, de um pobre refinamento de buscas, até a necessidade de repetir a
busca diversas vezes em outras bases de dados, entre outros fatores limitadores.
O que acaba se percebendo é que este usuário passa a optar por iniciar a sua pesquisa
em um motor de busca global, como o Google, visto que o mesmo passa uma impressão de

4054

�estar buscando em todos os lugares de uma vez só, deixando as ferramentas de buscas
institucionais que ele conhece para um momento posterior, ou apenas para refinar suas
pesquisas.
Esta nova realidade pode ser vista como uma ameaça, porém simultaneamente como
uma oportunidade que as bibliotecas não podem desperdiçar. Ou seja, isto significa que para
atender este usuário e fornecer as informações que ele precisa é necessário também capturá-lo
no momento em que está realizando suas pesquisas em buscadores, como o Google, e entregar
para ele o seu conteúdo.
Como dizia o autor John Martin, desde 1939: “Se não pode vencê-los, junte-se a eles”.
Portanto, ciente de que seu usuário pode estar em qualquer localização, de que o mesmo está
limitado à capacidade de recuperação do sistema institucional, perdido diante da diversidade
de ferramentas, e que devido a todos estes fatores ele acaba iniciando suas pesquisas no
Google, é de fundamental importância que todo o conteúdo dos OPACS e repositórios
institucionais estejam indexados no motor de buscas do Google, para que possam ser
recuperados e os usuários sejam, então, direcionados para o site da instituição, com o intuito
de acessar estes documentos seja fisicamente ou através de download.
Neste momento, encontramos outro desafio, que felizmente pode ser convertido em
oportunidade através da série de procedimentos proposta neste trabalho. A principal
dificuldade encontrada nesta etapa é que buscadores, como o Google, utilizam bots (robôs de
busca automatizados), que são responsáveis por indexar todo conteúdo que esteja disponível
na Internet e que esteja acessível para os bots. E é neste ponto que a maioria das instituições
esbarra com algumas limitações. Para que o conteúdo seja indexado pelo Google, ele precisa
estar localizado em uma parte do seu servidor que não esteja protegida de acesso externo
pelos bots e, normalmente, precisa estar contido em documentos estáticos, ou seja, em
arquivos, na sua maioria em formato texto, gravados no disco rígido dos servidores.
No entanto, na maioria dos sistemas de bibliotecas universitárias, os metadados das
obras estão gravados em um Sistema Gerenciador de Banco de Dados (protegido e privado),
armazenados em tabelas e acessados somente pelos sistemas das instituições através de um
script (código de programação), que lê a informação do Banco de Dados e exibe para o
usuário em uma página web, que está sendo gerada dinamicamente no momento em que ele
faz uma pesquisa e clica no link da obra.
O problema é que, por padrão, o conteúdo que é mostrado para o usuário nestas
páginas dinâmicas não é indexado pelo Google, exatamente pelo fato dos metadados estarem
gravados no Banco de Dados e não em arquivos no formato texto no servidor, ficando

4055

�invisíveis para o motor de buscas e, consequentemente, não sendo recuperados pelo usuário
através do buscador.
O objetivo da técnica proposta neste trabalho é exatamente disponibilizar para o
Google todas as informações sobre as obras do catálogo, permitindo que sejam indexados
pelos bots e posteriormente recuperados pelo usuário quando ele estiver realizando sua
pesquisa inicial no motor de buscas global, capturando, assim, este usuário e provendo acesso
a todo o conteúdo de sua instituição.
Ao trazer usuários que vêm diretamente dos mecanismos de buscas tradicionais para
os seus catálogos e repositórios, pôde-se observar durante o período do projeto piloto um
aumento considerável no número de acessos. Observou-se também um aumento significativo
na qualidade das informações sobre esse visitante. Antes da customização, a informação,
quando existia, era meramente quantitativa e indicava somente o número de pessoas que
teriam acessado um determinado arquivo, por exemplo. Após a customização, todos os
acessos são monitorados por uma ferramenta de análise chamada Google Analytics, que, além
da quantidade de acessos, fornece uma série de outras informações sobre o usuário visitante,
como: de onde ele veio; quais termos de busca foram digitados; qual dispositivo e sistema
operacional utilizou. Com isto está sendo possível traçar um perfil bem mais detalhado deste
usuário, permitindo assim que sejam desenvolvidos melhores serviços para lhe atender.
Após o período de implantação do projeto piloto, que contou com apenas algumas
customizações, concluiu-se que todo esforço e investimento dedicado a aperfeiçoar a
indexação dos catálogos online e dos repositórios acadêmicos, através das ferramentas de
busca, são totalmente justificados por todos os motivos que serão apresentados, entre os quais,
pelo aumento na quantidade de acessos e pela riqueza das informações relevantes do perfil do
usuário.

2 Revisão de Literatura
Os OPACs e Repositórios Institucionais vêm sendo um importante foco de discussão
nas bibliotecas; seu alcance, visibilidade, número de acessos e o perfil do usuário visitante
tornaram-se tópicos de debates em congressos, artigos de periódicos e diversas outras
iniciativas que têm pelo menos um objetivo em comum: atender as necessidades do usuário.
Embora essa discussão seja relativamente recente nas instituições brasileiras, há um
bom tempo vem sendo debatida por autores estrangeiros. Desde 2006, Lorcan Dempsey já
comentava sobre a necessidade de atender o usuário de uma forma mais abrangente, se
aproveitando das vantagens de um ambiente em rede:

4056

�Grande parte da discussão é sobre como melhorar a experiência do usuário
do catálogo, o que é uma aspiração razoável. No entanto, nós realmente
precisamos colocar isso no contexto de um conjunto mais abrangente de
questões sobre descoberta de informação e sobre a evolução contínua dos
sistemas de bibliotecas, incluindo o catálogo, em um ambiente de rede em
mudança. Neste ambiente, os usuários estão descobrindo cada vez mais
recursos em locais diferentes do que no catálogo. (DEMPSEY, 2006, p. 1,
tradução nossa)

Os primeiros esforços por aqui foram voltados para centralizar a busca do usuário
através de uma única ferramenta. Primeiro, vieram os metabuscadores, que pretendiam
unificar o processo de pesquisa, proporcionando uma única caixa de busca para encontrar
recursos em diversas bases de dados de uma só vez. Como essas pesquisas eram feitas em
tempo real nas bases de dados, algumas vezes o desempenho do tempo de resposta e da
disponibilidade dos recursos não era muito agradável.
No momento, a atenção está voltada para as ferramentas de descoberta, que ao invés
de buscar em tempo real em cada base de dados, indexa previamente todo o conteúdo das
mesmas e fornece a informação com um tempo de resposta bem menor.
Ambos os esforços têm como objetivo unificar o catálogo local com os outros recursos
disponíveis digitalmente na rede, como os periódicos localizados nas bases de dados
assinadas pelas bibliotecas, além de outros recursos eletrônicos fora do catálogo. Isto, com
certeza, revolucionou a forma como o usuário pesquisa e recupera informações.
Porém a discussão proposta neste trabalho é um pouco mais profunda do que isso.
Ainda em 2006, Dempsey já alertava para a problemática em torno da extrema diversidade de
recursos disponíveis e de ferramentas espalhadas pela rede mundial de computadores:

Hoje, vivemos em um mundo diferente. Agora, os recursos de informação
são relativamente abundantes, e a atenção do usuário é relativamente
escassa. Os usuários têm muitos recursos disponíveis para eles e não podem
gastar muito tempo em nenhum deles. Muitas ferramentas de busca estão
disponíveis lado a lado na rede, e grandes recursos consolidados surgiram na
forma de ferramentas de busca. Mesmo dentro da biblioteca, já existem
várias ferramentas de busca disponíveis na rede (para repositórios locais,
bancos de dados, periódicos, etc.). O usuário está repleto de oportunidades.
Não existe um recurso que seja o foco único de atenção do usuário. Na
verdade, a rede agora é o foco de atenção do usuário, e a 'coleção' disponível
é um conjunto enorme de recursos, muito maior do que a coleção local
catalogada das bibliotecas. O usuário deseja descobrir e usar muito mais do
que está na coleção local catalogada. (...) Eu acho que essa mudança coloca
grandes questões para o futuro do catálogo, e está ligada à diferença entre a
descoberta (identificação de recursos de interesse) e localização
(identificação de onde esses recursos de interesse estão realmente
disponíveis). (DEMPSEY, 2006, p. 1, tradução nossa)

4057

�A ferramenta de buscas do Google assumiu boa parte desse processo de pesquisa
inicial do usuário. Agora, ele está acostumado a começar suas pesquisas através de um
buscador global, para então refinar a pesquisa nas bases de dados mais específicas que ele tem
conhecimento. Só que, como já citado, existe uma infinidade de ferramentas disponíveis, o
que acaba confundindo o usuário e dificultando sua pesquisa.
O ideal, então, seria aproveitar todo o poder de indexação e recuperação com precisão
de uma ferramenta robusta, como o Google, e direcionar esforços para fornecer a esta
ferramenta o máximo de informações contidas nos catálogos online e nos repositórios
institucionais, para que o usuário já possa recuperar e acessar diretamente o que deseja ainda
na fase inicial de suas pesquisas em um único lugar que ele já está acostumado a utilizar.
Esta abordagem traz diversas vantagens tanto para o usuário quanto para instituição.
Primeiramente, ela facilita a pesquisa do usuário, disponibilizando no Google as informações
que só seriam recuperadas quando ele estivesse utilizando o sistema de buscas da instituição.
Este processo cria um atalho para o acesso direto ao conteúdo desejado e, em contrapartida,
traz este usuário para dentro do catálogo ou repositório. Ou seja, muitas vezes a instituição
passa a ganhar, através deste acesso, um novo usuário, que antes poderia desconhecer o seu
catálogo e seus mecanismos de busca.
À medida que os metadados disponibilizados forem sendo indexados pelo Google e
ganhando um ranking de posicionamento e relevância maiores nesta ferramenta, a tendência é
que o alcance, a visibilidade e o número de acessos realizados aos catálogos e repositórios das
instituições aumentem consideravelmente, contribuindo para as estatísticas e para o
crescimento e o reconhecimento do catálogo institucional perante os usuários. Do ponto de
vista técnico, alguns ajustes devem ser feitos tanto no lado do servidor da instituição, quanto
nos registros bibliográficos do catálogo, para que este processo ocorra com mais precisão. O
autor Mark Jackson (2010), explica em seu artigo, as alterações que devem ser implantadas no
servidor para conseguir submeter e rastrear os seus documentos através do Google Analytics,
e Patrick Griffi (2009), explica os ajustes nos registros bibliográficos para otimizar esta
descoberta.
Outra vantagem inerente desta estratégia é que o usuário pode tirar proveito dos outros
recursos incorporados na pesquisa do Google, que muitas vezes não estão presentes nas
ferramentas de busca ao catálogo, como uma ordenação decente dos resultados, baseada em
relevância, e não em ordem alfabética (como ainda vemos em muitas instituições), ou até
mesmo de uma correção ortográfica e sugestões de pesquisa, para os casos de erros de
digitação ou uso de plurais, diminutivos, acentos, prefixos, entre outros problemas que os

4058

�usuários já estão acostumados a encontrar durante suas pesquisas, mas que, felizmente, os
mecanismos de busca como o Google e as mais recentes ferramentas de descoberta de
bibliotecas já vêm tentando minimizar.
Em 2006, Karen G. Schneider criticava os catálogos online pela falta de uma série de
recursos básicos incorporados aos mecanismos de busca, que até hoje, em 2014, no Brasil,
ainda não vemos implantados nos catálogos online de uma grande parte das instituições:
Os usuários que se queixam de que o seu catálogo on-line é difícil de
pesquisar não são estúpidos; eles estão simplesmente apontando o óbvio.
Classificação por relevância é apenas uma das muitas funcionalidades
básicas dos mecanismos de busca que estão faltando nos catálogos on-line.
(...) Por que os fornecedores de catálogos online não oferecem, em primeiro
lugar, uma busca de verdade? E por que não exigimos isso? Poupe o tempo
do leitor! (SCHNEIDER, 2006, p. 1, tradução nossa)

Além dos recursos já citados, que estão ausentes nos catálogos online, temos ainda a
questão da frágil adaptação dos resultados de busca nestes sistemas. Ferramentas como o
Google vão transformando seus resultados se baseando nas frequências com que os termos de
buscas vão sendo utilizados e também pelos documentos que são mais acessados pelos
usuários, ou seja, o resultado é dinâmico e depende do comportamento do usuário perante os
dados recuperados. Já os catálogos online, em sua maioria, são estáticos e apresentam sempre
os resultados na mesma ordem pré-estabelecida. Isto atrasa o pesquisador e dificulta o
processo de localização dos documentos que estão sendo mais acessados para aqueles termos
de busca.
Muitos são os autores estrangeiros que defendem um sistema de busca institucional
mais parecido com o Google. Os artigos escritos por Karl Fast (2004), Janifer Gatenby (2007)
e Aaron Tay (2012), ressaltam estes fatores e defendem que sejam feitas mudanças radicais na
forma como são recuperados os registros, e principalmente nos recursos de filtragem,
apresentação e ordenação dos resultados das pesquisas nestes sistemas.
O que se percebe neste momento, no país e de maneira geral, são instituições
investindo muito em sistemas integrados e em ferramentas pouco personalizáveis, que muitas
vezes não possuem sequer estes recursos básicos, e ao mesmo tempo, pouco se ouve falar
sobre aproveitar os mecanismos de busca já consolidados, indexando as bases de dados dos
catálogos e repositórios no Google, para ajudar no processo de localização e recuperação dos
documentos mais importantes e mais relevantes para os usuários.
Do ponto de vista da instituição, deveria ser de interesse primário conhecer e entender
melhor o perfil dos usuários que acessam seus catálogos e repositórios sejam eles usuários

4059

�locais pertencentes à comunidade institucional ou até mesmo os eventuais usuários visitantes
de outras localizações, que utilizam seus sistemas através da rede para recuperar as
informações

que

precisam.

Este

método

pretende

aperfeiçoar

a captura

destas

informações para dar subsídio à tomada de decisões das instituições que estão visando atender
melhor os seus usuários.
O presente trabalho pretende levantar esta discussão e também motivar outras
instituições a aplicarem esta série de procedimentos em seus catálogos e repositórios, pois se
trata de uma solução relativamente simples de adotar e que depende de poucos recursos
humanos e financeiros, afinal, após todos os esforços empenhados em conjunto pelas
bibliotecas, o maior beneficiado, com certeza, será sempre o usuário final.

3 Materiais e Métodos
O método proposto neste trabalho pretende explicar duas abordagens diferentes com o
intuito de aumentar o alcance, a visibilidade e o número de acessos dos OPACs e repositórios
institucionais. De início, analisa-se o acesso aos acervos digitais, normalmente presentes nos
repositórios como obras em Portable Document Format (PDF). Em seguida, analisa-se a
indexação e o acesso aos Catálogos Online das instituições. Ambas as abordagens visam
melhorar a recuperação destes dados a partir de ferramentas de busca, como o Google.
A série de procedimentos, como um todo, consiste em realizar alterações em alguns
arquivos específicos de configuração nos servidores da instituição e submeter essas alterações
para o motor de pesquisas do Google, com o intuito de indexar na ferramenta de busca o
conteúdo dos documentos digitais e também todo conteúdo do catálogo armazenado nos
bancos de dados institucionais, possibilitando o acesso aos metadados dos OPACs e
repositórios diretamente do Google.
Além do aumento de alcance e visibilidade, outro objetivo proposto pela técnica é o de
capturar alguns dados dos usuários que realizam estes acessos, utilizando uma ferramenta de
monitoramento que permite registrar toda uma gama de informações sobre o acesso realizado,
por exemplo, quais termos de busca foram utilizados para encontrar uma determinada obra, a
partir de qual dispositivo foi feito o acesso, bem como dados sobre este dispositivo, como
sistema operacional, resolução de tela, navegador utilizado. Também é possível capturar
dados demográficos e geográficos, como idade, língua falada, países e cidades que mais
acessaram, ou dados comportamentais, como tempo de acesso e distinção entre usuários
novos e frequentes. É possível, inclusive, visualizar os acessos aos documentos em tempo
real.

4060

�A série de procedimentos pode ser dividida em sete etapas principais: Mapeamento,
Registro, Desenvolvimento, Configuração, Submissão, Monitoramento e Análise, que serão
descritas em detalhes a seguir.
A primeira etapa necessária é o Mapeamento, onde se deve traçar um panorama da
situação atual do servidor institucional. Nesta etapa, os administradores da rede devem utilizar
ferramentas de monitoramento de logs para mapear o número de acessos diretos aos arquivos
do servidor. Entende-se por acesso direto todo acesso feito aos arquivos por parte do usuário,
sem que ele tenha que passar pelo sistema integrado de buscas da instituição para recuperar o
arquivo. Ou seja, a intenção neste momento é compreender o alcance dos documentos fora do
ambiente do seu próprio sistema, além de identificar as desvantagens com relação à
imprecisão e ausência de dados qualitativos que são fornecidos por uma solução baseada em
análise de logs. Como grande parte das instituições, por padrão, ainda não indexam seus
catálogos online no Google, os dados relativos aos acessos diretos às páginas com as
informações dos acervos do catálogo, possivelmente, estarão zerados, mas será possível, pelo
menos, capturar os dados de acesso aos arquivos PDFs, sejam eles do catálogo ou dos
repositórios, mas que já estavam em locais do servidor com acesso liberado aos bots de
indexação do Google.
Na segunda etapa, chamada de Registro, é necessário criar uma conta na ferramenta
Google Analytics, cadastrar um novo Perfil, que será utilizado para o projeto, e gerar um
Código de Rastreamento, que será utilizado nas próximas etapas.
A partir da terceira etapa, conhecida por Desenvolvimento, torna-se necessário utilizar
recursos das linguagens de programação, como o PHP: Hypertext Preprocessor (PHP), para
se criar um script de mineração, que será responsável por recuperar os metadados dos acervos
no banco de dados e gerar as páginas web estáticas no formato HyperText Markup Language
(HTML). Estas páginas serão utilizadas na etapa de Submissão, disponibilizando estes dados
pro Google, para que possam ser indexados e recuperados pelo usuário quando pesquisar,
utilizando os termos que estejam contidos nelas. Este script deve ter acesso ao banco de dados
institucional, e será necessário desenvolver uma consulta SQL especificamente para recuperar
os metadados que se deseja que sejam a serem indexados pelo buscador. Devem-se incluir,
nesse momento, alguns dos fatores citados por Brian Dean (2013), em seu artigo sobre os 200
fatores que aumentam a chance do Google elevar o ranking dos seus documentos no
algoritmo do motor de busca na hora da recuperação.
Ainda na etapa de Desenvolvimento, deve-se criar um script de interceptação que será
utilizado na etapa de Configuração e será responsável por interceptar e processar os acessos

4061

�feitos diretamente aos arquivos PDFs armazenados no servidor. Alex Moore (2013), em seu
artigo, explica os procedimentos para realizar esta interceptação.
Para que seja possível monitorar todos estes acessos, tanto aos PDFs quanto aos dados
do catálogo, estes scripts devem incluir o Código de Rastreamento do Google Analytics no
código fonte, possibilitando a captura dos dados já citados sobre o visitante.
A quarta etapa, de Configuração, contempla as alterações que devem ser feitas em
arquivos do servidor, para que se possa registrar os acessos e preparar o serviço para a etapa
de Redirecionamento. (No projeto piloto, no qual foi implantada essa série de procedimentos,
foi utilizado o Servidor de Hyper Text Transfer Protocol (HTTP) Apache, porém os
procedimentos aqui listados podem ser efetuados em outros serviços similares). Nesta etapa,
altera-se o arquivo htaccess do Servidor Apache, para que as tentativas de acesso direto aos
PDFs sejam capturadas pelo script de interceptação criado na etapa de Desenvolvimento e
registradas no Google Analytics, para que sejam avaliadas posteriormente na etapa de Análise.
Na quinta etapa, chamada de Submissão, inicia-se a integração com o Google, que
possibilita a indexação das páginas HTML, geradas pelo script de mineração na etapa de
Desenvolvimento. Esta integração é realizada pela geração de um arquivo de configuração
chamado de SiteMap, que deve ser composto por uma lista de Universal Resource Locators
(URLs), sendo uma para cada acervo que se deseja indexar. Ou seja, uma instituição que
deseja indexar duzentos mil itens do seu catálogo, deve gerar um arquivo de SiteMap com
duzentas mil URLs, cada uma apontando para o endereço do script de mineração e indicando
como parâmetro o código do acervo que será indexado. Recomenda-se incluir também, neste
arquivo de SiteMap, os endereços de acesso aos arquivos PDFs do catálogo ou dos
repositórios, para garantir que sejam indexados corretamente pelo Google. Todas as
definições dos arquivos SiteMap podem ser encontradas no Site oficial através do endereço:
sitemap.org.
Este arquivo de SiteMap, uma vez preenchido, deve ser enviado para o Google através
de uma suíte de ferramentas chamada de WebMaster Tools, possibilitando ao buscador
acessar e indexar os dados do catálogo que, anteriormente, estavam restritos à base de dados
da instituição.
Nesta etapa, também é necessário verificar se os diretórios onde estão localizados os
arquivos PDF no servidor possuem as devidas permissões configuradas, para que seja
possível ao Google acessar todos os dados disponíveis.
A sexta etapa é a de Monitoramento, onde será utilizada a ferramenta Google
Analytics para visualizar e acompanhar a evolução dos acessos aos documentos. A partir

4062

�desta ferramenta, é possível extrair dados detalhados sobre o visitante, permitindo à
instituição conhecer o perfil do usuário, além de compreender quais documentos estão sendo
mais requisitados nos seus catálogos e repositórios.
Ainda na etapa de Monitoramento, se torna possível comparar os dados obtidos na
etapa de Mapeamento com os dados atuais fornecidos pela ferramenta Google Analytics,
depois das otimizações realizadas nos servidores. Esta ferramenta é essencial para esta etapa e
também para a etapa de Análise, pois fornece diversas opções de filtragem dos resultados e
muitas combinações de dados, o que possibilita uma análise profunda das mudanças ocorridas
pela implantação dos métodos propostos neste trabalho. Nesta etapa, é importante definir
alguns índices de performance, para que se possa realizar uma série de comparações e gerar
um relatório com uma avaliação de desempenho, confrontando a etapa de Mapeamento com a
de Monitoramento.
A última etapa é a de Análise, na qual serão avaliados os relatórios, contendo todos os
dados dos visitantes e das obras acessadas, e, a partir desta análise, serão definidas as novas
metas e os procedimentos de aperfeiçoamento na disponibilização de documentos para os
usuários, através das ferramentas de busca, como o Google.
Deve se levar em conta, nesta etapa, os dados quantitativos e qualitativos que foram
levantados nas outras etapas, e compreender como eles afetam os acessos aos catálogos e
repositórios institucionais.
É importante compreender que esta série de procedimentos funciona como um ciclo,
que deve ser aperfeiçoado constantemente, ou seja, deve-se, a partir desta análise, verificar os
resultados obtidos nas outras etapas, compreender as partes que ainda não estão funcionando
como deveriam e que ainda podem ser otimizadas e, então, definir as mudanças que serão
feitas no processo, com o intuito de capturar ainda mais dados dos visitantes e dos
documentos acessados. Ao final de alguns ciclos, realizando este ajuste fino, espera-se que a
instituição tenha um bom controle sobre quem são, de onde vêm, e o que procuram os seus
visitantes.

4 Resultados Parciais/Finais
Para que fosse possível experimentar a série de procedimentos proposta neste trabalho,
optou-se pela criação de um pequeno projeto piloto, que foi constituído inicialmente por 100
obras digitais, selecionadas aleatoriamente do catálogo institucional.

4063

�Depois de implantadas todas as etapas explicadas anteriormente na série de
procedimentos, foi possível perceber as diversas nuances e observar fatores tanto positivos
quanto negativos de uma solução desta natureza.
O primeiro fator positivo observado foi o aumento no número de acessos aos
documentos, quando comparados com as estatísticas de acessos retiradas pela ferramenta de
análise de logs do servidor Apache. Houve um aumento de duzentos por cento (200%) nos
acessos detectados pelo Google Analytics em relação aos capturados pelo método tradicional
de análise de logs do servidor. É importante ressaltar que o método de análise de logs muitas
vezes não é preciso, portanto, somente ao implantar toda a série de procedimentos e observar
a mudança dos dados em longo prazo é que poderá se obter dados mais confiáveis e que
podem não refletir os dados obtidos durante a fase do projeto piloto.
O segundo fator positivo que chamou a atenção foi o percentual de acessos aos
documentos PDFs, que vinham direto da ferramenta de buscas do Google. Aproximadamente
dois terços dos acessos (72%) estavam sendo direcionados diretamente das pesquisas
realizadas no Google pelos termos de busca que foram localizados nestes documentos. Este
fator influencia diretamente os dados sobre os usuários que podem ser recuperados, visto que,
antes da implantação da série de procedimentos, não era possível capturar informações sobre
estes visitantes que são direcionados pelo Google, e sim apenas daqueles visitantes que
acessavam os documentos a partir da ferramenta de pesquisa da instituição.
O terceiro fator positivo foi devido à quantidade de informações relacionadas ao
usuário visitante que pôde ser capturada. Entender os interesses e predileções dos usuários,
obter informações detalhadas sobre a origem, sobre os dispositivos utilizados, sobre a
natureza do acesso e, finalmente, sobre o destino do usuário dentro do catálogo institucional
torna-se essencial em uma época tão competitiva e com tantas opções de pesquisa para os
usuários. Estas informações possibilitam que as instituições conheçam melhor os seus
usuários, adaptem os seus serviços atuais e inclusive criem novos serviços para atender esta
demanda crescente.
Com relação aos fatores negativos da implantação de uma solução deste tipo,
destacam-se as dificuldades técnicas no processo de configuração, programação e implantação
da série de procedimentos. Devido à diversidade de soluções e ferramentas disponíveis no
mercado, nem sempre os passos explicados neste trabalho poderão ser executados sem
eventualidades. Outro fator negativo deve-se ao fato de muitas instituições brasileiras,
principalmente bibliotecas universitárias, não possuírem uma equipe de automação dedicada

4064

�exclusivamente ao Departamento de Bibliotecas e Documentação, o que pode dificultar muito
a implantação da série de procedimentos em sua totalidade.
Entende-se, no entanto, que as vantagens identificadas superam as dificuldades
encontradas e espera-se que o desempenho da série de procedimentos seja satisfatório quando
implantada em todo o catálogo, após a fase do projeto piloto estar concluída.
Espera-se também que outras instituições se sintam motivadas a aplicar esta série de
procedimentos com o intuito de aumentar o alcance das obras pertencentes em seus catálogos
e de facilitar a pesquisa dos usuários, disponibilizando para eles as informações contidas em
seu catálogo no Google, permitindo a localização e o acesso direto ao documento sem a
necessidade de outros sistemas de busca intermediários, porém contabilizando e capturando
informações sobre estes acessos.

5 Considerações Parciais/Finais
A discussão apresentada aqui propõe uma nova abordagem em torno da
disponibilização de documentos através da rede; faz uma reflexão sobre as limitações
encontradas pelo usuário durante a recuperação destes documentos entre tantas ferramentas; e
conclui apresentando uma série de procedimentos para aperfeiçoar o alcance, os acessos e a
visibilidade dos catálogos online e repositórios institucionais. Há tempos, autores, como
Dempsey (2006), vêm alertando para a necessidade de mudanças neste sentido:
Em um mundo pré-internet, onde os recursos de informação eram
relativamente escassos e a atenção relativamente abundante, os usuários
construíram o seu fluxo de trabalho em torno da biblioteca. Em um mundo
conectado, onde os recursos de informação são relativamente abundantes e a
atenção é relativamente escassa, não podemos esperar que isso aconteça. De
fato a biblioteca precisa pensar em maneiras de construir os seus recursos em
torno de todo o fluxo de trabalho do usuário. Nós não podemos esperar mais
que o usuário venha ao site da biblioteca. (DEMPSEY, 2006, p. 1, tradução
nossa)

Apesar das dificuldades técnicas e de toda a escassez de recursos humanos e materiais,
detectadas em muitas instituições brasileiras, espera-se um saldo positivo destes fatores,
tornando válido o investimento em soluções voltadas para a otimização de catálogos online e
repositórios institucionais, visto que houve aumento tanto das informações quantitativas sobre
os acessos quanto dos dados qualitativos sobre os visitantes, o que justificaria os esforços de
um trabalho contínuo, visando à construção de um catálogo que permeie o fluxo de trabalho
dos usuários durante suas pesquisas. Em todos estes casos, o horizonte de ação deve passar
pela incorporação dessas práticas pela instituição.
Conclui-se, portanto, através deste estudo, que com as mudanças de comportamento
dos pesquisadores e com o aumento da demanda para que as informações estejam disponíveis

4065

�em todo o fluxo de pesquisa do usuário, torna-se essencial que as instituições responsáveis
por estes dados realizem todos os esforços possíveis para que as suas informações estejam
propriamente indexadas e recuperáveis através de mecanismos de buscas globais, como o
Google. Os usuários agradecem.

Referências
DEAN, Brian. [Infographic] Google’s 200 Ranking Factors. Search Engine Journal, Flórida,
2013.

Disponível

em:

&lt;http://www.searchenginejournal.com/infographic-googles-200-

ranking-factors/64316/&gt;. Acesso em: 20 mar. 2014.
DEMPSEY, Lorcan. The Library Catalogue in the New Discovery Environment: Some
Thoughts. Ariadne,

Bath,

n.

48,

jul.

2006.

Disponível

em:

&lt;http://www.ariadne.ac.uk/issue48/dempsey&gt;. Acesso em: 15 mar. 2014.
FAST, Karl V.; CAMPELL, D. Grant. “I Still Like Google”: University Student Perceptions
of Searching OPACs and the Web. In: ASISDT ANNUAL MEETING, 67., 2004, Ontario.
Proceedings...

Ontario:

Interscience.wiley.com, 2004.

9

p.

Disponível

em:

&lt;http://www.academia.edu/375917/_I_Still_Like_Google_University_Student_Perceptions_o
f_Searching_OPACs_and_the_Web&gt;. Acesso em: 15 mar. 2014.
GATENBY, Janifer. Accessing library materials via Google and Other Web Sites. BiD: textos
universitaris de biblioteconomia i documentació, Barcelona, n. 19, dez. 2007. Disponível em:
&lt;http://bid.ub.edu/19gatenb.htm&gt;. Acesso em: 15 mar. 2014.
GRAY, Brian C.. Transforming the OPAC: Web 2.0, Mobile, and Discovery. Case Western
Reserve

University,

Cleveland,

2012.

47

slides,

color.

Disponível

&lt;http://pt.slideshare.net/bcg8/transforming-the-opacweb-20-mobile-and-discovery&gt;.

em:
Acesso

em: 15 mar. 2014.
GRIFFI, Patrick; FORD, Cyrus. Enhancing OPAC Records for Discovery. Information
Technology And Libraries, Brisbane, v. 28, n. 4, p. 191-193, dez. 2009. Disponível em:
&lt; http://dx.doi.org/10.6017/ital.v28i4.3233&gt;. Acesso em: 15 mar. 2014.
JACKSON, Mark. Track XML or server-side files using Google Analytics. MJ Digital,
United Kingdom, 2010. Disponível em: &lt;http://www.mjdigital.co.uk/blog/track-xml-orserver-side-files-using-google-analytics/&gt;. Acesso em: 20 jan. 2014.
MI, Jia; WENG, Cathy. Revitalizing the Library OPAC: Interface, Searching, and Display
Challenges. Information Technology And Libraries, Brisbane, v. 27, n. 1, p.5-22, mar.
2008. Disponível em: &lt;http://dx.doi.org/10.6017/ital.v27i1.3259&gt;. Acesso em: 15 mar. 2014.

4066

�MOORE, Alex. Tracking PDFs and Other Downloads Inside Google Analytics... ServerSide!

LunaMetrics,

Pittsburgh,

4

jun.

2013.

Disponível

em:

&lt;http://www.lunametrics.com/blog/2013/06/04/tracking-pdfs-google-analytics-server-side/&gt;.
Acesso em: 20 jan. 2014.
SCHNEIDER, Karen G.. How OPACs Suck. ALA Tech Source, Chicago, 2006. Disponível
em:

&lt;http://www.alatechsource.org/blog/2006/03/how-opacs-suck-part-1-relevance-rank-or-

the-lack-of-it.html&gt;. Acesso em: 15 mar. 2014.
TAY, Aaron. How is Google different from traditional Library OPACs &amp; databases?
Musings

about

librarianship,

Singapore,

8

maio

2012.

Disponível

em:

&lt;http://musingsaboutlibrarianship.blogspot.com.br/2012/05/how-is-google-differentfrom.html&gt;. Acesso em: 15 mar. 2014.

4067

�</text>
                </elementText>
              </elementTextContainer>
            </element>
          </elementContainer>
        </elementSet>
      </elementSetContainer>
    </file>
  </fileContainer>
  <collection collectionId="62">
    <elementSetContainer>
      <elementSet elementSetId="1">
        <name>Dublin Core</name>
        <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
        <elementContainer>
          <element elementId="50">
            <name>Title</name>
            <description>A name given to the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71368">
                <text>SNBU - Edição: 18 - Ano: 2014 (UFMG - Belo Horizonte/MG)</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="49">
            <name>Subject</name>
            <description>The topic of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71369">
                <text>Biblioteconomia&#13;
Documentação&#13;
Ciência da Informação&#13;
Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="41">
            <name>Description</name>
            <description>An account of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71370">
                <text>Tema: Bibliotecas Universitárias e o Acesso Público à Informação: articulando leis, tecnologias, práticas e gestão</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="39">
            <name>Creator</name>
            <description>An entity primarily responsible for making the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71371">
                <text>SNBU - Seminário Nacional de Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="45">
            <name>Publisher</name>
            <description>An entity responsible for making the resource available</description>
            <elementTextContainer>
              <elementText elementTextId="71372">
                <text>UFMG</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="44">
            <name>Language</name>
            <description>A language of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71373">
                <text>pt</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="51">
            <name>Type</name>
            <description>The nature or genre of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="71374">
                <text>Evento</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="38">
            <name>Coverage</name>
            <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
            <elementTextContainer>
              <elementText elementTextId="71375">
                <text>Belo Horizonte (Minas Gerais)</text>
              </elementText>
            </elementTextContainer>
          </element>
        </elementContainer>
      </elementSet>
    </elementSetContainer>
  </collection>
  <itemType itemTypeId="8">
    <name>Event</name>
    <description>A non-persistent, time-based occurrence. Metadata for an event provides descriptive information that is the basis for discovery of the purpose, location, duration, and responsible agents associated with an event. Examples include an exhibition, webcast, conference, workshop, open day, performance, battle, trial, wedding, tea party, conflagration.</description>
  </itemType>
  <elementSetContainer>
    <elementSet elementSetId="1">
      <name>Dublin Core</name>
      <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
      <elementContainer>
        <element elementId="50">
          <name>Title</name>
          <description>A name given to the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76526">
              <text>Aumentando o alcance e a visibilidade de catálogo online e repositórios institucionais com a ajuda do Google</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="39">
          <name>Creator</name>
          <description>An entity primarily responsible for making the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76527">
              <text>Ferreira, Giuliano</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="38">
          <name>Coverage</name>
          <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
          <elementTextContainer>
            <elementText elementTextId="76528">
              <text>Belo Horizonte (Minas Gerais)</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="45">
          <name>Publisher</name>
          <description>An entity responsible for making the resource available</description>
          <elementTextContainer>
            <elementText elementTextId="76529">
              <text>UFMG</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="40">
          <name>Date</name>
          <description>A point or period of time associated with an event in the lifecycle of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76530">
              <text>2014</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="44">
          <name>Language</name>
          <description>A language of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76531">
              <text>pt</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="51">
          <name>Type</name>
          <description>The nature or genre of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76532">
              <text>Evento</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="41">
          <name>Description</name>
          <description>An account of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="76533">
              <text>Este trabalho propõe uma série de procedimentos para aumentar o alcance, a visibilidade e o número de acessos de Catálogos Online, conhecidos como Online Public Access Catalogs (OPACs), e Repositórios Institucionais, com a ajuda do sistema de buscas do Google. Analisa as diversas abordagens dos mecanismos de buscas da Internet e os compara com sistemas de pesquisas institucionais, particularmente de bibliotecas universitárias. Apresenta os objetivos por trás do processo de otimização dos catálogos e repositórios. Descreve os procedimentos utilizados no desenvolvimento e apresenta detalhes do sistema planejado para o gerenciamento da mesma. Aponta as medidas adotadas para prover um melhor funcionamento do sistema. Destaca as mudanças de comportamento dos pesquisadores atuais e propõe uma nova abordagem para alcançar, monitorar e atender esses usuários. Analisa, então, os resultados parciais alcançados durante o período do projeto piloto. Conclui, apontando os aspectos vantajosos que devem ser considerados na implantação de um projeto dessa natureza. </text>
            </elementText>
          </elementTextContainer>
        </element>
      </elementContainer>
    </elementSet>
  </elementSetContainer>
</item>
