http://repositorio.febab.libertar.org/files/original/62/6836/SNBU2014_322.pdf 3820841c34eb9add81b345bf50ab9d12 PDF Text Text XVIII Seminário Nacional de Bibliotecas Universitárias SNBU 2014 AUMENTANDO O ALCANCE E A VISIBILIDADE DE CATÁLOGOS ONLINE E REPOSITÓRIOS INSTITUCIONAIS COM A AJUDA DO GOOGLE. Giuliano Ferreira RESUMO Este trabalho propõe uma série de procedimentos para aumentar o alcance, a visibilidade e o número de acessos de Catálogos Online, conhecidos como Online Public Access Catalogs (OPACs), e Repositórios Institucionais, com a ajuda do sistema de buscas do Google. Analisa as diversas abordagens dos mecanismos de buscas da Internet e os compara com sistemas de pesquisas institucionais, particularmente de bibliotecas universitárias. Apresenta os objetivos por trás do processo de otimização dos catálogos e repositórios. Descreve os procedimentos utilizados no desenvolvimento e apresenta detalhes do sistema planejado para o gerenciamento da mesma. Aponta as medidas adotadas para prover um melhor funcionamento do sistema. Destaca as mudanças de comportamento dos pesquisadores atuais e propõe uma nova abordagem para alcançar, monitorar e atender esses usuários. Analisa, então, os resultados parciais alcançados durante o período do projeto piloto. Conclui, apontando os aspectos vantajosos que devem ser considerados na implantação de um projeto dessa natureza. Palavras-Chave: OPAC; Catálogo online; Repositório Institucional; Biblioteca digital; Indexação; Mecanismos de busca; Google; Programação; Web; ABSTRACT This paper proposes a series of procedures to increase the reach, visibility and the numbers of access of Online Public Access Catalogs (OPACs) and Institutional Repositories with the help of the Google search tool. It analyzes various approaches to Internet search engines and compares them with institutional research systems, particularly university libraries. It presents the objectives behind the optimization process of repositories and catalogs. It describes the procedures used in the development and provides details of the planned features for managing the same system. It identifies measures adopted to provide a better functioning system. It highlights the changes in behavior of current researchers and proposes a new approach to reach, monitor and serve these users. It then analyzes the partial results achieved during the period of the pilot project. And it concludes, pointing out the beneficial aspects that should be considered in the implementation of such a project. Keywords : OPAC; Online catalog; Institutional repository; Digital library; Indexing; Search engines; Google; Programming; Web; 4053 �1 Introdução Novos desafios se colocam diariamente em todos os setores da sociedade, em virtude das grandes transformações resultantes da evolução das tecnologias da informação. As bibliotecas universitárias, neste contexto, não são exceção. Existe hoje um grande esforço sendo feito nestas instituições com o intuito de atender à sua comunidade e prover acesso aos seus documentos, estejam eles fisicamente localizados nas dependências da biblioteca, armazenados digitalmente em seus servidores, ou na nuvem, através das assinaturas das bases de dados e demais links catalogados no sistema. O grupo de consumidores destas informações deixa de ser formado apenas pelos usuários membros da comunidade local da instituição e passa a ser composto por todas as camadas da sociedade. Existe uma demanda crescente por serviços de recuperação de informações. Porém, no ponto de vista deste usuário consumidor da informação, também existe um desafio, que é justamente saber onde buscar essas informações. Como cada instituição desenvolve sua própria solução de recuperação de informações, com diferentes níveis de profundidade e eficiência, que são influenciados por diversos fatores, entre os quais, apoio institucional, investimento financeiro, acesso às tecnologias atuais, capacitação da equipe, parcerias e outros facilitadores, nem sempre este usuário encontrará o que precisa em uma única ferramenta de busca. Essa diversidade de soluções, em vez de facilitar, acaba por dificultar a pesquisa do usuário, que ou fica limitado pelo alcance da ferramenta de busca de sua instituição, ou fica perdido diante de tantas outras ferramentas que estão espalhadas pela Internet. Como mencionado por Karen G. Schneider (2006), em seu artigo “How OPACs Suck’, as ferramentas de buscas oferecidas pelos catálogos tradicionais sofrem com uma série de deficiências quando comparadas com um sistema de buscas potente, como o Google. Estas deficiências vão desde a ausência de um bom ranking de relevância com uma ordenação de resultados decentes, a falta de uma recuperação por termos correlacionados, a inexistência de correções ortográficas, de um pobre refinamento de buscas, até a necessidade de repetir a busca diversas vezes em outras bases de dados, entre outros fatores limitadores. O que acaba se percebendo é que este usuário passa a optar por iniciar a sua pesquisa em um motor de busca global, como o Google, visto que o mesmo passa uma impressão de 4054 �estar buscando em todos os lugares de uma vez só, deixando as ferramentas de buscas institucionais que ele conhece para um momento posterior, ou apenas para refinar suas pesquisas. Esta nova realidade pode ser vista como uma ameaça, porém simultaneamente como uma oportunidade que as bibliotecas não podem desperdiçar. Ou seja, isto significa que para atender este usuário e fornecer as informações que ele precisa é necessário também capturá-lo no momento em que está realizando suas pesquisas em buscadores, como o Google, e entregar para ele o seu conteúdo. Como dizia o autor John Martin, desde 1939: “Se não pode vencê-los, junte-se a eles”. Portanto, ciente de que seu usuário pode estar em qualquer localização, de que o mesmo está limitado à capacidade de recuperação do sistema institucional, perdido diante da diversidade de ferramentas, e que devido a todos estes fatores ele acaba iniciando suas pesquisas no Google, é de fundamental importância que todo o conteúdo dos OPACS e repositórios institucionais estejam indexados no motor de buscas do Google, para que possam ser recuperados e os usuários sejam, então, direcionados para o site da instituição, com o intuito de acessar estes documentos seja fisicamente ou através de download. Neste momento, encontramos outro desafio, que felizmente pode ser convertido em oportunidade através da série de procedimentos proposta neste trabalho. A principal dificuldade encontrada nesta etapa é que buscadores, como o Google, utilizam bots (robôs de busca automatizados), que são responsáveis por indexar todo conteúdo que esteja disponível na Internet e que esteja acessível para os bots. E é neste ponto que a maioria das instituições esbarra com algumas limitações. Para que o conteúdo seja indexado pelo Google, ele precisa estar localizado em uma parte do seu servidor que não esteja protegida de acesso externo pelos bots e, normalmente, precisa estar contido em documentos estáticos, ou seja, em arquivos, na sua maioria em formato texto, gravados no disco rígido dos servidores. No entanto, na maioria dos sistemas de bibliotecas universitárias, os metadados das obras estão gravados em um Sistema Gerenciador de Banco de Dados (protegido e privado), armazenados em tabelas e acessados somente pelos sistemas das instituições através de um script (código de programação), que lê a informação do Banco de Dados e exibe para o usuário em uma página web, que está sendo gerada dinamicamente no momento em que ele faz uma pesquisa e clica no link da obra. O problema é que, por padrão, o conteúdo que é mostrado para o usuário nestas páginas dinâmicas não é indexado pelo Google, exatamente pelo fato dos metadados estarem gravados no Banco de Dados e não em arquivos no formato texto no servidor, ficando 4055 �invisíveis para o motor de buscas e, consequentemente, não sendo recuperados pelo usuário através do buscador. O objetivo da técnica proposta neste trabalho é exatamente disponibilizar para o Google todas as informações sobre as obras do catálogo, permitindo que sejam indexados pelos bots e posteriormente recuperados pelo usuário quando ele estiver realizando sua pesquisa inicial no motor de buscas global, capturando, assim, este usuário e provendo acesso a todo o conteúdo de sua instituição. Ao trazer usuários que vêm diretamente dos mecanismos de buscas tradicionais para os seus catálogos e repositórios, pôde-se observar durante o período do projeto piloto um aumento considerável no número de acessos. Observou-se também um aumento significativo na qualidade das informações sobre esse visitante. Antes da customização, a informação, quando existia, era meramente quantitativa e indicava somente o número de pessoas que teriam acessado um determinado arquivo, por exemplo. Após a customização, todos os acessos são monitorados por uma ferramenta de análise chamada Google Analytics, que, além da quantidade de acessos, fornece uma série de outras informações sobre o usuário visitante, como: de onde ele veio; quais termos de busca foram digitados; qual dispositivo e sistema operacional utilizou. Com isto está sendo possível traçar um perfil bem mais detalhado deste usuário, permitindo assim que sejam desenvolvidos melhores serviços para lhe atender. Após o período de implantação do projeto piloto, que contou com apenas algumas customizações, concluiu-se que todo esforço e investimento dedicado a aperfeiçoar a indexação dos catálogos online e dos repositórios acadêmicos, através das ferramentas de busca, são totalmente justificados por todos os motivos que serão apresentados, entre os quais, pelo aumento na quantidade de acessos e pela riqueza das informações relevantes do perfil do usuário. 2 Revisão de Literatura Os OPACs e Repositórios Institucionais vêm sendo um importante foco de discussão nas bibliotecas; seu alcance, visibilidade, número de acessos e o perfil do usuário visitante tornaram-se tópicos de debates em congressos, artigos de periódicos e diversas outras iniciativas que têm pelo menos um objetivo em comum: atender as necessidades do usuário. Embora essa discussão seja relativamente recente nas instituições brasileiras, há um bom tempo vem sendo debatida por autores estrangeiros. Desde 2006, Lorcan Dempsey já comentava sobre a necessidade de atender o usuário de uma forma mais abrangente, se aproveitando das vantagens de um ambiente em rede: 4056 �Grande parte da discussão é sobre como melhorar a experiência do usuário do catálogo, o que é uma aspiração razoável. No entanto, nós realmente precisamos colocar isso no contexto de um conjunto mais abrangente de questões sobre descoberta de informação e sobre a evolução contínua dos sistemas de bibliotecas, incluindo o catálogo, em um ambiente de rede em mudança. Neste ambiente, os usuários estão descobrindo cada vez mais recursos em locais diferentes do que no catálogo. (DEMPSEY, 2006, p. 1, tradução nossa) Os primeiros esforços por aqui foram voltados para centralizar a busca do usuário através de uma única ferramenta. Primeiro, vieram os metabuscadores, que pretendiam unificar o processo de pesquisa, proporcionando uma única caixa de busca para encontrar recursos em diversas bases de dados de uma só vez. Como essas pesquisas eram feitas em tempo real nas bases de dados, algumas vezes o desempenho do tempo de resposta e da disponibilidade dos recursos não era muito agradável. No momento, a atenção está voltada para as ferramentas de descoberta, que ao invés de buscar em tempo real em cada base de dados, indexa previamente todo o conteúdo das mesmas e fornece a informação com um tempo de resposta bem menor. Ambos os esforços têm como objetivo unificar o catálogo local com os outros recursos disponíveis digitalmente na rede, como os periódicos localizados nas bases de dados assinadas pelas bibliotecas, além de outros recursos eletrônicos fora do catálogo. Isto, com certeza, revolucionou a forma como o usuário pesquisa e recupera informações. Porém a discussão proposta neste trabalho é um pouco mais profunda do que isso. Ainda em 2006, Dempsey já alertava para a problemática em torno da extrema diversidade de recursos disponíveis e de ferramentas espalhadas pela rede mundial de computadores: Hoje, vivemos em um mundo diferente. Agora, os recursos de informação são relativamente abundantes, e a atenção do usuário é relativamente escassa. Os usuários têm muitos recursos disponíveis para eles e não podem gastar muito tempo em nenhum deles. Muitas ferramentas de busca estão disponíveis lado a lado na rede, e grandes recursos consolidados surgiram na forma de ferramentas de busca. Mesmo dentro da biblioteca, já existem várias ferramentas de busca disponíveis na rede (para repositórios locais, bancos de dados, periódicos, etc.). O usuário está repleto de oportunidades. Não existe um recurso que seja o foco único de atenção do usuário. Na verdade, a rede agora é o foco de atenção do usuário, e a 'coleção' disponível é um conjunto enorme de recursos, muito maior do que a coleção local catalogada das bibliotecas. O usuário deseja descobrir e usar muito mais do que está na coleção local catalogada. (...) Eu acho que essa mudança coloca grandes questões para o futuro do catálogo, e está ligada à diferença entre a descoberta (identificação de recursos de interesse) e localização (identificação de onde esses recursos de interesse estão realmente disponíveis). (DEMPSEY, 2006, p. 1, tradução nossa) 4057 �A ferramenta de buscas do Google assumiu boa parte desse processo de pesquisa inicial do usuário. Agora, ele está acostumado a começar suas pesquisas através de um buscador global, para então refinar a pesquisa nas bases de dados mais específicas que ele tem conhecimento. Só que, como já citado, existe uma infinidade de ferramentas disponíveis, o que acaba confundindo o usuário e dificultando sua pesquisa. O ideal, então, seria aproveitar todo o poder de indexação e recuperação com precisão de uma ferramenta robusta, como o Google, e direcionar esforços para fornecer a esta ferramenta o máximo de informações contidas nos catálogos online e nos repositórios institucionais, para que o usuário já possa recuperar e acessar diretamente o que deseja ainda na fase inicial de suas pesquisas em um único lugar que ele já está acostumado a utilizar. Esta abordagem traz diversas vantagens tanto para o usuário quanto para instituição. Primeiramente, ela facilita a pesquisa do usuário, disponibilizando no Google as informações que só seriam recuperadas quando ele estivesse utilizando o sistema de buscas da instituição. Este processo cria um atalho para o acesso direto ao conteúdo desejado e, em contrapartida, traz este usuário para dentro do catálogo ou repositório. Ou seja, muitas vezes a instituição passa a ganhar, através deste acesso, um novo usuário, que antes poderia desconhecer o seu catálogo e seus mecanismos de busca. À medida que os metadados disponibilizados forem sendo indexados pelo Google e ganhando um ranking de posicionamento e relevância maiores nesta ferramenta, a tendência é que o alcance, a visibilidade e o número de acessos realizados aos catálogos e repositórios das instituições aumentem consideravelmente, contribuindo para as estatísticas e para o crescimento e o reconhecimento do catálogo institucional perante os usuários. Do ponto de vista técnico, alguns ajustes devem ser feitos tanto no lado do servidor da instituição, quanto nos registros bibliográficos do catálogo, para que este processo ocorra com mais precisão. O autor Mark Jackson (2010), explica em seu artigo, as alterações que devem ser implantadas no servidor para conseguir submeter e rastrear os seus documentos através do Google Analytics, e Patrick Griffi (2009), explica os ajustes nos registros bibliográficos para otimizar esta descoberta. Outra vantagem inerente desta estratégia é que o usuário pode tirar proveito dos outros recursos incorporados na pesquisa do Google, que muitas vezes não estão presentes nas ferramentas de busca ao catálogo, como uma ordenação decente dos resultados, baseada em relevância, e não em ordem alfabética (como ainda vemos em muitas instituições), ou até mesmo de uma correção ortográfica e sugestões de pesquisa, para os casos de erros de digitação ou uso de plurais, diminutivos, acentos, prefixos, entre outros problemas que os 4058 �usuários já estão acostumados a encontrar durante suas pesquisas, mas que, felizmente, os mecanismos de busca como o Google e as mais recentes ferramentas de descoberta de bibliotecas já vêm tentando minimizar. Em 2006, Karen G. Schneider criticava os catálogos online pela falta de uma série de recursos básicos incorporados aos mecanismos de busca, que até hoje, em 2014, no Brasil, ainda não vemos implantados nos catálogos online de uma grande parte das instituições: Os usuários que se queixam de que o seu catálogo on-line é difícil de pesquisar não são estúpidos; eles estão simplesmente apontando o óbvio. Classificação por relevância é apenas uma das muitas funcionalidades básicas dos mecanismos de busca que estão faltando nos catálogos on-line. (...) Por que os fornecedores de catálogos online não oferecem, em primeiro lugar, uma busca de verdade? E por que não exigimos isso? Poupe o tempo do leitor! (SCHNEIDER, 2006, p. 1, tradução nossa) Além dos recursos já citados, que estão ausentes nos catálogos online, temos ainda a questão da frágil adaptação dos resultados de busca nestes sistemas. Ferramentas como o Google vão transformando seus resultados se baseando nas frequências com que os termos de buscas vão sendo utilizados e também pelos documentos que são mais acessados pelos usuários, ou seja, o resultado é dinâmico e depende do comportamento do usuário perante os dados recuperados. Já os catálogos online, em sua maioria, são estáticos e apresentam sempre os resultados na mesma ordem pré-estabelecida. Isto atrasa o pesquisador e dificulta o processo de localização dos documentos que estão sendo mais acessados para aqueles termos de busca. Muitos são os autores estrangeiros que defendem um sistema de busca institucional mais parecido com o Google. Os artigos escritos por Karl Fast (2004), Janifer Gatenby (2007) e Aaron Tay (2012), ressaltam estes fatores e defendem que sejam feitas mudanças radicais na forma como são recuperados os registros, e principalmente nos recursos de filtragem, apresentação e ordenação dos resultados das pesquisas nestes sistemas. O que se percebe neste momento, no país e de maneira geral, são instituições investindo muito em sistemas integrados e em ferramentas pouco personalizáveis, que muitas vezes não possuem sequer estes recursos básicos, e ao mesmo tempo, pouco se ouve falar sobre aproveitar os mecanismos de busca já consolidados, indexando as bases de dados dos catálogos e repositórios no Google, para ajudar no processo de localização e recuperação dos documentos mais importantes e mais relevantes para os usuários. Do ponto de vista da instituição, deveria ser de interesse primário conhecer e entender melhor o perfil dos usuários que acessam seus catálogos e repositórios sejam eles usuários 4059 �locais pertencentes à comunidade institucional ou até mesmo os eventuais usuários visitantes de outras localizações, que utilizam seus sistemas através da rede para recuperar as informações que precisam. Este método pretende aperfeiçoar a captura destas informações para dar subsídio à tomada de decisões das instituições que estão visando atender melhor os seus usuários. O presente trabalho pretende levantar esta discussão e também motivar outras instituições a aplicarem esta série de procedimentos em seus catálogos e repositórios, pois se trata de uma solução relativamente simples de adotar e que depende de poucos recursos humanos e financeiros, afinal, após todos os esforços empenhados em conjunto pelas bibliotecas, o maior beneficiado, com certeza, será sempre o usuário final. 3 Materiais e Métodos O método proposto neste trabalho pretende explicar duas abordagens diferentes com o intuito de aumentar o alcance, a visibilidade e o número de acessos dos OPACs e repositórios institucionais. De início, analisa-se o acesso aos acervos digitais, normalmente presentes nos repositórios como obras em Portable Document Format (PDF). Em seguida, analisa-se a indexação e o acesso aos Catálogos Online das instituições. Ambas as abordagens visam melhorar a recuperação destes dados a partir de ferramentas de busca, como o Google. A série de procedimentos, como um todo, consiste em realizar alterações em alguns arquivos específicos de configuração nos servidores da instituição e submeter essas alterações para o motor de pesquisas do Google, com o intuito de indexar na ferramenta de busca o conteúdo dos documentos digitais e também todo conteúdo do catálogo armazenado nos bancos de dados institucionais, possibilitando o acesso aos metadados dos OPACs e repositórios diretamente do Google. Além do aumento de alcance e visibilidade, outro objetivo proposto pela técnica é o de capturar alguns dados dos usuários que realizam estes acessos, utilizando uma ferramenta de monitoramento que permite registrar toda uma gama de informações sobre o acesso realizado, por exemplo, quais termos de busca foram utilizados para encontrar uma determinada obra, a partir de qual dispositivo foi feito o acesso, bem como dados sobre este dispositivo, como sistema operacional, resolução de tela, navegador utilizado. Também é possível capturar dados demográficos e geográficos, como idade, língua falada, países e cidades que mais acessaram, ou dados comportamentais, como tempo de acesso e distinção entre usuários novos e frequentes. É possível, inclusive, visualizar os acessos aos documentos em tempo real. 4060 �A série de procedimentos pode ser dividida em sete etapas principais: Mapeamento, Registro, Desenvolvimento, Configuração, Submissão, Monitoramento e Análise, que serão descritas em detalhes a seguir. A primeira etapa necessária é o Mapeamento, onde se deve traçar um panorama da situação atual do servidor institucional. Nesta etapa, os administradores da rede devem utilizar ferramentas de monitoramento de logs para mapear o número de acessos diretos aos arquivos do servidor. Entende-se por acesso direto todo acesso feito aos arquivos por parte do usuário, sem que ele tenha que passar pelo sistema integrado de buscas da instituição para recuperar o arquivo. Ou seja, a intenção neste momento é compreender o alcance dos documentos fora do ambiente do seu próprio sistema, além de identificar as desvantagens com relação à imprecisão e ausência de dados qualitativos que são fornecidos por uma solução baseada em análise de logs. Como grande parte das instituições, por padrão, ainda não indexam seus catálogos online no Google, os dados relativos aos acessos diretos às páginas com as informações dos acervos do catálogo, possivelmente, estarão zerados, mas será possível, pelo menos, capturar os dados de acesso aos arquivos PDFs, sejam eles do catálogo ou dos repositórios, mas que já estavam em locais do servidor com acesso liberado aos bots de indexação do Google. Na segunda etapa, chamada de Registro, é necessário criar uma conta na ferramenta Google Analytics, cadastrar um novo Perfil, que será utilizado para o projeto, e gerar um Código de Rastreamento, que será utilizado nas próximas etapas. A partir da terceira etapa, conhecida por Desenvolvimento, torna-se necessário utilizar recursos das linguagens de programação, como o PHP: Hypertext Preprocessor (PHP), para se criar um script de mineração, que será responsável por recuperar os metadados dos acervos no banco de dados e gerar as páginas web estáticas no formato HyperText Markup Language (HTML). Estas páginas serão utilizadas na etapa de Submissão, disponibilizando estes dados pro Google, para que possam ser indexados e recuperados pelo usuário quando pesquisar, utilizando os termos que estejam contidos nelas. Este script deve ter acesso ao banco de dados institucional, e será necessário desenvolver uma consulta SQL especificamente para recuperar os metadados que se deseja que sejam a serem indexados pelo buscador. Devem-se incluir, nesse momento, alguns dos fatores citados por Brian Dean (2013), em seu artigo sobre os 200 fatores que aumentam a chance do Google elevar o ranking dos seus documentos no algoritmo do motor de busca na hora da recuperação. Ainda na etapa de Desenvolvimento, deve-se criar um script de interceptação que será utilizado na etapa de Configuração e será responsável por interceptar e processar os acessos 4061 �feitos diretamente aos arquivos PDFs armazenados no servidor. Alex Moore (2013), em seu artigo, explica os procedimentos para realizar esta interceptação. Para que seja possível monitorar todos estes acessos, tanto aos PDFs quanto aos dados do catálogo, estes scripts devem incluir o Código de Rastreamento do Google Analytics no código fonte, possibilitando a captura dos dados já citados sobre o visitante. A quarta etapa, de Configuração, contempla as alterações que devem ser feitas em arquivos do servidor, para que se possa registrar os acessos e preparar o serviço para a etapa de Redirecionamento. (No projeto piloto, no qual foi implantada essa série de procedimentos, foi utilizado o Servidor de Hyper Text Transfer Protocol (HTTP) Apache, porém os procedimentos aqui listados podem ser efetuados em outros serviços similares). Nesta etapa, altera-se o arquivo htaccess do Servidor Apache, para que as tentativas de acesso direto aos PDFs sejam capturadas pelo script de interceptação criado na etapa de Desenvolvimento e registradas no Google Analytics, para que sejam avaliadas posteriormente na etapa de Análise. Na quinta etapa, chamada de Submissão, inicia-se a integração com o Google, que possibilita a indexação das páginas HTML, geradas pelo script de mineração na etapa de Desenvolvimento. Esta integração é realizada pela geração de um arquivo de configuração chamado de SiteMap, que deve ser composto por uma lista de Universal Resource Locators (URLs), sendo uma para cada acervo que se deseja indexar. Ou seja, uma instituição que deseja indexar duzentos mil itens do seu catálogo, deve gerar um arquivo de SiteMap com duzentas mil URLs, cada uma apontando para o endereço do script de mineração e indicando como parâmetro o código do acervo que será indexado. Recomenda-se incluir também, neste arquivo de SiteMap, os endereços de acesso aos arquivos PDFs do catálogo ou dos repositórios, para garantir que sejam indexados corretamente pelo Google. Todas as definições dos arquivos SiteMap podem ser encontradas no Site oficial através do endereço: sitemap.org. Este arquivo de SiteMap, uma vez preenchido, deve ser enviado para o Google através de uma suíte de ferramentas chamada de WebMaster Tools, possibilitando ao buscador acessar e indexar os dados do catálogo que, anteriormente, estavam restritos à base de dados da instituição. Nesta etapa, também é necessário verificar se os diretórios onde estão localizados os arquivos PDF no servidor possuem as devidas permissões configuradas, para que seja possível ao Google acessar todos os dados disponíveis. A sexta etapa é a de Monitoramento, onde será utilizada a ferramenta Google Analytics para visualizar e acompanhar a evolução dos acessos aos documentos. A partir 4062 �desta ferramenta, é possível extrair dados detalhados sobre o visitante, permitindo à instituição conhecer o perfil do usuário, além de compreender quais documentos estão sendo mais requisitados nos seus catálogos e repositórios. Ainda na etapa de Monitoramento, se torna possível comparar os dados obtidos na etapa de Mapeamento com os dados atuais fornecidos pela ferramenta Google Analytics, depois das otimizações realizadas nos servidores. Esta ferramenta é essencial para esta etapa e também para a etapa de Análise, pois fornece diversas opções de filtragem dos resultados e muitas combinações de dados, o que possibilita uma análise profunda das mudanças ocorridas pela implantação dos métodos propostos neste trabalho. Nesta etapa, é importante definir alguns índices de performance, para que se possa realizar uma série de comparações e gerar um relatório com uma avaliação de desempenho, confrontando a etapa de Mapeamento com a de Monitoramento. A última etapa é a de Análise, na qual serão avaliados os relatórios, contendo todos os dados dos visitantes e das obras acessadas, e, a partir desta análise, serão definidas as novas metas e os procedimentos de aperfeiçoamento na disponibilização de documentos para os usuários, através das ferramentas de busca, como o Google. Deve se levar em conta, nesta etapa, os dados quantitativos e qualitativos que foram levantados nas outras etapas, e compreender como eles afetam os acessos aos catálogos e repositórios institucionais. É importante compreender que esta série de procedimentos funciona como um ciclo, que deve ser aperfeiçoado constantemente, ou seja, deve-se, a partir desta análise, verificar os resultados obtidos nas outras etapas, compreender as partes que ainda não estão funcionando como deveriam e que ainda podem ser otimizadas e, então, definir as mudanças que serão feitas no processo, com o intuito de capturar ainda mais dados dos visitantes e dos documentos acessados. Ao final de alguns ciclos, realizando este ajuste fino, espera-se que a instituição tenha um bom controle sobre quem são, de onde vêm, e o que procuram os seus visitantes. 4 Resultados Parciais/Finais Para que fosse possível experimentar a série de procedimentos proposta neste trabalho, optou-se pela criação de um pequeno projeto piloto, que foi constituído inicialmente por 100 obras digitais, selecionadas aleatoriamente do catálogo institucional. 4063 �Depois de implantadas todas as etapas explicadas anteriormente na série de procedimentos, foi possível perceber as diversas nuances e observar fatores tanto positivos quanto negativos de uma solução desta natureza. O primeiro fator positivo observado foi o aumento no número de acessos aos documentos, quando comparados com as estatísticas de acessos retiradas pela ferramenta de análise de logs do servidor Apache. Houve um aumento de duzentos por cento (200%) nos acessos detectados pelo Google Analytics em relação aos capturados pelo método tradicional de análise de logs do servidor. É importante ressaltar que o método de análise de logs muitas vezes não é preciso, portanto, somente ao implantar toda a série de procedimentos e observar a mudança dos dados em longo prazo é que poderá se obter dados mais confiáveis e que podem não refletir os dados obtidos durante a fase do projeto piloto. O segundo fator positivo que chamou a atenção foi o percentual de acessos aos documentos PDFs, que vinham direto da ferramenta de buscas do Google. Aproximadamente dois terços dos acessos (72%) estavam sendo direcionados diretamente das pesquisas realizadas no Google pelos termos de busca que foram localizados nestes documentos. Este fator influencia diretamente os dados sobre os usuários que podem ser recuperados, visto que, antes da implantação da série de procedimentos, não era possível capturar informações sobre estes visitantes que são direcionados pelo Google, e sim apenas daqueles visitantes que acessavam os documentos a partir da ferramenta de pesquisa da instituição. O terceiro fator positivo foi devido à quantidade de informações relacionadas ao usuário visitante que pôde ser capturada. Entender os interesses e predileções dos usuários, obter informações detalhadas sobre a origem, sobre os dispositivos utilizados, sobre a natureza do acesso e, finalmente, sobre o destino do usuário dentro do catálogo institucional torna-se essencial em uma época tão competitiva e com tantas opções de pesquisa para os usuários. Estas informações possibilitam que as instituições conheçam melhor os seus usuários, adaptem os seus serviços atuais e inclusive criem novos serviços para atender esta demanda crescente. Com relação aos fatores negativos da implantação de uma solução deste tipo, destacam-se as dificuldades técnicas no processo de configuração, programação e implantação da série de procedimentos. Devido à diversidade de soluções e ferramentas disponíveis no mercado, nem sempre os passos explicados neste trabalho poderão ser executados sem eventualidades. Outro fator negativo deve-se ao fato de muitas instituições brasileiras, principalmente bibliotecas universitárias, não possuírem uma equipe de automação dedicada 4064 �exclusivamente ao Departamento de Bibliotecas e Documentação, o que pode dificultar muito a implantação da série de procedimentos em sua totalidade. Entende-se, no entanto, que as vantagens identificadas superam as dificuldades encontradas e espera-se que o desempenho da série de procedimentos seja satisfatório quando implantada em todo o catálogo, após a fase do projeto piloto estar concluída. Espera-se também que outras instituições se sintam motivadas a aplicar esta série de procedimentos com o intuito de aumentar o alcance das obras pertencentes em seus catálogos e de facilitar a pesquisa dos usuários, disponibilizando para eles as informações contidas em seu catálogo no Google, permitindo a localização e o acesso direto ao documento sem a necessidade de outros sistemas de busca intermediários, porém contabilizando e capturando informações sobre estes acessos. 5 Considerações Parciais/Finais A discussão apresentada aqui propõe uma nova abordagem em torno da disponibilização de documentos através da rede; faz uma reflexão sobre as limitações encontradas pelo usuário durante a recuperação destes documentos entre tantas ferramentas; e conclui apresentando uma série de procedimentos para aperfeiçoar o alcance, os acessos e a visibilidade dos catálogos online e repositórios institucionais. Há tempos, autores, como Dempsey (2006), vêm alertando para a necessidade de mudanças neste sentido: Em um mundo pré-internet, onde os recursos de informação eram relativamente escassos e a atenção relativamente abundante, os usuários construíram o seu fluxo de trabalho em torno da biblioteca. Em um mundo conectado, onde os recursos de informação são relativamente abundantes e a atenção é relativamente escassa, não podemos esperar que isso aconteça. De fato a biblioteca precisa pensar em maneiras de construir os seus recursos em torno de todo o fluxo de trabalho do usuário. Nós não podemos esperar mais que o usuário venha ao site da biblioteca. (DEMPSEY, 2006, p. 1, tradução nossa) Apesar das dificuldades técnicas e de toda a escassez de recursos humanos e materiais, detectadas em muitas instituições brasileiras, espera-se um saldo positivo destes fatores, tornando válido o investimento em soluções voltadas para a otimização de catálogos online e repositórios institucionais, visto que houve aumento tanto das informações quantitativas sobre os acessos quanto dos dados qualitativos sobre os visitantes, o que justificaria os esforços de um trabalho contínuo, visando à construção de um catálogo que permeie o fluxo de trabalho dos usuários durante suas pesquisas. Em todos estes casos, o horizonte de ação deve passar pela incorporação dessas práticas pela instituição. Conclui-se, portanto, através deste estudo, que com as mudanças de comportamento dos pesquisadores e com o aumento da demanda para que as informações estejam disponíveis 4065 �em todo o fluxo de pesquisa do usuário, torna-se essencial que as instituições responsáveis por estes dados realizem todos os esforços possíveis para que as suas informações estejam propriamente indexadas e recuperáveis através de mecanismos de buscas globais, como o Google. Os usuários agradecem. Referências DEAN, Brian. [Infographic] Google’s 200 Ranking Factors. Search Engine Journal, Flórida, 2013. Disponível em: <http://www.searchenginejournal.com/infographic-googles-200- ranking-factors/64316/>. Acesso em: 20 mar. 2014. DEMPSEY, Lorcan. The Library Catalogue in the New Discovery Environment: Some Thoughts. Ariadne, Bath, n. 48, jul. 2006. Disponível em: <http://www.ariadne.ac.uk/issue48/dempsey>. Acesso em: 15 mar. 2014. FAST, Karl V.; CAMPELL, D. Grant. “I Still Like Google”: University Student Perceptions of Searching OPACs and the Web. In: ASISDT ANNUAL MEETING, 67., 2004, Ontario. Proceedings... Ontario: Interscience.wiley.com, 2004. 9 p. Disponível em: <http://www.academia.edu/375917/_I_Still_Like_Google_University_Student_Perceptions_o f_Searching_OPACs_and_the_Web>. Acesso em: 15 mar. 2014. GATENBY, Janifer. Accessing library materials via Google and Other Web Sites. BiD: textos universitaris de biblioteconomia i documentació, Barcelona, n. 19, dez. 2007. Disponível em: <http://bid.ub.edu/19gatenb.htm>. Acesso em: 15 mar. 2014. GRAY, Brian C.. Transforming the OPAC: Web 2.0, Mobile, and Discovery. Case Western Reserve University, Cleveland, 2012. 47 slides, color. Disponível <http://pt.slideshare.net/bcg8/transforming-the-opacweb-20-mobile-and-discovery>. em: Acesso em: 15 mar. 2014. GRIFFI, Patrick; FORD, Cyrus. Enhancing OPAC Records for Discovery. Information Technology And Libraries, Brisbane, v. 28, n. 4, p. 191-193, dez. 2009. Disponível em: < http://dx.doi.org/10.6017/ital.v28i4.3233>. Acesso em: 15 mar. 2014. JACKSON, Mark. Track XML or server-side files using Google Analytics. MJ Digital, United Kingdom, 2010. Disponível em: <http://www.mjdigital.co.uk/blog/track-xml-orserver-side-files-using-google-analytics/>. Acesso em: 20 jan. 2014. MI, Jia; WENG, Cathy. Revitalizing the Library OPAC: Interface, Searching, and Display Challenges. Information Technology And Libraries, Brisbane, v. 27, n. 1, p.5-22, mar. 2008. Disponível em: <http://dx.doi.org/10.6017/ital.v27i1.3259>. Acesso em: 15 mar. 2014. 4066 �MOORE, Alex. Tracking PDFs and Other Downloads Inside Google Analytics... ServerSide! LunaMetrics, Pittsburgh, 4 jun. 2013. Disponível em: <http://www.lunametrics.com/blog/2013/06/04/tracking-pdfs-google-analytics-server-side/>. Acesso em: 20 jan. 2014. SCHNEIDER, Karen G.. How OPACs Suck. ALA Tech Source, Chicago, 2006. Disponível em: <http://www.alatechsource.org/blog/2006/03/how-opacs-suck-part-1-relevance-rank-or- the-lack-of-it.html>. Acesso em: 15 mar. 2014. TAY, Aaron. How is Google different from traditional Library OPACs & databases? Musings about librarianship, Singapore, 8 maio 2012. Disponível em: <http://musingsaboutlibrarianship.blogspot.com.br/2012/05/how-is-google-differentfrom.html>. Acesso em: 15 mar. 2014. 4067 � Dublin Core The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/. Title A name given to the resource SNBU - Edição: 18 - Ano: 2014 (UFMG - Belo Horizonte/MG) Subject The topic of the resource Biblioteconomia Documentação Ciência da Informação Bibliotecas Universitárias Description An account of the resource Tema: Bibliotecas Universitárias e o Acesso Público à Informação: articulando leis, tecnologias, práticas e gestão Creator An entity primarily responsible for making the resource SNBU - Seminário Nacional de Bibliotecas Universitárias Publisher An entity responsible for making the resource available UFMG Language A language of the resource pt Type The nature or genre of the resource Evento Coverage The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant Belo Horizonte (Minas Gerais) Event A non-persistent, time-based occurrence. Metadata for an event provides descriptive information that is the basis for discovery of the purpose, location, duration, and responsible agents associated with an event. Examples include an exhibition, webcast, conference, workshop, open day, performance, battle, trial, wedding, tea party, conflagration. Dublin Core The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/. Title A name given to the resource Aumentando o alcance e a visibilidade de catálogo online e repositórios institucionais com a ajuda do Google Creator An entity primarily responsible for making the resource Ferreira, Giuliano Coverage The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant Belo Horizonte (Minas Gerais) Publisher An entity responsible for making the resource available UFMG Date A point or period of time associated with an event in the lifecycle of the resource 2014 Language A language of the resource pt Type The nature or genre of the resource Evento Description An account of the resource Este trabalho propõe uma série de procedimentos para aumentar o alcance, a visibilidade e o número de acessos de Catálogos Online, conhecidos como Online Public Access Catalogs (OPACs), e Repositórios Institucionais, com a ajuda do sistema de buscas do Google. Analisa as diversas abordagens dos mecanismos de buscas da Internet e os compara com sistemas de pesquisas institucionais, particularmente de bibliotecas universitárias. Apresenta os objetivos por trás do processo de otimização dos catálogos e repositórios. Descreve os procedimentos utilizados no desenvolvimento e apresenta detalhes do sistema planejado para o gerenciamento da mesma. Aponta as medidas adotadas para prover um melhor funcionamento do sistema. Destaca as mudanças de comportamento dos pesquisadores atuais e propõe uma nova abordagem para alcançar, monitorar e atender esses usuários. Analisa, então, os resultados parciais alcançados durante o período do projeto piloto. Conclui, apontando os aspectos vantajosos que devem ser considerados na implantação de um projeto dessa natureza.