<?xml version="1.0" encoding="UTF-8"?>
<item xmlns="http://omeka.org/schemas/omeka-xml/v5" itemId="5083" public="1" featured="0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://omeka.org/schemas/omeka-xml/v5 http://omeka.org/schemas/omeka-xml/v5/omeka-xml-5-0.xsd" uri="http://repositorio.febab.libertar.org/items/show/5083?output=omeka-xml" accessDate="2026-04-20T15:43:22-07:00">
  <fileContainer>
    <file fileId="4151">
      <src>http://repositorio.febab.libertar.org/files/original/47/5083/SNBU2006_114.pdf</src>
      <authentication>ab74dd66c468121b5dc97a7091c43b7b</authentication>
      <elementSetContainer>
        <elementSet elementSetId="4">
          <name>PDF Text</name>
          <description/>
          <elementContainer>
            <element elementId="92">
              <name>Text</name>
              <description/>
              <elementTextContainer>
                <elementText elementTextId="55661">
                  <text>Classificando Automaticamente Documentos
Digitais no Site de Notı́cias do UOL
Elias Oliveira, Patrick Marques Ciarelli,
Marcos Hercules Santos e Bruno Oliveira da Costa
Departamento de Ciências da Informação
Universidade Federal do Espı́rito Santo
Campus de Goiabeiras, Av. Fernando Ferrari, s/n,
Cx Postal 5011, 29060-970 – Vitória, ES.
http://www.inf.ufes.br/∼elias
elias@inf.ufes.br
Resumo
O crescente volume de documentos tem trazido preocupações metodológicas
entre os profissionais da área de Ciências da Informação. Se por um lado
temos o difı́cil problema da escolha acertada de documentos contendo a informação desejada pelo usuário/cliente, de outro lado temos o árduo trabalho da pré-organização destes mesmos documentos para posterior recuperação.
Acrescenta-se a esse contexto a falta de pessoal em que, em geral, vivem as
unidades de informação neste paı́s. Este trabalho apresenta um modelo de
representação algébrica de documentos textuais, o qual pode ser uma alternativa metodológica para o problema de classificação de documentos. Utilizamos
como forma de comparação de nosso processo automático, documentos já classificados por especialistas em site de notı́cias UOL. Os resultados se mostram
promissores indicando que tal metodologia poderia ser utilizada na organização
de documentos em uma biblioteca digital.
Palavras-chave: Classificação automática, Modelo vetorial, Recuperação da
informação, Biblioteca Digital.

1

Introdução

O volume de informação codificada disponı́vel ao público, de maneira geral, vem
crescendo vertiginosamente desde a iniciativa da imprensa de Gutemberg (CHARTIER,
1998). Hoje, o fato de termos maior acesso à diversas informações via a grande rede
Internet e a facilidade de publicarmos o que quisermos nesta rede, vem inundandonos de informação de uma forma jamais vista na história da humanidade (TEIXEIRA;
SCHIEL, 1997).
1

�Por outro lado, o excedente informacional produzido nestes últimos anos, em
particular na Internet, trouxe junto consigo uma nova dificuldade aos usuários da informação eletrônica (MARCONDES; SAYÃO, 2002). Em conseqüência disso, vemos que
cada vez mais torna-se crı́tico o problema de identificação da informação especificamente relevante para um usuário alvo. Isso nos leva ao caos organizacional provocado
por essa enxurrada de documentos disponı́veis na rede e, ainda, a falta de ferramental
apropriado para o tratamento dessa informação. Essa carência temos evidenciado nos
atuais sistemas de busca que ainda produzem uma alta revocação e baixa precisão
na informação recuperada.
Neste contexto apresenta-se um dos grandes desafios aos profissionais da informação de hoje (CUNHA, 2005): lidar de forma produtiva com a informação dispersa
na Internet. Não temos como ignorar este grande repositório de informação que é a
Internet, mas não podemos deixar somente por conta do usuário o árduo trabalho
de garimpar pedras preciosas, por ele almejadas, neste moderno repositório digital.
Mesmo nesta nova estrutura do mundo moderno, devemos nos preocupar em fornecer
a cada livro seu leitor (GIGANTE, 1995), como nos diz a terceira lei fundamental de
Ranganathan (1996), ou reformulando esta lei para os novos meios eletrônicos: a cada
porção de informação o seu consumidor.
Assim, este artigo trata da apresentação de uma metodologia que vem sendo utilizada para lidar automaticamente com uma grande massa de documentos no que diz
respeito a indexação destes, utilizando-se da extração dos termos relevantes do documento. A partir desta metodologia, utilizaremos um modelo vetorial de representação
dos documentos para avaliarmos similaridades entre os mesmos. Com isso produziremos classes de documentos segundo seus enfoques temáticos. Compararemos estes
resultados, produzidos de forma automática, com aqueles gerados pelo especialista
humano para avaliarmos a eficácia e eficiência desta metodologia automática.
Este artigo está organizado da seguinte forma: Na Seção 2 fazemos uma breve
revisão da literatura relacionada com o trabalho desenvolvido aqui. Apresentamos
alguns modelos para representação abstrata de documentos para manipulação automática. Nossos experimentos são apresentados na Seção 3. Nossa conclusão é
apresentada na Seção 4, onde também lançamos algumas idéias para futuros trabalhos.

2

Lidando com Documentos Digitais

Muitas iniciativas têm surgido nos últimos anos no sentido de disponibilizar uma
larga quantidade de materiais bibliográficos. Mais recentemente tivemos, também,
iniciativa como a Google Book Search (http://books.google. com) com o projeto de digitalizar o acervo de várias bibliotecas de universidades Norte-Americanas,
incluindo algumas no Brasil. Indo em sentido semelhante, já a algum tempo importantes editores de jornais cientı́ficos vêm disponibilizando seus acervos em meio
digital.
A parte esses projetos milionários, podemos constatar o crescente número de
bibliotecas digitais de dissertação e teses que estão sendo implantadas recentemente
2

�(CUNHA; MCCARTHY, 2006) no Brasil. Entretanto, para realmente tirarmos proveito
desse imenso acervo digital que está sendo formado aqui e no mundo, será necessário
que processemos, de forma mais inteligente (POLTRONIERI; OLIVEIRA, 2005) as muitas
páginas de esforço intelectual que estão sendo disponibilizadas e, também muitas
outras que estão à caminho.
O processo manual de organização documental pode ser feito por profissionais
da informação, como bibliotecários, ou por especialistas da área de conhecimento
do corpus (FUJITA, 2003). Entretanto este processo é lento e requer a presença
constante de um especialista, esse nem sempre disponı́vel. Packer (1998) aponta o
elevado tempo gasto para a extração de elementos da estrutura de um documento
para a construção dos metadados na publicação de uma revista eletrônica.
Além disso, mesmo utilizando uma equipe de profissionais qualificados e uma
polı́tica de indexação consistente para a organização documental, a subjetividade
desse processo pode levar à situações em que um mesmo documento poderá ser representado de diferentes formas (FERNEDA; PINHEIRO, 2005). Em conseqüêcia destes
inconvenientes, a alternativa do uso de uma metodologia automatizada pode auxiliar
o profissional da informação a realizar o tratamento técnico documental trazendo,
dessa forma, várias vantagens, como por exemplo poupar do indexador o trabalho de
realizar uma leitura exaustiva dos documentos para a escolha de descritores dos mesmos (DZIEKANIAK; KIRINUS, 2004, pag. 32). Diante disso precisamos repensar o fazer
tradicional de organização bibliográfico para que possamos dar conta de acompanhar
o crescimento dessa massa documental.
Nas próximas seções introduziremos o assunto do tratamento automático de texto.
Para isso começaremos com o processo de indexação. Os modelos que iremos apresentar ainda estão longe de reproduzirem o especialista humano quando fazendo a mesma
tarefa, porém o que desejamos é alcançar um resultado com qualidade aceitável em
um tempo bem inferior àquele quando tendo um humano na realização da mesma
tarefa.

2.1

Indexação Automática

A indexação é uma etapa importante do tratamento técnico documental para facilitar
a recuperação da informação (PIEDADE, 1977). Esta etapa consiste em extrair termos
de um documento que melhor represente seu conteúdo. Há décadas os profissionais
da informação vêm desempenhando essa atividade. Porém, com a explosão documental surge a necessidade destes profissionais utilizarem métodos mais automatizados
para a indexação (LANCASTER, 2003). Soma-se ao alto desempenho do processo
automático a redução da subjetividade nos processos manuaias de indexação (MAMFRIM, 1991, p. 191). Indexação automática é, segundo Robredo apud (SILVA; FUJITA,
2004), qualquer procedimento que permita identificar e selecionar os termos que representem o conteúdo dos documentos, sem a intervenção direta do documentarista.
Como no processo manual, os métodos automáticos de indexação consistem também
em extrair os termos que se encontram em certa posição de um documento, como por
exemplo no tı́tulo ou no resumo (LANCASTER, 2003). Um outro método alternativo
3

�de indexação consiste em se escolher os termos de indexação através da contagem
de palavras que ocorram com uma determinada freqüência, em um documento como
todo.
A indexação automática baseada na freqüência de termos surgiu na década de 50
(LANCASTER, 2003). Contudo, não são quaisquer palavras que servem como termo
de indexação. O sistema automático utiliza-se de uma lista de palavras proibidas,
as quais possuem pouco significado semântico. Tais palavras, portanto, não serão
consideradas como termos de indexação. Às palavras relevantes para a indexação
devemos encontrar pesos apropriados para distinguir umas das outras no contexto
em estudo. Buscar os melhores pesos para tais termos não é uma tarefa trivial,
entretanto com ajuda de modelos Matemáticos e técnicas de Inteligência Artificial
poderemos obter bons resultados, como veremos a seguir neste trabalho.
Na seção seguinte iremos apresentar uma metodologia de representação algébrica
de documentos. Nesta metodologia, os documentos são representados de forma vetorial baseados na freqüência de ocorrência de seus termos. Como conseqüência desta
representação seremos capazes de lidar com uma base de dados de documentos com
instrumentos vindos da Matemática e Estatı́stica.

2.2

Alguns Modelos de Representação de Documentos

Em virtude da grande massa documental existente no mundo contemporâneo, urge
utilizarmos alguma forma abstrata para representação destes documentos para então
tratarmos. A literatura (BAEZA-YATES; RIBIERO-NETO, 1998) é rica em apresentar
modelos de representação de documentos textuais. Entre muitos outros modelos de
representação podemos citar as Redes Neurais Artificiais (HAYKIN, 1998), os processos estatı́sticos Bayesianos (PEARL, 1988), a técnica Latent Semantic Indexing (LSI)
(BERRY, 2003; BERRY; DUMAIS; O’BRIEN, 1995), entre outras.
A maioria dos métodos utilizados, em particular o escolhido para os experimentos nesta pesquisa, fazem uso da comparação lexical entre as palavras existentes no
ı́ndice dos documentos para a realização do processo de classificação dos documentos
ali representados. Isto acontece por ser ainda muito custosos, do ponto de vista computational, técnicas como as de extração automática de ontologia formal e análise
conceitual destes documentos como as apontatas por Alvarenga (2001), ou mesmo da
extração dos sintagmas como propõem outros autores (KURAMOTO, 2002).
Neste trabalho estaremos adotando o modelo vetorial de representação de documentos textuais. Escolhemos este modelo pela simplicidade de implementação e por
atender bem aos propósitos ilustrativos deste trabalho.
2.2.1

Representação Vetorial de Documentos

No modelo por nós adotado neste trabalho, o vetorial, os documentos são representados por vetores no espaço Rn (BAEZA-YATES; RIBIERO-NETO, 1998). n representa
o número de termos-palavras nos documentos considerados. Cada documento é considerado portanto um vetor de termos. Formalizando o que foi dito acima, consideremos um conjunto de documentos D = {d1 , d2 , . . . , dj , . . . , dn }, onde di é um dos
4

�elementos deste conjunto. O documento di será representado portanto por um vetor
de pesos di = [w1 , w2 , . . . , wk , wk+1 , wk+2, . . . , wn ], sendo que k é o número de todos
termos {t1 , t2 , . . . , tk } distintos que aparecem no documento di . Os demais termos
{tk+1 , tk+2 , . . . , tn }, associados aos pesos [. . . , wk+1, wk+2, . . . , wn ], são termos que aparecem em outros documentos. Portanto, {t1 , t2 , . . . , tk , tk+1 , tk+2 , . . . , tn } são todos os
termos do vetor do documento di e a freqüência dos termos tk+1 = tk+2 = . . . tn = 0
neste vetor. Assim, podemos concluir que um termo (palavra no documento) pode
aparecer em mais de um documento. Portanto, a cada termo será atribuı́do um
peso wi . Este peso será relativo a ocorrência do termo ti , tanto no documento onde
ele aparece em relação aos demais termos deste mesmo documento, como também
quanto ao número de documentos do conjunto em que o termo aparece. Através disso
ponderamos a importância deste termo no conjunto de documentos onde o mesmo
aparece. Uma das propostas de ponderação desta importância apresentada na literatura (BAEZA-YATES; RIBIERO-NETO, 1998) é dado pela função idfi = log nNi , onde
idfi (inverse document frequency) é o valor desta ponderação para o termo ti , N é o
total de documentos no conjunto D e ni o número de documentos em que o termo
ti aparece. Com esta função queremos tornar sensı́vel o fato de que se um termo
aparece em todos os documentos, esta função assumirá valor próximo de zero.
Tabela 1: Representação vetorial de um documento.
Índice i Peso wi
Termo ti
d1
1
3
campeonato
2
1
brasileiro
3
1
próximo
4
1
fim
5
1
foi
6
1
prejudicado
7
1
desorganização
8
2
times
9
1
famosos
10
1
poderão
11
1
rebaixados
12
1
entrando
13
1
justiça
14
1
pedir
15
1
anulação

Para dar uma ilustração do formalizado acima, vejamos este exemplo dos procedimentos de construção do vetor representativo do documento dado a seguir. Considere
que tenhamos a seguinte notı́cia na área de esporte: – d1 : O campeonato brasileiro
está próximo ao fim. Tal campeonato foi muito prejudicado pela desorganização e
times famosos poderão ser rebaixados. Alguns times estão entrando na Justiça para
5

�pedir a anulação do campeonato.
Primeiramente devemos excluir as palavras sem muito significado: os artigos e
preposições, por exemplo. São as stop words (BAEZA-YATES; RIBIERO-NETO, 1998).
Ficamos com a seguinte lista de palavras apresentada na Tabela 2.2.1 quando analizarmos o documento d1 . Para facilitação do entendimento, neste exemplo estaremos
considerando a influência dos idf = 1 para todos pesos dos termos. Outra estratégia
que estaremos adotando neste trabalho será a de utilizarmos na representação vetorial do documento apenas as palavras que tiverem peso maior que 50% do termo de
maior peso. No caso da Tabela 2.2.1 o termo de maior peso é a palavra campeonato,
com peso 3. Assim somente utilizaremos aquelas palavras com peso igual ou superior
a 3/2 = 1, 5. Com isso ficamos somente com campeonato e times para a representação
vetorial deste documento.
Agora considere outros dois documentos que depois do procedimento acima teriam
os seguintes termos representativos:
1. d2 : peso 5 para o termo campeonato, 4 para brasileiro e 3 para times;
2. d3 : peso 2 para o termo campeonato, 3 para brasileiro e 1 para times;
Através deste exemplo ilustrativo criado e a representação descrita acima é possı́vel
agora visualizar os três documentos de forma gráfica. Na forma gráfica podemos ver a
relação de distância que existe entre os documentos quando olhamos o ângulo que um
vetor tem com o outro. Este conceito de distância será muito utilizado mais adiante
neste trabalho.
Figura 1: Representação gráfica de três documentos de acordo com o modelo vetorial.
T1

T1

3

T3

3 0 2 d1
5
3
2

d1

T2

d2
d3

1
2

5 4 3 d2
2 3 1 d3

3 4
T2

T3
Na Figura 2.2.1 apresentamos a representação vetorial, de forma gráfica, de três
documentos ilustrativos desta metodologia. Os termos T1 = campeonato, T2 = brasileiro e T3 = times representam os termos que aparecem nos documentos d1 , d2 e d3
6

�representados em vermelho, azul e cinza, respectivamente. No gráfico, o peso dado
ao termo T1 no documento d2 foi 5, enquanto em d3 foi 2, o que significa que este
termo tem uma importância maior para o segundo documento em relação ao terceiro.
Notamos que o termo T2 não ocorre em d1 , por isso está com valor nulo na segunda
posição do vetor representativo deste documento.
Esta forma de representar um documento nos mostra que enquanto nós seres
humanos pensamos, as máquinas fazem contas. Portanto, o que está por trás de um
modelo como esse é o fato de transformar o processo de indexação e classificação em
um processo de contagem para que o computador possa nos auxiliar a tratar grandes
volumes de documentos.
Desta forma, considaremos a pequena base ilustrativa D = {d1 , d2, d3 } de documentos. O que queremos agora é saber precisamente quão similar é um documento
do outro. O que desejamos é calcular o valor de sim(di , dj ) entre quaisquer dois documentos da base. Uma vez tendo a representação vetorial dos documentos da base,
como já feito acima, a conta que agora devemos fazer é a seguinte (BAEZA-YATES;
RIBIERO-NETO, 1998):
di • dj
=
| di | × | dj |
Pn
j
i
k=1 wk × wk
qP
= cos(θ)
= pP
n
n
j 2
i 2
{w
}
×
{w
}
k
k
k=1
k=1

sim(di , dj ) =

(1)
(2)

Onde, | di | é o módulo do vetor di . cos(θ) é o cosseno do ângulo entre os vetores
que representam os dois documentos di e dj . O valor do cosseno de um ângulo varia
em um intervalo de 0 à 1. Esse fato nos dará uma interpretação de distância entre os
documentos, onde 0 significará o mais alto grau de dissimilaridade e 1 de completa
similaridade. Já o valor wki indica o peso referente ao termo tk , no documento di ,
como descrito anteriormente.
Vamos exemplificar utilizando os três documentos ilustrativos acima. Para os
documentos d1 e d2 , a conta é a seguinte:
sim(d1 , d2 ) = √

21
3×5+0×4+2×3
√
=
= 0.82 = cos(θ1,2 )
25.49
3 2 + 02 + 22 × 5 2 + 42 + 32

sim(d1 , d3 ) = √

8
3×2+0×3+2×1
√
=
= 0.59 = cos(θ1,3 )
13.49
3 2 + 02 + 22 × 2 2 + 32 + 12

sim(d2 , d3 ) = √

5×2+4×3+3×1
25
√
= 0.94 = cos(θ2,3 )
=
24.49
5 2 + 42 + 32 × 2 2 + 32 + 12

As contas realizadas acima nos indicam que os documentos d2 e d3 têm o mais
alto grau de similaridade entre os três documentos, 0.94. Note que intuitivamente
podemos visualizar este resultado no gráfico da Figura 2.2.1.
7

�O exemplo acima foi criado de forma a ilustrar as partes importantes do modelo
que estamos abordando, por isso escolhemos situações em que apenas três termos
foram utilizados. Na próxima seção estaremos trabalhando com documentos de mais
de 600 termos, o que não nos permitirá a representação gráfica destes documentos.

3

Pondo à Prova o Modelo Apresentado

Esta seção está dividida em duas partes. Na primeira, Seção 3.1, mostramos como
o modelo escolhido neste trabalho pode ser ajustado com documentos corretamente
classifiados. A expressão corretamente classifiados se refere ao que o(s) especialista(s),
ou grupo social local de indivı́duos, concordam com a diferenciação/similaridade entre
documentos que servirão de parâmetro para o modelo. É com base nesta escolha
inicial que nosso modelo fará as futuras escolhas, agora sim de forma automática. Na
Seção 3.2, fazemos a validação do modelo introduzindo novos documentos para serem
testados de acordo com o modelo de classificação automática.

3.1

Calibrando o Modelo

Os experimentos realizados neste trabalho tiveram como objetivo principal a exemplificação das metodologias algébricas de indexação e de representação de documentos
textuais, como mais uma ferramenta para o profissional da informação. Além disso,
nosso sub-objetivo vai no sentido de mostrar que este conjunto de técnicas pode ser
utilizado para classificar documentos de forma automática (ou semi-automática em
certas circunstâncias em que a máquina não conseguir ter certeza) e, em conseqüência
disso, muito mais rápido do que faria um ser humano. Entendemos que, em muitas
situações do dia-a-dia a máquina não será capaz de superar o especialista humano.
Porém, também entendemos que o especialista está muitas das vezes assorberbado de
pequenas tarefas que, nos dias de hoje, a máquina poderia realizar mais rápido e com
um bom nı́vel de qualidade. Advogamos que agrupamento de documentos textuais,
de interesse de um usuário particular, ou mesmo para outros fins (SANTOS; COSTA;
OLIVEIRA, 2005), seja uma destas atividades.
Utilizamos o repositório de notı́cias RSS do UOL para realização de nossos experimentos. A escolha deste repositório, assim como outros similares, deveu-se ao
fato de caracterizar-se como uma boa fonte de documentos publicamente disponı́vel
e já classificados por especialistas humanos. Desta forma, poderemos comparar os
resultados da classificação de documentos produzidos em nossos experimentos com
os existentes no repositório. Deste repositório extraı́mos, manualmente e ao acaso,
cinco documentos de notı́cias de cada um dos seguintes assuntos: cinema, economia
e esporte.
Como os textos, por vezes são longos, apenas indicamos aqui os hiperlinks onde
os mesmos poderão ser encontrados.

8

�1. Na área de economia:
eco1:
eco2:
eco3:
eco4:
eco5:

http://noticias.uol.com.br/ultnot/economia/2005/11/04/ult35u44044.jhtm
http://noticias.uol.com.br/ultnot/economia/2005/11/04/ult1767u53812.jhtm
http://noticias.uol.com.br/ultnot/economia/2005/11/04/ult1767u53813.jhtm
http://noticias.uol.com.br/economia/ultnot/efe/2005/11/04/ult1767u53802.jhtm
http://noticias.uol.com.br/economia/ultnot/afp/2005/11/04/ult35u44037.jhtm

2. Na área de esportes:
esp1: http://noticias.uol.com.br/ultnot/esporte/2005/11/05/ult1777u36742.jhtm
esp2:http://www.gazetaesportiva.net/ge_noticias/newsarch/ch_119/noticia.php?wt=
uolnot&amp;p=bndpZC0zODk5MDQtbm51bS0g
esp3: http://noticias.uol.com.br/ultnot/esporte/2005/11/05/ult1777u36727.jhtm
esp4: http://noticias.uol.com.br/ultnot/esporte/2005/11/04/ult1777u36710.jhtm
esp5: http://noticias.uol.com.br/ultnot/esporte/2005/11/04/ult1777u36707.jhtm
3. E, por último, na área de cinema:
cin1:
cin2:
cin3:
cin4:
cin5:

http://cinema.uol.com.br/ultnot/2005/11/04/ult32u12544.jhtm
http://www1.folha.uol.com.br/fsp/ilustrad/fq0411200531.htm
http://www1.folha.uol.com.br/fsp/ilustrad/fq3110200520.htm
http://www1.folha.uol.com.br/fsp/ilustrad/fq3010200518.htm
http://cinema.uol.com.br/ultnot/2005/10/16/ult831u1924.jhtm

Os tı́tulos eco1, eco2, eco3, eco4 e eco5 são os documentos da área econômica. Já
os da área esportiva são esp1, esp2, esp3, esp4 e esp5 e os da área de cinema como
cin1, cin2, cin3, cin4 e cin5, respectivamente.
Os algoritmos para extração dos termos de indexação dos documentos foram todos
implementados na linguagem de programação Java. Para a indexação desconsideramos as palavras sem muito significado, como por exemplos: artigos e preposições;
conhecidas na literatura como stop words (BAEZA-YATES; RIBIERO-NETO, 1998).
Após a indexação dos documentos geramos, para cada uma das áreas acima, um
documento artificial contendo somente os termos com freqüência superior a 50% em
relação ao termo de maior freqüência no documento no qual ambos aparecem. Cada
um destes documentos artificiais são dinâmicos, ou seja, sempre que um novo documento vier a ser agrupado em uma dada classe seus termos serão considerados para,
possivelmente, comporem os termos já existentes no documento artificial daquela
classe. Dessa forma, buscamos acompanhar a linguagem correntemente utilizada em
cada área, naquele tempo, uma vez que consideramos a linguagem como um sistema
vivo e, portanto, dinânmico.
A idéia por trás da criação destes documentos artificiais veio de uma técnica muito
conhecida na Estatı́stica como Análise Discriminante de dados (JOHNSON; WICHERN,
1992, cap. 11). Ou seja, estamos dizendo que os termos existentes em cada um
destes documentos artificiais são termos que discriminam, ou separam, os documentos
da classe relacionada ao documento de outras. No modelo por nós adotado neste
trabalho, o vetorial, os documentos são representados por vetores, como descrito na
Seção 2.2.1.
9

�Para sabermos quão similar um documento será do documento discriminante, nós
utilizaremos um procedimento que consiste em se calcular o produto vetorial entre
dois vetores (veja Equações (1) e (2), na Seção 2.2.1).
Com esta metodologia, transformamos o procedimento de análise de documentos em um procedimento de cálculo. Portanto, o espaço de busca por documentos
similares se torna um sub-espaço do Rn , onde estaremos interessados em encontrar
vetores que mais se assemelhem a um dado vetor, que no nosso experimento será o
vetor representativo da classe, o documento discriminante.
Tabela 2: Cálculo de similaridade entre os documentos analizados e os discriminates
das classes – parte I.

Classes de Documentos

cin1
cin2
cin3
cin4
cin5
eco1
eco2
eco3
eco4
eco5
esp1
esp2
esp3
esp4
esp5

cinema
0.499
0.417
0.408
0.512
0.399
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.03
0.0
0.0

economia
0.0
0.0
0.0
0.0
0.053
0.415
0.626
0.357
0.409
0.643
0.0
0.0
0.0
0.01
0.0

esporte
0.0
0.039
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.419
0.418
0.467
0.552
0.370

Os resultados obtidos com estes experimentos estão apresentados na Tabela 2.
Nesta tabela, as colunas cinema, economia e esporte representam os documentos discriminantes citados acima. As linhas da tabela representam os documentos utilizados
para este experimento. Assim, podemos ver que os documentos se agrupam com mais
alto grau de similaridade em torno dos documentos discriminantes de suas respectivas
classes. Por outro lado, o grau de similaridade deste com respeito à outras classes
é bem mais baixo, quando não é nulo. Por exemplo, o documento cin5 tem uma
similaridade de 0.399 com o documento cinema enquanto, por outro lado, tem uma
similaridade de 0.053 com a classe de economia. Uma similaridade bem baixa como
podemos ver. Um outro exemplo é o documento eco2 que tem uma similaridade de
0.626 com o documento discriminante de economia, economia, e zero com as demais
10

�classes.
Em dados não apresentados na tabela mencionada acima, pudemos constatar que
o documento eco4 obteve uma alta similaridade com eco1, 0.418, maior do que o valor
apresentado em relação ao documento discriminante de economia. O que pudemos
perceber analisando os dois documentos é que eco1 e eco4 falam sobre o mesmo
assunto: bolsa de valores.
Um outro exemplo curioso foi com respeito ao documento esp2. Este documento
apresenta similaridade zero em relação à todos os outros documentos utilizados como
exemplos, inclusive alguns da classe de esporte. Em nosso entendimento, isso foi
possı́vel dado a grande variedade de esportes e modalidades dos mesmos. Portanto,
ao analisar a notı́cia existente neste documento, esp2, descobrimos que o assunto se
tratava de handebol, enquanto os documentos esp1, esp4 e esp5 relatam futebol e
esp3 motovelocidade. Porém, isso não nos trouxe nenhuma dificuldade em classificálo corretamente como sendo de esporte, com um alto grau de similaridade de 0.418
como mostra a Tabela 2.
Para considerarmos um documento como pertencente à uma determinada classe,
adotamos um ponto de corte pc. Desta forma, bastará calcularmos a similaridade
do novo documento em relação aos documentos discriminantes, se a similaridade
deste documento for menor que este pc, significará que este documento pode, ou
não, pertencer à classe do documento discriminante. Se este dado documento estiver
abaixo do valor de pc de todos as outras classes, pode-se adotar a alternativa de
se deixar a cargo do especialista humano a decisão de escolher a que classe esse
documento melhor se enquadraria. O valor pc é calculado através do procedimento
descrito a seguir.
Considere a média mc , onde c representa a classe sendo avaliada, de similaridade
dos documentos corretamente classificados em uma classe. Por exemplo, no caso
apresentado na Tabela 2, nós temos cinco documentos corretamente classificados em
economia. A média de similaridades destes documentos é portanto calculada da
seguinte forma:
0.415 + 0.626 + 0.357 + 0.409 + 0.643
= 0.49
5
Agora temos que adotar um limite inferior de similaridade que representará nosso
ponto de corte pc. Para isso calculamos o desvio padrão através da fórmula:
meconomia =

dp =

�

(d1 − mc )2 + (d2 − mc )2 + . . . + (dn − mc )2
n

�1/2

Finalmente, o ponto de corte é calculado da seguinte forma:
pc = mc − dp = 0.370
Para o exemplo mostrado na Tabela 2, temos na Tabela 3 os respectivos valores
de ponto de corte para cada uma das classes.
Note que estes pontos de corte conseguem decidir que, cin2 com similaridade 0.417
com a classe de cinema, pertence a esta classe e não a classe de esporte, com uma
11

�Tabela 3: Cálculo dos valores de ponto de corte para cada uma das classes consideradas nos experimentos.

Ponto de Corte para as Classes

pc:

cinema
0.399

economia
0.370

esporte
0.384

similaridade de 0.039, já que o ponto de corte para esporte exigiria que o documento
tivesse um grau de similaridade maior que 0.384. Neste sentido é interessante é
notar que o documento esp5 estaria fora da classe de esporte por ter um grau de
similaridade com o documento discriminador da classe inferior ao ponto de corte
para esta classe, de apenas 0.370. Este seria o caso onde o especialista humano
deverá tomar a decisão de escolher a que classe esse documento melhor se enquadraria.
Todavia, este especialista humano tem agora uma pré-análise deste documento em
que, de acordo com esta pré-análise o documento teria mais chances de pertencer à
classe de esportes e não as outras, as quais este documento não tem nenhuma aparente
afinidade (ver Tabela 2).
Nessa metodologia, quanto maior o número de documentos representativos de
cada classe melhor será o processo decisório para os novos documentos. Isso é devido ao fato de que os documentos já classificados corretamente servirão de base,
no tocante a variabilidade de seus termos, para os cálculos feitos acima. Portanto,
como já dissemos anteriormente, a cada novo documento que é classificado em uma
determinada classe, este novo documento ensina ao modelo novas lições, através da
introdução de novos termos ao documento discriminante da classe.
Para validar o processo descrito acima, na próxima seção escolheremos outros três
documentos e avaliar se a técnica apresentada consegue distinguı́-los em uma das três
classes apresentadas acima.

3.2

Classificando Novos Documentos

Uma vez tendo gerado uma base de dados com documentos classficados corretamente,
podemos agora utilizar o modelo/sistema para tentarmos classificar automaticamente
outros documentos. Desta forma, escolhemos outros três documentos, dentre as três
classes, para mostrarmos como se daria o processo como um todo.
Os documentos escolhidos foram:
cin6: http://noticias.uol.com.br/ultnot/efe/2005/01/30/ult1817u2706.jhtm
eco6:http://noticias.uol.com.br/economia/ultnot/efe/2006/04/20/ult1767u65477.jhtm
esp6:http://espnbrasil.uol.com.br/scripts/noticia/artigo.asp?idArtigo=38669

O cálculo de similaridade foi suficiente para determinar a classe para dois dos três
documentos acima selecionados. Os documentos nas áreas de economia e esportes,
12

�Tabela 4: Cálculo de similaridade entre os documentos analizados e os discriminates
das classes – parte II.

Classes de Documentos

cin6
eco6
esp6

cinema
0.296
0.000
0.120

economia
0.000
0.575
0.000

esporte
0.000
0.000
0.541

eco6 e esp6, respectivamente, têm seus valores de similaridades acima do ponto de
corte determinado na tabela 3. Todavia, vemos que o modelo não foi capaz de
identificar, com alto grau de precisão a classe para o mesmo. O documento cin6 tem
um grau de similaridade com a classe cinema de 0.296, quando o ponto de corte para
a classe de cinema é de 0.399. Este é o momento onde, como já apontamos em outro
caso anterior, a interferência humana se faz necessária.
Mesmo quando não conseguimos com grande grau de certeza apontar uma classe
para um determinado documento, o modelo que apresentamos aqui indicará qual das
classes tal documento terá maior afinidade. Assim, o especialista humano terá uma
sugestão a mais para sua tomada de decisão. Quando este especialista decidir colocar
o documento cin6 associado a classe cinema, ele estará fazendo com que o modelo
aprenda. Isto se dá pelo fato de que uma nova contagem deverá ser realizada com os
termos existentes entre os documentos da classe e, em decorrência disso, o ponto de
corte pc será alterado, dando assim uma dinamicidade ao modelo.

4

Conclusão

Diante do crescimento vertiginoso de repositórios de informação no Brasil e também
no mundo. O problema que surge daı́ é no como recuperarmos de forma mais inteligente a informação necessária para o nosso usuário/cliente. Os métodos tradicionais
de tratamento da informação não são mais compatı́veis com repositórios do tamanho
da Internet. Portanto, para novos problemas devemos buscar novas soluções.
Este artigo discute a representação abstrata de documentos. A representação
vetorial escolhida neste trabalho é tal que, nos permite representar graficamente um
documento e visualizá-lo, quando em até três dimensões. Desta representação extraise os termos que servirão de ı́ndices para tais documentos.
Os documentos sendo representatos através de vetores, nos permite utilizar o
cálculo do ângulo entre vetores como medida de similaridade entre quaisquer dois
documentos. Com isso obtemos uma forma, automática, de agrupamento destes
documentos em classes de semelhança.

13

�Para testar o modelo apresentado neste trabalho, escolhemos um conjunto de
documentos já previamente classificado pelo especialista humano. Com isso submetemos os documentos ao modelo de indexação e, posteriormente, a classificação. Os
resultados nos mostraram que o modelo trouxe, de forma automática, a mesma classificação dada pelo especialista humano. Entendemos que mais testes precisarão ser
realizados, entretanto, os experimentos nos mostrou da possibilidade de utilização
desta ferramenta para auxı́lio ao especiliasta de classificação.
Esperamos em breve estarmos avaliando esta mesma ferramenta em uma comparação com a classificação manual de dissertações e teses em nossa biblioteca digital.

Referências
ALVARENGA, L. A Teoria do Conceito Revisitada em Conexão com Ontologias
e Metadados no Contexto das Bibliotecas Tradicionais e Digitais. DataGramaZero
– Revista de Ciência da Informação, v. 2, n. 6, 2001. Disponı́vel em:
&lt;http://www.dgzero.org/dez01/F I art.htm&gt;.
BAEZA-YATES, R.; RIBIERO-NETO, B. Modern Information Retrieval. 1. ed.
New York: Addison-Wesley, 1998.
BERRY, M. W. Survey of Text Mining: Clustering, Classification, and Retrieval.
New York: Springer-Verlag, 2003.
BERRY, M. W.; DUMAIS, S. T.; O’BRIEN, G. W. Using Linear Algebra for
Intelligent Information Retrieval. SIAM Review, v. 37, n. 4, p. 537–595, 1995.
CHARTIER, R. A Aventura do Livro – do Leitor ao Navegador – Conversações com
Jean Lebrun &amp; Roger Chartier. São Paulo: Ed. da UNESP, 1998.
CUNHA, M. B. A Biblioteca em Tempos de Internet. Janeiro 2005. Disponı́vel em:
&lt;http://gnomo.fe.up.pt/∼ci02005/blog/Newsletter-A-Informacao.pdf&gt;.
CUNHA, M. B.; MCCARTHY, C. Estado Atual das Bibliotecas Digitais no Brasil.
In: MARCONDES, C. H. et al. (Ed.). Bibliotecas Digitais: Saberes e Práticas. 2. ed.
Salvador/Brası́lia: UFBA/IBICT, 2006. cap. 2, p. 25–54.
DZIEKANIAK, G. V.; KIRINUS, J. B. WEB Semântica. Encontros Bibli: Revista
Eletrônica de Biblioteconomia e Ciência da Informação, v. 2, n. 18, p. 20–40, 2004.
Disponı́vel em: &lt;www.encontros-bibli.ufsc.br/Edicao 18/2 Web Semantica.pdf&gt;.
FERNEDA, E.; PINHEIRO, C. Rrepresentação Dinâmica de Documentos em
Bibliotecas Digitais. São Paulo, Novembro 2005.
FUJITA, M. S. L. A Identificação de Conceitos no Processo de Análise de Assunto
para Indexação. Revista Digital de Biblioteconomia e Ciência da Informação, v. 1,
n. 1, 2003. Disponı́vel em: &lt;http://eprints.rclis.org/archive/00003723/&gt;.
14

�GIGANTE, M. C. Os Sistemas de Classificação Bibliográfica como Interface
Biblioteca/Usuário. Ciência da Informação, v. 25, n. 2, 1995.
HAYKIN, S. Neural Networks – A Comprehensive Foundation. [S.l.]: Pearson
Education, 1998.
JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Anaysis. New
Jersey: Prentice Hall, 1992.
KURAMOTO, H. Sintagmas Nominais: uma Nova Proposta para a Recuperação de
Informação. DataGramaZero – Revista de Ciência da Informação, v. 3, n. 1, 2002.
Disponı́vel em: &lt;http://www.dgz.org.br/fev02/F I art.htm&gt;.
LANCASTER, F. W. Indexação e Resumos: Teoria e Prática. 2. ed. Illinois:
University of Illinois, 2003.
MAMFRIM, F. P. B. Representação de Conteúdo via Indexação Automática em
Textos Integrais em Lı́ngua Portuguesa. Ciência da Informação, v. 20, n. 2, p.
191–203, 1991.
MARCONDES, C. H.; SAYÃO, L. F. Documentos Digitais e Novas Formas de
Cooperação entre Sistemas de Informação em C&amp;T. Ciência da Informação, Brası́lia,
v. 37, n. 3, p. 42–54, 2002.
PACKER, A. L. SciELO: uma Metodologia para Publicação Eletrônica. Ciência da
Informação, v. 27, n. 2, 1998.
PEARL, J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible
Inference. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1988.
PIEDADE, M. A. R. Introdução á Teoria da Classificação. 2. ed. Rio de Janeiro:
Interciência, 1977.
POLTRONIERI, A.; OLIVEIRA, E. Finding Related Articles by a Bibliometric
Approach. In: 9o International Congress on Medical Librarianship. Salvador: [s.n.],
2005.
RANGANATHAN, S. R. Five Laws of Library Science. 1. ed. [S.l.]: Stosius
Inc/Advent Books Division, 1996.
SANTOS, M. N. dos; COSTA, B. O. da; OLIVEIRA, E. Utilizando Comparações
Ponderadas em Classificação Automática de Documentos. In: III Simpósio
Internacional de Bibliotecas Digitais. São Paulo: [s.n.], 2005.
SILVA, M. R. da; FUJITA, M. S. L. A Prática de Indexação: Análise da Evolução e
Tendências Teóricas e Metodológica. TransInformação, v. 0, n. 0, p. 133–161, 2004.
TEIXEIRA, C. M.; SCHIEL, U. A Internet e seu Impacto nos Processos de
Recuperação da Informação. Ciência da Informação, v. 26, n. 1, 1997.
15

�</text>
                </elementText>
              </elementTextContainer>
            </element>
          </elementContainer>
        </elementSet>
      </elementSetContainer>
    </file>
  </fileContainer>
  <collection collectionId="47">
    <elementSetContainer>
      <elementSet elementSetId="1">
        <name>Dublin Core</name>
        <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
        <elementContainer>
          <element elementId="50">
            <name>Title</name>
            <description>A name given to the resource</description>
            <elementTextContainer>
              <elementText elementTextId="51378">
                <text>SNBU - Edição: 14 - Ano: 2006 (UFBA - Salvador/BA)</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="49">
            <name>Subject</name>
            <description>The topic of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="51379">
                <text>Biblioteconomia&#13;
Documentação&#13;
Ciência da Informação&#13;
Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="41">
            <name>Description</name>
            <description>An account of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="51380">
                <text>Tema: Acesso livre à informação científica e bibliotecas universitárias.</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="39">
            <name>Creator</name>
            <description>An entity primarily responsible for making the resource</description>
            <elementTextContainer>
              <elementText elementTextId="51381">
                <text>SNBU - Seminário Nacional de Bibliotecas Universitárias</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="45">
            <name>Publisher</name>
            <description>An entity responsible for making the resource available</description>
            <elementTextContainer>
              <elementText elementTextId="51382">
                <text>UFBA</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="40">
            <name>Date</name>
            <description>A point or period of time associated with an event in the lifecycle of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="51383">
                <text>2006</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="44">
            <name>Language</name>
            <description>A language of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="51384">
                <text>Português</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="51">
            <name>Type</name>
            <description>The nature or genre of the resource</description>
            <elementTextContainer>
              <elementText elementTextId="51385">
                <text>Evento</text>
              </elementText>
            </elementTextContainer>
          </element>
          <element elementId="38">
            <name>Coverage</name>
            <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
            <elementTextContainer>
              <elementText elementTextId="51386">
                <text>Salvador (Bahia)</text>
              </elementText>
            </elementTextContainer>
          </element>
        </elementContainer>
      </elementSet>
    </elementSetContainer>
  </collection>
  <itemType itemTypeId="8">
    <name>Event</name>
    <description>A non-persistent, time-based occurrence. Metadata for an event provides descriptive information that is the basis for discovery of the purpose, location, duration, and responsible agents associated with an event. Examples include an exhibition, webcast, conference, workshop, open day, performance, battle, trial, wedding, tea party, conflagration.</description>
  </itemType>
  <elementSetContainer>
    <elementSet elementSetId="1">
      <name>Dublin Core</name>
      <description>The Dublin Core metadata element set is common to all Omeka records, including items, files, and collections. For more information see, http://dublincore.org/documents/dces/.</description>
      <elementContainer>
        <element elementId="50">
          <name>Title</name>
          <description>A name given to the resource</description>
          <elementTextContainer>
            <elementText elementTextId="55635">
              <text>Classificando automaticamente documentos digitais no site de Notícias do UOL.</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="39">
          <name>Creator</name>
          <description>An entity primarily responsible for making the resource</description>
          <elementTextContainer>
            <elementText elementTextId="55636">
              <text>Oliveira, Elias; Ciarelli, Patrick Marques; Santos, Marcos Hercules; Costa, Bruno Oliveira da Costa</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="38">
          <name>Coverage</name>
          <description>The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant</description>
          <elementTextContainer>
            <elementText elementTextId="55637">
              <text>Salvador (Bahia)</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="45">
          <name>Publisher</name>
          <description>An entity responsible for making the resource available</description>
          <elementTextContainer>
            <elementText elementTextId="55638">
              <text>UFBA</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="40">
          <name>Date</name>
          <description>A point or period of time associated with an event in the lifecycle of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="55639">
              <text>2006</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="51">
          <name>Type</name>
          <description>The nature or genre of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="55641">
              <text>Evento</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="41">
          <name>Description</name>
          <description>An account of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="55642">
              <text>O crescente volume de documentos tem trazido preocupações metodológicas entre os profissionais da área de Ciências da Informação. Se por um lado temos o difícil problema da escolha acertada de documentos contendo a informação desejada pelo usuário/cliente, de outro lado temos o  ́arduo trabalho da pré-organização destes mesmos documentos para posterior recuperação.Acrescenta-se a esse contexto a falta de pessoal em que, em geral, vivem as unidades de informção neste país. Este trabalho apresenta um modelo de representação algébrica de documentos textuais, o qual pode ser uma alternativa metodológica para o problema de classificação de documentos. Utilizamos como forma de comparação de nosso processo automático, documentos já  clasificados por especialistas em site de notícias UOL. Os resultados se mostram promissores indicando que tal metodologia poderia ser utilizada na organização de documentos em uma biblioteca digital.</text>
            </elementText>
          </elementTextContainer>
        </element>
        <element elementId="44">
          <name>Language</name>
          <description>A language of the resource</description>
          <elementTextContainer>
            <elementText elementTextId="68587">
              <text>pt</text>
            </elementText>
          </elementTextContainer>
        </element>
      </elementContainer>
    </elementSet>
  </elementSetContainer>
</item>
