TOPIXTRACT
Trata-se de um sistema composto por 4 componentes, 3 módulos gráficos (aplicações) e uma base de dados relacional.
No primeiro módulo, o administrador do sistema tem de configurar as opções necessárias para que os textos sejam processados e introduzidos na base de dados.
A Próxima imagem ilustra este módulo.
Os campos que podemos observar permitem ao administrador do sistema cconfigurar vários campos de configuração:
Alguns destes campos são descritos na lista abaixo:
- “Insert Prefix Size number” – O tamanho do prefixo de uma palavra a ser considerado. (Necessário para algumas medidas com bons resultados para as linguas altamente flexionadas)
- “Insert Language Prefix” – Esta necessidade advém da possibilidade de ter na mesma base de dados documentos de diversas línguas distintas. Visto que este protótipo resulta independentemente da língua que se esteja a trabalhar.
- “Project Short Name” – Podemos ter também varis grupos de documentos relativos a âmbitos diferentes, daí a possibilidade de atribuir um nome de projecto a um conjunto de documentos a tratar.
- Possui também campos para configurar as várias directorias de configuração a usar no arranque do sistema.
- Uma delas é “Files Folder Location” – directoria onde estão localizados os ficheiros txt ( em UTF8 ) que formam o corpus a tratar ( Nota: Quantos mais documentos e extensos melhor.
Depois destas configurações o administrador tem acesso a dois botões, um que lhe permite abrir uma consola que mostrará um log das operações que estão a ser efetuadas pelo módulo.
O botão de arranque “Run” que inicio o processamento e carregamento para a base de dados relacional.
O segundo módulo é a aplicação onde avaliadores humanos ( linguistas ) vão avaliar, de acordo com regras estabelecidas à priori, os tópicos extraídos utilizando as várias medidas disponiveis, neste momento medidas que têm como base Tf-Idf e Chi-Quadrado.
Apresenta algumas caracteristicas, nomeadamente a de o avaliador ter de fazer um “login” por forma a, quando a informação de uma determinada avaliação for feita, esta poder ser facilmente seguida.

Seguindamente descreve-se a funcionalidade de alguns campos.
- “Insert Evaluator Name” – Campo onde o Avaliador escreve o nome que o identifica.
- “Botão Set” – Serve para que o nome do avalidor seja guardado em BD, e activa os demais campos.
- Componentes relativos a trabalhar com a informação de documentos
- “Choose Language of Documents” Campo onde o avaliador filtra os documentos pela língua dos mesmos.
- “Choose Document Project” Como os documentos podem estar associados a projectos especificos, estes podem ser escolhidos neste campo. Caso contrário aparecerão todos os documentos disponiveis naquela língua.
- Existem componentes relativos a trabalhar especificamente ccom os termos de cada Documento
- Por exemplo “Number of Terms to Get” O avaliador escolhe o número de termos a carregar para cada documento, opções de 25, 50 e 100 disponíveis.
As Seguintes Imagens, mostram o Módulo 2 em fazes mais avançadas de utilização por parte de um avaliador.
Pode-se observar nas mesmas, um documento seleccionado da lista, bem como a listagem de termos mais bem pontuados para a medida Tf-Idf.
![]() |
![]() |
Seguidamente descrevem-me mais alguns campos em mais pormenor.
- O conteúdo do documento aparece nos seguintes campos “Document treated Content” e “Document Original Content”
- Evaluation Buttons, servem para o avaliador clossificar os termos apresentados, numa das 4 categorias possíveis, que são “Good”, “Near Good”,“Bad” and “Unkown”.
- “Save Evaluation” Permite ao avaliador guardar a avaliação que efectuou numa base de dados, para posteriormente ser trabalhada no módulo 3. Como veremos a seguir.
O terceiro módulo que constitui o sistema e a aplicação permite ter acesso aos resultados de precisão e cobertura resultantes das avaliação de determinado avaliador.
Bem como a ter acesso a gráficos de correlação entre avaliadores distintos sobre um mesmo documento. Outras funcionalidades existem, mas saem do âmbito para descrever nesta página.
Na seguinte imagem pode-se ver uma panorâmica do terceiro módulo, num estado inicial.

Qualquer informação adicional, não hesite em contactar-me.
lst…teixeira.org