TOPIXTRACT

TOPIXTRACT

Trata-se de um sistema composto por 4 componentes, 3 módulos gráficos (aplicações) e uma base de dados relacional.

No primeiro módulo, o administrador do sistema tem de configurar as opções necessárias para que os textos sejam processados e introduzidos na base de dados.

A Próxima imagem ilustra este módulo.

TOPIXTRACT-FirstModule
TOPIXTRACT-FirstModule

Os campos que podemos observar permitem ao administrador do sistema cconfigurar vários campos de configuração:
Alguns destes campos são descritos na lista abaixo:

  • “Insert Prefix Size number” – O tamanho do prefixo de uma palavra a ser considerado. (Necessário para algumas medidas com bons resultados para as linguas altamente flexionadas)
  • “Insert Language Prefix” – Esta necessidade advém da possibilidade de ter na mesma base de dados documentos de diversas línguas distintas. Visto que este protótipo resulta independentemente da língua que se esteja a trabalhar.
  • “Project Short Name” – Podemos ter também varis grupos de documentos relativos a âmbitos diferentes, daí a possibilidade de atribuir um nome de projecto a um conjunto de documentos a tratar.
  • Possui também campos para configurar as várias directorias de configuração a usar no arranque do sistema.
    • Uma delas é “Files Folder Location” – directoria onde estão localizados os ficheiros txt ( em UTF8 ) que formam o corpus a tratar ( Nota: Quantos mais documentos e extensos melhor.

Depois destas configurações o administrador tem acesso a dois botões, um que lhe permite abrir uma consola que mostrará um log das operações que estão a ser efetuadas pelo módulo.
O botão de arranque “Run” que inicio o processamento e carregamento para a base de dados relacional.


O segundo módulo é a aplicação onde avaliadores humanos ( linguistas ) vão avaliar, de acordo com regras estabelecidas à priori, os tópicos extraídos utilizando as várias medidas disponiveis, neste momento medidas que têm como base Tf-Idf e Chi-Quadrado.

Apresenta algumas caracteristicas, nomeadamente a de o avaliador ter de fazer um “login” por forma a, quando a informação de uma determinada avaliação for feita, esta poder ser facilmente seguida.

Módulo 2 - Primeiro Passo
Módulo 2 - Primeiro Passo

Seguindamente descreve-se a funcionalidade de alguns campos.

  • “Insert Evaluator Name” – Campo onde o Avaliador escreve o nome que o identifica.
  • “Botão Set” – Serve para que o nome do avalidor seja guardado em BD, e activa os demais campos.
  • Componentes relativos a trabalhar com a informação de documentos
    • “Choose Language of Documents” Campo onde o avaliador filtra os documentos pela língua dos mesmos.
    • “Choose Document Project” Como os documentos podem estar associados a projectos especificos, estes podem ser escolhidos neste campo. Caso contrário aparecerão todos os documentos disponiveis naquela língua.
  • Existem componentes relativos a trabalhar especificamente ccom os termos de cada Documento
    • Por exemplo “Number of Terms to Get” O avaliador escolhe o número de termos a carregar para cada documento, opções de 25, 50 e 100 disponíveis.

As Seguintes Imagens, mostram o Módulo 2 em fazes mais avançadas de utilização por parte de um avaliador.
Pode-se observar nas mesmas, um documento seleccionado da lista, bem como a listagem de termos mais bem pontuados para a medida Tf-Idf.

Módulo 2
Módulo 2 - Segundo Passo
Módulo 2
Módulo 2 - Terceiro Passo

Seguidamente descrevem-me mais alguns campos em mais pormenor.

  • O conteúdo do documento aparece nos seguintes campos “Document treated Content” e “Document Original Content”
  • Evaluation Buttons, servem para o avaliador clossificar os termos apresentados, numa das 4 categorias possíveis, que são “Good”, “Near Good”,“Bad” and “Unkown”.
  • “Save Evaluation” Permite ao avaliador guardar a avaliação que efectuou numa base de dados, para posteriormente ser trabalhada no módulo 3. Como veremos a seguir.

O terceiro módulo que constitui o sistema e a aplicação permite ter acesso aos resultados de precisão e cobertura resultantes das avaliação de determinado avaliador.

Bem como a ter acesso a gráficos de correlação entre avaliadores distintos sobre um mesmo documento. Outras funcionalidades existem, mas saem do âmbito para descrever nesta página.

Na seguinte imagem pode-se ver uma panorâmica do terceiro módulo, num estado inicial.

Third Module - Empty Overview
Third Module - Empty Overview

 

Qualquer informação adicional, não hesite em contactar-me.

lstteixeira.org