RECONHECIMENTO DE COORDENADAS ESPACIAIS EM TEXTOS DE LINGUAGEM NATURAL UTILIZANDO BERTIMBAU

Mestrado
PPEC
2024.1
A disciplina ofertada para alunos de Engenharia Cartográfica e de Agrimensura no semestre letivo de 2025.1.
Published

January 3, 2025

RESUMO

O presente estudo tem como objetivo desenvolver um método baseado em aprendizado profundo para o reconhecimento e extração de coordenadas espaciais em textos de linguagem natural, utilizando o BERTimbau. A metodologia adotada envolve a coleta e anotação de um conjunto de dados composto por documentos fundiários que contenham referências geoespaciais. O modelo foi ajustado por meio de ine-tuning para a tarefa de Reconhecimento de Entidades Nomeadas, utilizando técnicas como tokenização WordPiece e ajuste de hiperparâmetros a partir de validação cruzada (k=5). A avaliação será realizada por meio das métricas F1-score, precisão e revocação, comparando o desempenho do modelo ajustado com a versão não treinada do BERTimbau. Os resultados preliminares indicam bom desempenho do BERTimbau para o REN de coordenadas espaciais (F1-score = 0,804) a partir da configuração da taxa de aprendizado de 5 x 10 −5 , tamanho do batch 8 e 5 épocas. Ruídos de OCR, desbalanceamento das classes BIO e fragmentação por janelamento foram desafios identificados no experimento piloto. Ao tratar coordenadas como entidades-alvo, a pesquisa expande o geoparsing para além de topônimos e sinaliza potencial de automação confiável na análise documental em engenharia, cadastro e regularização fundiária.