quarta-feira, 27 de abril de 2011

Software faz correferência em textos de Língua Portuguesa

Por Valéria Dias - Agência Usp

É o primeiro software direcionado especificamente para textos
No Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, uma pesquisa de mestrado resultou em um software que realiza automaticamente a correferência em múltiplos documentos em Língua Portuguesa. O programa identifica uma mesma entidade, pessoa, lugar, evento ou conceito em um ou em vários textos. O software poderá ser aplicado em sistemas de perguntas e respostas, extração de informação, tradução automática, simplificação textual e sumarização automática.

“Trata-se do primeiro software desenvolvido no Brasil direcionado especificamente para textos em Língua Portuguesa. O outro diferencial é que o programa faz a correferência automaticamente, sem haver necessidade de treinar a máquina como ocorre em outros programas semelhantes”, explica Jefferson Fontinele da Silva, autor do trabalho.

Segundo ele, os programas já existentes foram desenvolvidos para textos em outros idiomas e necessitam de um treinamento para que o computador possa fornecer a correferência dos elementos do texto. Silva desenvolveu o projeto para sua dissertação de mestrado intitulada Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado. O trabalho foi orientado pelo professor João Luis Garcia Rosa, do Departamento de Ciências da Computação do ICMC, e será apresentado na unidade no próximo dia 5 de maio.


Para entender o que é correferência, Silva usa como exemplo textos que citam uma mesma pessoa diversas vezes. Com o software, é possível identificar em quais momentos do texto a pessoa é citada, mesmo que ela não tenha sido citada pelo nome. Por exemplo, no caso da frase “Maria nasceu no Brasil. A professora viajou ontem para a Europa, onde pretende viajar pela França e Itália”, o software encontra os diferentes trechos de texto que se referem a Maria, como no exemplo, ”Maria” e ”A professora”. Em textos onde várias entidades são citadas, o software fornece a correferência para todas elas, separadamente.


Programa identifica a expressão "três membros da tripulação" em notícias sobre um mesmo assunto publicadas no Jornal do Brasil, Folha de S.Paulo e O Estado de S.Paulo

Contextualização
De acordo com o pesquisador, no caso de alguns buscadores na internet, a correferência é feita por meio da comparação de palavras. Já o software desenvolvido no ICMC fornece a correferência por meio das análises sintática e semântica, que é feita automaticamente. Na análise sintática, o software identifica o sujeito, o verbo e os complementos das frases. Já na semântica, o programa contextualiza as palavras. “Isso é bastante útil para aplicação do software em tradução automática, pois ajuda o computador a contextualizar o que está sendo traduzido”, aponta.

No projeto desenvolvido por Silva, foram utilizados textos jornalísticos sobre um mesmo assunto publicados em jornais como Folha de S.Paulo, O Estado de S.Paulo, Jornal de Brasília e O Globo. Esses textos foram inseridos no software manualmente. Após a análise sintática e semântica dos documentos, bem como da aplicação dos algoritmos estatísticos, o software apresenta a correlação de entidades, pessoas, lugares ou eventos, conforme o que tiver sido solicitado ao programa. “A precisão em encontrar o que foi solicitado gira em torno de 65%”, aponta o pesquisador. Segundo ele, essa precisão é comparável com a obtida em sistemas que necessitam de aprendizado.

Nenhum comentário:

Postar um comentário