Paralelização de Algoritmos de Processamento de Língua Natural em Ambientes Distribuídos (proposal)

From L²F

Proposta de Tese de Mestrado 2007/2008

Orientação

Objectivos

Este trabalho tem como objectivo a aplicação de técnicas de programação paralelas a algoritmos de processamento de corpora para aplicação à resolução de problemas de engenharia da língua natural.

Descrição

O processamento de língua natural necessita de recorrer a corpora (colecções de material contendo evidência linguística dos fenómenos em estudo) que podem apresentar grandes dimensões. O processamento destes materiais é, em geral, um processo computacionalmente pesado, necessitando de recursos significativos, tanto em termos de espaço, como em termos de tempo.

Actualmente, o espaço tem vindo a decrescer de custo, permitindo, por um lado, o crescimento e riqueza de descrição dos dados, mas, por outro, aumenta a quantidade de dados a processar. Se o custo do armazenamento baixou, o custo do tempo é sempre indesejável se for alto e, apesar da melhoria dos equipamentos, os algoritmos continuam a demorar semanas para produzir um resultado.

Resultado Esperado

O resultado esperado é um conjunto de algoritmos paralelizados e comparação de desempenho com as versões originais. É esperado que as implementações dos algoritmos sejam adequadas ao processamento em ambiente grid, por forma a poder beneficiar dos recursos computacionais disponibilizados por terceiros.

Observações

Apontam-se como vantajosos, conhecimentos de algoritmia, estatística, sistemas distribuídos, assim como conhecimentos básicos (a desenvolver) da área do processamento de língua natural.