Paralelização de Algoritmos de Processamento de Língua Natural em Multiprocessadores (proposal)

From L²F

Proposta de Tese de Mestrado 2007/2008

Orientação

Objectivos

Este trabalho tem como objectivo a aplicação de técnicas de programação paralelas a algoritmos de processamento de corpora para aplicação à resolução de problemas de engenharia da língua natural.

Descrição

O processamento de língua natural necessita de recorrer a corpora (colecções de material contendo evidência linguística dos fenómenos em estudo) que podem apresentar grandes dimensões. O processamento destes materiais é, em geral, um processo computacionalmente pesado, necessitando de recursos significativos, tanto em termos de espaço, como em termos de tempo.

Actualmente, o espaço tem vindo a decrescer de custo, permitindo, por um lado, o crescimento e riqueza de descrição dos dados, mas, por outro, aumenta a quantidade de dados a processar. Se o custo do armazenamento baixou, o custo do tempo é sempre indesejável se for alto e, apesar da melhoria dos equipamentos, os algoritmos podem continuar a demorar semanas para produzir um resultado.

Resultado Esperado

O resultado esperado é um conjunto de algoritmos paralelizados e comparação de desempenho com as versões originais. É esperada também uma possível metodologia para reescrita de algoritmos sequenciais sob forma paralela para o processador Cell Broadband Engine (IBM), utilizado, por exemplo, na PlayStation 3 da Sony. Deve ser ainda analisada a relação custo-benefício (sob vários aspectos: velocidade, complexidade, tempo/dificuldade de codificação) para a aplicação da abordagem paralela.

Observações

Apontam-se como vantajosos, conhecimentos de algoritmia, estatística; assim como domínio de conceitos de arquitectura de computadores, multiprocessamento e sistemas distribuídos. Conhecimentos básicos da área do processamento de língua natural não são estritamente necessários, mas são convenientes.