ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS
Defesa de Monografia |
A Escola Nacional de Ciências Estatísticas convida para a defesa de Monografia da Graduação intitulada:
“Mineração de Textos Aplicada às Notícias Esportivas”
Aluno: Alexandre Gomes Ferreira
Orientador: José André de Moura Brito
Data: 24 de junho de 2019 – segunda-feira
Horário: 17h00m
Local: Ence – Rua André Cavalcanti, 106 – Sala 306 – Bairro de Fátima
Resumo da Monografia: O volume de dados no mundo digital vem crescendo substancialmente nos últimos anos, e os dados do tipo texto correspondem a maior parte desses dados. Por esse motivo, surge a necessidade de uma metodologia que possibilite extrair conhecimentos desses tipos de dados. Enquanto há disponível uma grande quantidade de dados associados às redes sociais; no concerne aos dados associados às notícias esportivas, os dados não estão disponíveis de forma estruturada, o que restringe e dificulta a aplicação de análises e extração do conhecimento do texto. Ainda neste sentido, tais notícias são de grande interesse para um público variado, visto que o esporte apresenta um benefício incalculável para a sociedade, além de ser uma excelente fonte de entretenimento. Considerando tal questão, o presente trabalho visa aplicação de uma metodologia que possibilitará extrair conhecimentos imprescindíveis de textos de notícias esportivas. Para isso, foi utilizada uma base de dados dos textos de notícias das principais modalidades esportivas publicadas no ano de 2017, no portal globoesporte.com. A aplicação da metodologia foi dividida em duas etapas, quais sejam: (i) a primeira focada na mineração de textos, tendo como o principal objetivo a estruturação de uma base de dados de notícias e termos, mediante aplicação de algumas técnicas de mineração de textos. (ii) a segunda etapa consistiu na extração de conhecimentos e padrões dos textos, mediante aplicação da análise de agrupamentos; sendo principal objetivo agrupar as notícias de acordo com seu conteúdo. Para agrupar as notícias foram considerados dois algoritmos de agrupamento não-hierárquico, a saber: k-means e CLARA. As soluções (grupos) produzidas por esses algoritmos foram avaliadas e validadas mediante aplicação de dois critérios de validação (relativo e externo). Os resultados da metodologia aplicada foram satisfatórios, principalmente, no que diz respeito ao algoritmo CLARA, que produziu os melhores agrupamentos de notícias
Banca examinadora:
José André de Moura Brito (ENCE/IBGE) – Orientador
Flávio Marcelo Tavares Montenegro (ENCE/IBGE)
Sandra Canton Cardoso (ENCE/IBGE)
Gustavo Silva Semaan (UFF/INFES)
Coordenação de Graduação
Gustavo Henrique Mitraud Assis Rocha