Defesa de Dissertação de Raphael Molina Guimarães

Você está aqui: Início

Divulgação

Seminários e Defesas

Defesa de Dissertação de Raphael Molina Guimarães

4° Workshop ENCE e o Mercado de Trabalho

01/11

Vídeo Institucional

Revista Brasileira
de Estatística

Defesa de Dissertação de Raphael Molina Guimarães

ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS

Pós-Graduação em População, Território e Estatísticas Públicas

Defesa de Dissertação de Mestrado

A Escola Nacional de Ciências Estatísticas convida para a Defesa de Dissertação de Mestrado intitulada: “Tamanho de amostra de treinamento para Classificadores Supervisionados: uma discussão a partir de dados sobre a agropecuária brasileira”

Aluno: Raphael Molina Guimarães

Data: 22 de agosto de 2022 – Segunda-Feira

Horário: 09:00

Local: Por videoconferência

Resumo: O cenário global, de indisponibilidade de recursos destinados aos Institutos Nacionais de Estatística, impõe o desafio cada vez maior de se produzir mais, e melhores, estatísticas com menos recursos, ou seja, aumentar a quantidade e manter a qualidade das informações divulgados diante de uma menor disponibilidade de orçamento. O pareamento de dados surge, nesse contexto, como uma alternativa mais barata de atualização de cadastros, bem como aquisição de dados e geração de estatística, por parte dos Institutos Oficiais, por meios alternativos às pesquisas amostrais e aos censos tradicionais. A literatura acerca do pareamento indica que métodos assistidos performam melhor do que os não-assistidos. No entanto, a seleção de uma amostra de treinamento envolve aspectos como sua composição e a definição do seu tamanho, variáveis estas que trazem complexidade ao processo. A fim de fomentar o debate sobre o assunto, esta dissertação compara tamanhos de amostra de treinamento para a geração de classificadores, buscando identificar aquele que mostre melhor desempenho na classificação assistida de pares de estabelecimentos agropecuários quando comparado aos outros, diante de diferentes cenários. Isto se dá a partir de um conjunto de experimentos realizados com os dados do Censo Agropecuário de 2017 e do Cadastro Central de Empresas de 2018. As métricas utilizadas a fim de comparar o desempenho dos diferentes classificadores diante dos diversos tamanhos de amostra são: precisão, sensibilidade, Estatística-F (combinação de precisão e sensibilidade) e uma Estatística-F alternativa (proposta pelo autor). Por fim, os resultados aqui apresentados corroboram com os encontrados na literatura, mostrando que conjuntos de treinamento maiores não necessariamente geram melhores classificadores.

Banca examinadora:

Dra. Andrea Diniz da Silva (ENCE/IBGE) – Orientadora

Dr. Pedro Luis do Nascimento Silva (ENCE/IBGE)

Dr. Cristiano Ferraz (UFPE)

Coordenação de Pós-Graduação