ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS
Pós-Graduação em População, Território e Estatísticas Públicas
Defesa de Dissertação de Mestrado
A Escola Nacional de Ciências Estatísticas convida para a Defesa de Dissertação de Mestrado intitulada: “Tamanho de amostra de treinamento para Classificadores Supervisionados: uma discussão a partir de dados sobre a agropecuária brasileira”
Aluno: Raphael Molina Guimarães
Data: 22 de agosto de 2022 – Segunda-Feira
Horário: 09:00
Local: Por videoconferência
Resumo: O cenário global, de indisponibilidade de recursos destinados aos Institutos Nacionais de Estatística, impõe o desafio cada vez maior de se produzir mais, e melhores, estatísticas com menos recursos, ou seja, aumentar a quantidade e manter a qualidade das informações divulgados diante de uma menor disponibilidade de orçamento. O pareamento de dados surge, nesse contexto, como uma alternativa mais barata de atualização de cadastros, bem como aquisição de dados e geração de estatística, por parte dos Institutos Oficiais, por meios alternativos às pesquisas amostrais e aos censos tradicionais. A literatura acerca do pareamento indica que métodos assistidos performam melhor do que os não-assistidos. No entanto, a seleção de uma amostra de treinamento envolve aspectos como sua composição e a definição do seu tamanho, variáveis estas que trazem complexidade ao processo. A fim de fomentar o debate sobre o assunto, esta dissertação compara tamanhos de amostra de treinamento para a geração de classificadores, buscando identificar aquele que mostre melhor desempenho na classificação assistida de pares de estabelecimentos agropecuários quando comparado aos outros, diante de diferentes cenários. Isto se dá a partir de um conjunto de experimentos realizados com os dados do Censo Agropecuário de 2017 e do Cadastro Central de Empresas de 2018. As métricas utilizadas a fim de comparar o desempenho dos diferentes classificadores diante dos diversos tamanhos de amostra são: precisão, sensibilidade, Estatística-F (combinação de precisão e sensibilidade) e uma Estatística-F alternativa (proposta pelo autor). Por fim, os resultados aqui apresentados corroboram com os encontrados na literatura, mostrando que conjuntos de treinamento maiores não necessariamente geram melhores classificadores.
Dra. Andrea Diniz da Silva (ENCE/IBGE) – Orientadora
Dr. Pedro Luis do Nascimento Silva (ENCE/IBGE)
Dr. Cristiano Ferraz (UFPE)
Coordenação de Pós-Graduação