logotipo ence

 

Processo Seletivo 2022.
Evento.
Dia do Estatístico.
Recomendações.
Seloge.
Processo Seletivo 2022.
Livro 20 anos PPG
Núcleo ENCE Covid-19
Agenda de Eventos Externos
SAS
01/10 
start stop bwd fwd

 
 
 
atividades
 
 
ungp brazil hub logo md
 
 
ico rbe.fw
 
 

Defesa de Dissertação de Raphael Molina Guimarães

ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS

Pós-Graduação em População, Território e Estatísticas Públicas

 Defesa de Dissertação de Mestrado

A Escola Nacional de Ciências Estatísticas convida para a Defesa de Dissertação de Mestrado intitulada: Tamanho de amostra de treinamento para Classificadores Supervisionados: uma discussão a partir de dados sobre a agropecuária brasileira

Aluno: Raphael Molina Guimarães

Data: 22 de agosto de 2022Segunda-Feira

Horário: 09:00

Local: Por videoconferência

Resumo: O cenário global, de indisponibilidade de recursos destinados aos Institutos Nacionais de Estatística, impõe o desafio cada vez maior de se produzir mais, e melhores, estatísticas com menos recursos, ou seja, aumentar a quantidade e manter a qualidade das informações divulgados diante de uma menor disponibilidade de orçamento. O pareamento de dados surge, nesse contexto, como uma alternativa mais barata de atualização de cadastros, bem como aquisição de dados e geração de estatística, por parte dos Institutos Oficiais, por meios alternativos às pesquisas amostrais e aos censos tradicionais. A literatura acerca do pareamento indica que métodos assistidos performam melhor do que os não-assistidos. No entanto, a seleção de uma amostra de treinamento envolve aspectos como sua composição e a definição do seu tamanho, variáveis estas que trazem complexidade ao processo. A fim de fomentar o debate sobre o assunto, esta dissertação compara tamanhos de amostra de treinamento para a geração de classificadores, buscando identificar aquele que mostre melhor desempenho na classificação assistida de pares de estabelecimentos agropecuários quando comparado aos outros, diante de diferentes cenários. Isto se dá a partir de um conjunto de experimentos realizados com os dados do Censo Agropecuário de 2017 e do Cadastro Central de Empresas de 2018. As métricas utilizadas a fim de comparar o desempenho dos diferentes classificadores diante dos diversos tamanhos de amostra são: precisão, sensibilidade, Estatística-F (combinação de precisão e sensibilidade) e uma Estatística-F alternativa (proposta pelo autor). Por fim, os resultados aqui apresentados corroboram com os encontrados na literatura, mostrando que conjuntos de treinamento maiores não necessariamente geram melhores classificadores.

Banca examinadora:

Dra. Andrea Diniz da Silva (ENCE/IBGE) – Orientadora

Dr. Pedro Luis do Nascimento Silva (ENCE/IBGE)

Dr. Cristiano Ferraz (UFPE)

Coordenação de Pós-Graduação

Endereço: Rua André Cavalcanti, 106 - Bairro de Fátima - CEP 20231-050 - Rio de Janeiro