logotipo ence

 

Evento.
Dia do Estatístico.
Recomendações.
Seloge.
Processo Seletivo 2022.
Processo Seletivo 2022.
Livro 20 anos PPG
Núcleo ENCE Covid-19
Agenda de Eventos Externos
SAS
01/10 
start stop bwd fwd

 
 
 
atividades
 
 
ungp brazil hub logo md
 
 
ico rbe.fw
 
 

Apresentação de Monografia da Graduação de Thiago Pereira Meirelles

ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS

Graduação em Estatística

Apresentação de Monografia

A Escola Nacional de Ciências Estatísticas convida para a apresentação de Monografia da Graduação intitulada:

Pareamento de Textos Curtos – Uma Abordagem Híbrida Baseada em Similaridades Léxica e Embeddings Semânticos

Aluno: Thiago Pereira Meirelles

Orientador: Eduardo Corrêa Gonçalves

Data: 10 de agosto de 2021Terça-feira

Horário: 15h00m

Link: https://ibge.webex.com/ibge/j.php?MTID=me9ee3fd376e22ee997b929c2151944ba

Número da reunião: 179 533 8189

Senha: TCC20211

Resumo da Monografia: O pareamento de textos é a tarefa de escolher, dentre um conjunto de textos, qual deles faz menção ao mesmo conceito ou objeto que um determinado texto de entrada faz. Baseando-se em medidas de similaridade textual que atuam nos níveis alfabético, léxico e semântico, este trabalho compara a performance de estratégias automatizadas de pareamento que utilizam tais medidas de forma isolada ou combinada. A performance foi avaliada através de experimento que consistiu no pareamento de descrições de produtos e serviços obtidos dos questionários de duas pesquisas do Instituto Brasileiro de Geografia e Estatística (IBGE): Pesquisa de Orçamentos Familiares (POF) e Índices de Preços do Consumidor (IPC). Em consonância com o observado em outros trabalhos, uma estratégia que combina medidas de similaridade diferentes, que atuam nos três níveis mencionados, obteve melhor performance, realizando um maior número de pareamentos corretos, quando comparada a estratégias que empregam apenas uma das medidas isoladamente. Uma investigação dos pareamentos incorretos produzidos pela melhor estratégia foi feita com os objetivos de categorizar tipos de erros e propor abordagens adicionais que melhorem a acurácia.

Palavras-chave: Pareamento de bases de dados. Similaridade semântica. Processamento de linguagem natural.

Banca examinadora:

Eduardo Corrêa Gonçalves (ENCE/IBGE) – Orientador

Daniel Takata Gomes (ENCE/IBGE) - Coorientador

Cassio Freitas Pereira de Almeida (ENCE/IBGE)

José André de Moura Brito (ENCE/IBGE)

Coordenação de Graduação

Gustavo Henrique Mitraud Assis Rocha

Endereço: Rua André Cavalcanti, 106 - Bairro de Fátima - CEP 20231-050 - Rio de Janeiro