logotipo ence

 

Tardes Culturais.
v_SEMIC.
Seloge.
Processo Seletivo 2022.
Processo Seletivo 2022.
Livro 20 anos PPG
Núcleo ENCE Covid-19
Agenda de Eventos Externos
SAS
1/9 
start stop bwd fwd

 
 
 
atividades
 
 
LogoHub
 
 
ico rbe.fw
 
 

Apresentação de Monografia da Graduação de Thiago Pereira Meirelles

ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS

Graduação em Estatística

Apresentação de Monografia

A Escola Nacional de Ciências Estatísticas convida para a apresentação de Monografia da Graduação intitulada:

Pareamento de Textos Curtos – Uma Abordagem Híbrida Baseada em Similaridades Léxica e Embeddings Semânticos

Aluno: Thiago Pereira Meirelles

Orientador: Eduardo Corrêa Gonçalves

Data: 10 de agosto de 2021Terça-feira

Horário: 15h00m

Link: https://ibge.webex.com/ibge/j.php?MTID=me9ee3fd376e22ee997b929c2151944ba

Número da reunião: 179 533 8189

Senha: TCC20211

Resumo da Monografia: O pareamento de textos é a tarefa de escolher, dentre um conjunto de textos, qual deles faz menção ao mesmo conceito ou objeto que um determinado texto de entrada faz. Baseando-se em medidas de similaridade textual que atuam nos níveis alfabético, léxico e semântico, este trabalho compara a performance de estratégias automatizadas de pareamento que utilizam tais medidas de forma isolada ou combinada. A performance foi avaliada através de experimento que consistiu no pareamento de descrições de produtos e serviços obtidos dos questionários de duas pesquisas do Instituto Brasileiro de Geografia e Estatística (IBGE): Pesquisa de Orçamentos Familiares (POF) e Índices de Preços do Consumidor (IPC). Em consonância com o observado em outros trabalhos, uma estratégia que combina medidas de similaridade diferentes, que atuam nos três níveis mencionados, obteve melhor performance, realizando um maior número de pareamentos corretos, quando comparada a estratégias que empregam apenas uma das medidas isoladamente. Uma investigação dos pareamentos incorretos produzidos pela melhor estratégia foi feita com os objetivos de categorizar tipos de erros e propor abordagens adicionais que melhorem a acurácia.

Palavras-chave: Pareamento de bases de dados. Similaridade semântica. Processamento de linguagem natural.

Banca examinadora:

Eduardo Corrêa Gonçalves (ENCE/IBGE) – Orientador

Daniel Takata Gomes (ENCE/IBGE) - Coorientador

Cassio Freitas Pereira de Almeida (ENCE/IBGE)

José André de Moura Brito (ENCE/IBGE)

Coordenação de Graduação

Gustavo Henrique Mitraud Assis Rocha

Endereço: Rua André Cavalcanti, 106 - Bairro de Fátima - CEP 20231-050 - Rio de Janeiro