logotipo ence

 

ENCEemFOCO_N2.
SiSU 2024
Catalogo de Projetos 2023
Nota 5 Post para Facebook
Núcleo ENCE Covid-19
Agenda de Eventos Externos
SAS
1/7 
start stop bwd fwd

 
 
  

Vídeo Institucional
 
 
 
ungp brazil hub logo md
 
 
 
ico rbe.fw
 
 
 
banner com qrcode completo

Apresentação de Monografia da Graduação de Thiago Pereira Meirelles

ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS

Graduação em Estatística

Apresentação de Monografia

A Escola Nacional de Ciências Estatísticas convida para a apresentação de Monografia da Graduação intitulada:

Pareamento de Textos Curtos – Uma Abordagem Híbrida Baseada em Similaridades Léxica e Embeddings Semânticos

Aluno: Thiago Pereira Meirelles

Orientador: Eduardo Corrêa Gonçalves

Data: 10 de agosto de 2021Terça-feira

Horário: 15h00m

Link: https://ibge.webex.com/ibge/j.php?MTID=me9ee3fd376e22ee997b929c2151944ba

Número da reunião: 179 533 8189

Senha: TCC20211

Resumo da Monografia: O pareamento de textos é a tarefa de escolher, dentre um conjunto de textos, qual deles faz menção ao mesmo conceito ou objeto que um determinado texto de entrada faz. Baseando-se em medidas de similaridade textual que atuam nos níveis alfabético, léxico e semântico, este trabalho compara a performance de estratégias automatizadas de pareamento que utilizam tais medidas de forma isolada ou combinada. A performance foi avaliada através de experimento que consistiu no pareamento de descrições de produtos e serviços obtidos dos questionários de duas pesquisas do Instituto Brasileiro de Geografia e Estatística (IBGE): Pesquisa de Orçamentos Familiares (POF) e Índices de Preços do Consumidor (IPC). Em consonância com o observado em outros trabalhos, uma estratégia que combina medidas de similaridade diferentes, que atuam nos três níveis mencionados, obteve melhor performance, realizando um maior número de pareamentos corretos, quando comparada a estratégias que empregam apenas uma das medidas isoladamente. Uma investigação dos pareamentos incorretos produzidos pela melhor estratégia foi feita com os objetivos de categorizar tipos de erros e propor abordagens adicionais que melhorem a acurácia.

Palavras-chave: Pareamento de bases de dados. Similaridade semântica. Processamento de linguagem natural.

Banca examinadora:

Eduardo Corrêa Gonçalves (ENCE/IBGE) – Orientador

Daniel Takata Gomes (ENCE/IBGE) - Coorientador

Cassio Freitas Pereira de Almeida (ENCE/IBGE)

José André de Moura Brito (ENCE/IBGE)

Coordenação de Graduação

Gustavo Henrique Mitraud Assis Rocha

Endereço: Rua André Cavalcanti, 106 - Bairro de Fátima - CEP 20231-050 - Rio de Janeiro