Master's Degree

Degree: Master of Science in Computer Science and Computational Mathematics.

Areas of Research:
Natural Language Processing,
Sentiment Analysis,
Opinion Mining,
Automatic Summarization,
Artificial Intelligence

Project (working) title:
Comparative Summarization of Opinions for Portuguese
Sumarização Comparativa de Opinião para o Português

Alternative names:
Comparative Opinion Summarization, Contrastive Opinion Summarization, COS, Sumarização Comparativa de Opinião, Sumarização Contrastiva de Opinião, Sumarização Contrastiva de Opinião, SCO, Sumarización Comparativa de Opinión, Sumarización Contrastiva de Opinión

Author: Raphael Rocha da Silva

Advisor: Thiago Pardo

Institutions:
University of São Paulo, São Carlos (USP)
Institute of Mathematics and Computer Sciences (ICMC)
Interinstitutional Center for Computational Linguistics (NILC)

Sponsors:
São Paulo Research Foundation (FAPESP) (September 2017 – current)
Coordenação de Aperfeicoamento de Pessoal de Nível Superior (CAPES) (March 2017 – August 2017)

Period:
Start date: March 2017
End date: March 2019 (estimation)

Abstract

Comparative Summarization of Opinions is a task that allows to automatically compare two (or more) items of interest based on opinionated text about them. Given a set of opinionated text about comparable items, a method of comparative summarization of opinions can be used to select those pieces of text that allow one to better understand the differences and similarities among the items.

One scenario where these methods can be used is to compare products based on reviews published on the Internet by people who already purchased them. They are especially useful when the source data (i.e., opinionated text) is too large, because it selects the best excerpts for comparison without the need for a person to read and search large amounts of text.

Abstract in English

This Master's project aims to investigate automatic techniques for comparing opinions. This is done by generating a summary that highlights the differences and similarities between two entities given a set of opinionated text. We aim to describe, implement and evaluate different methods and different output designs for comparative opinion summarization. The input will consist of reviews about consumer electronic products written in Portuguese and extracted from the Web.

Automatic summarization is important because it allows the development of tools that help users to better absorb information from a set of texts. This is especially useful if the set is too large, such as batch data collected from the Internet. Comparative summarization of opinions reaches a more specific part of the problem: the case where a user wants to compare two entities based on a large volume of text that contains other people's opinions of each item individually (not explicitly comparing them).

The methods to summarize opinions developed so far for Portuguese allow the analysis of only a single entity at a time. This may not be sufficient to understand differences between two entities even if one executes them separately over the two entities of interest. For other languages, there are different published methods of comparative opinion summarization that have not yet been tested for Portuguese. Furthermore, it is not known how these methods compare with each other because they use different metrics of evaluation.

These methods will be reproduced so they can be tested and evaluated within the same standard. Their implementations will use previously implemented tools that aid in the preprocessing and post-processing of texts. Eventually, novel methods will be proposed that can resolve possible shortcomings found in the existing methods.

This research will lead to a survey on how useful summaries generated by different methods are. We hypothesize that they are more effective than single-entity opinion summaries to help people understand differences between two entities. This can be beneficial for a person who wants to buy a product and is in doubt between two brands or two models. It can also be useful for a manufacturer to understand how their products rank in relation to their competitors according to popular opinion.

We expect this research will bring contributions both in the academic context and in the practical context. From the practical point of view, it has the potential to enable the development of tools that companies and users demand. In the academy, it will join recent research initiatives in Natural Language Processing and Opinion Mining that have gained prominence in Brazil; this project will proceed their work and bring new ideas that may be used in the future by other researchers.

Abstract in Portuguese:

Este projeto de mestrado pretende investigar métodos que permitem comparar entidades por meio da geração de um resumo que realce diferenças e similaridades entre elas a partir do processamento automático de textos opinativos. Pretende-se descrever, implementar e avaliar métodos de sumarização comparativa de opinião e possíveis formatos que um resumo comparativo pode adotar. Serão usados como entrada textos opinativos em português sobre eletrônicos de uso pessoal extraídos da Web.

A importância da sumarização automática se dá porque ela permite o desenvolvimento de ferramentas que ajudam usuários a absorver melhor as informações de um conjunto de texto, especialmente se esse conjunto for muito grande, como ocorre com dados coletados em massa da Internet. A sumarização comparativa de opinião toca uma parte mais específica do problema: o caso em que um usuário deseja comparar duas entidades a partir de um grande volume de textos opinativos escritos indivudualmente sobre cada item (não havendo comparação explícita entre os items).

Os métodos de sumarização de opinião desenvolvidos até o momento para o português permitem apenas a análise de uma única entidade por vez, o que pode não ser suficiente para se entender diferenças entre duas entidades, mesmo se forem executados separadamente para as duas entidades de interesse. Para outros idiomas, existem diferentes métodos de sumarização comparativa de opinião já publicados que ainda não foram testados para o português, e não se sabe como esses métodos se comparam uns com os outros porque as publicações usam métricas de avaliação muito distintas.

Esses métodos serão reproduzidos para que sejam testados e avaliados dentro de um mesmo padrão, com o uso de ferramentas previamente implementadas que auxiliarão o preprocessamento e pós-processamento dos textos. Eventualmente, serão propostos métodos inovadores que possam resolver possíveis deficiências encontradas nos métodos já existentes.

Esta pesquisa permitirá identificar quanto os resumos gerados por diferentes métodos são úteis para os usuários; conjectura-se que eles são mais eficazes do que resumos de opinião simples na tarefa de ajudar as pessoas a entender diferenças entre duas entidades. Isso pode ser benéfico para uma pessoa que quer comprar um produto e está em dúvida entre duas marcas ou dois modelos. Também pode ser útil para um fabricante entender como seus produtos se posicionam segundo a opinião popular em relação a seus concorrentes.

Espera-se que esta pesquisa traga contribuições tanto no âmbito acadêmico quanto no contexto prático. Do ponto de vista prático, ela tem o potencial de permitir o desenvolvimento de ferramentas as quais empresas e usuários demandam. Na academia, ela se unirá às iniciativas recentes de pesquisa em Processamento de Linguagem Natural e Mineração de Opinião que têm ganhado destaque no Brasil, dando continuidade a seus trabalhos e somando a elas ideias novas que poderão ser futuramente utilizadas por outros pesquisadores.

Abstract in Spanish:

Este proyecto de maestría pretende investigar métodos que permiten comparar entidades a través de la generación de un resumen que realce diferencias y similitudes entre ellas a partir del procesamiento automático de textos opinativos. Se pretende describir, implementar y evaluar métodos de sumarización comparativa de opinión y posibles formatos que un resumen comparativo puede adoptar. La entrada se consistirá de reseñas sobre productos electrónicos de consumo escritos en portugués y extraídos de la Web.

La sumarización automática es importante porque permite el desarrollo de herramientas que ayudan a los usuarios a absorber mejor la información de un conjunto de textos. Esto es especialmente útil si el conjunto es demasiado grande, como los datos de lote recopilados de Internet. La sumarización comparativa de opiniones llega a una parte más específica del problema: el caso donde un usuario desea comparar dos entidades en base a un gran volumen de texto que contiene las opiniones de cada persona sobre cada elemento individualmente (sin compararlas explícitamente).

Los métodos para sumarizar las opiniones desarrolladas hasta ahora para el portugués permiten el análisis de una sola entidad a la vez. Esto puede no ser suficiente para comprender las diferencias entre dos entidades, mismo si fueren ejecutados separadamente sobre las dos entidades de interés. Para otros idiomas, existen diferentes métodos publicados de sumarización comparativa de opinión que aún no se han probado para el portugués. Además, no se sabe cómo estos métodos se comparan entre sí porque usan diferentes parámetros de evaluación.

Estos métodos serán reproducidos para que puedan ser probados y evaluados dentro de un mismo estándar. Sus implementaciones utilizarán herramientas implementadas previamente que ayudan en el preprocesamiento y posprocesamiento de textos. Eventualmente, se propondrán nuevos métodos que pueden resolver las posibles deficiencias encontradas en los métodos existentes.

Esta investigación conducirá a una encuesta sobre cuán útiles son los resúmenes generados por diferentes métodos. Nuestra hipótesis es que ellos son más efectivos que los resúmenes de opinión de una sola entidad para ayudar a las personas a entender las diferencias entre dos entidades. Esto puede ser beneficioso para una persona que quiere comprar un producto y estea en duda entre dos marcas o dos modelos. También puede ser útil para un fabricante entender cómo se clasifican sus productos en relación con sus competidores de acuerdo con la opinión popular.

Esperamos que esta investigación traiga contribuciones tanto en el contexto académico como en el contexto práctico. Desde el punto de vista práctico, tiene el potencial de permitir el desarrollo de herramientas que demandan las empresas y los usuarios. En la academia, se unirá a iniciativas de investigación recientes en Procesamiento del Lenguaje Natural y Minería de Opinión que han ganado prominencia en Brasil; este proyecto continuará el trabajo de ellos y traerá nuevas ideas que puedan ser utilizadas en el futuro por otros investigadores.