"O grande Gatsby": Análise de Sentimentos com PLN

Francis Scott Fitzgeral e o romance "O grande Gatsby"

Aplicando técnicas de Processamento de Linguagem Natural (PLN) para realizar análise de sentimentos no famoso texto de Francis Scott Fitzgerald.

O grande Gatsby: A obra-prima de F. S. Fitzgerald

Considerado um clássico da Literatura Mundial, O grande Gatsby (The great Gatsby, 1925) foi o terceiro romance do escritor norte-americano Francis Scott Fitzgerald (1896-1940) e a sua obra-prima. Ele foi publicado em 10 de abril de 1925 pela editora Charles Scribner´s Sons, seguindo Este lado do paraíso (1920) e Os belos e malditos (1922).

Entre um título e outro, Fitzgerald também escreveu as histórias de Contos da Era do Jazz (1922), textos esses que acabaram marcando toda uma geração de leitores e fazendo com que o autor ficasse associado a esse período como o escritor da Era do Jazz.

Sobre O grande Gatsby, a sua história foi ambientada no verão de 1922, depois da Primeira Guerra Mundial (1914-1918) e no início da entrada em vigor da Lei Seca (1920-1933). Ela é narrada pelo personagem de Nick Carraway, um recém-chegado à baía de West Egg, vizinho do milionário Jay Gatsby e primo da paixão deste homem, Daisy Buchanan, moradora de East Egg. Na trama, as fictícias West Egg e East Egg ficam em Long Island, um dos cinco bairros de Nova York.

Nick logo descobre que Jay Gatsby é uma figura enigmática. Ninguém sabe quem ele é ao certo e nem como fez fortuna, mas todos adoram as festas espetaculares que ele promove, regadas a muita champagne e muita música. Depois de ser convidado para uma delas, Nick torna-se amigo de Gatsby. É quando ele descobre que o vizinho conheceu Daisy alguns anos antes, mas que era pobre demais para poder namorar com ela. 

Quando voltou à cena, rico e poderoso, ele soube que a amada já estava casada e que morava em East Egg, com o marido e a filha do casal. Ainda apaixonado, Gatsby decidiu morar "de frente" para a mansão de Daisy e a promover festas na esperança de que ela aparecesse numa delas.

Se você já leu O grande Gatsby ou viu algum dos filmes inspirados nele, sabe como essa história se desenvolve e como termina. Se não, deixo aqui o convite para que o leia. Esse é um dos romances mais celebrados de todos os tempos e tem os seus méritos para isso.

Para fins do experimento desse post, é importante saber que esse livro foi classificado como um romance trágico. Vamos conferir se a mineração de textos capta isso.

O grande Gatsby: Mineração do texto e análise de sentimentos

Entre as características marcantes de Fitzgerald como escritor estão a escrita sofisticada, a construção de narrativas muito bem desenvolvidas e a tendência para finais inconvencionais. Conhecendo a obra dele, eu iniciei esse experimento querendo descobrir se modelos matemáticos fariam juz aos sentimentos que leitores, como eu, experimentaram quando leram cada capítulo de O grande Gatsby. O meu objetivo inicial foi responder às seguintes perguntas:

  • Quais palavras foram mais usadas por Fitzgerald em seu romance?
  • Será que modelos de mineração de textos para análise de sentimentos conseguirão captar o mix de emoções complexas presentes em cada uma dessas palavras?
  • E se fizerem isso, será que um escore atribuindo pesos a esses sentimentos revelarão um arco narrativo condizente com o que foi "percebido" pelo leitor ao longo do livro?
  • Por fim, quais palavras aparecem juntas mais vezes e que insights elas oferecem sobre a trama?

Bibliotecas e base de dados:

As técnicas de mineração de textos aplicadas nesse projeto foram Word Cloud ou nuvem de palavras, classificação de sentimentos usando o Opinion Lexicon do pacote NLTK (Natural Language Toolkit), escoragem de sentimentos com a biblioteca AFINN e pares de palavras com Networkx, todas programadas em linguagem Python. Quanto ao texto, ele foi coletado no site Project Gutenberg, onde encontra-se disponível no idioma inglês.

1 - Palavras mais usadas por Fitzgerald em "The Great Gatsby":

Nuvem de palavras (wordcloud) do livro "O grande Gatsby" (texto em inglês).
Nuvem de palavras (wordcloud) do livro "O grande Gatsby" (texto em inglês).

A criação de uma wordcloud mostrou que esse romance possui cerca de 50.000 palavras, sendo 52,8% de stopwords (ou seja, palavras sem relevância para a análise textual) e 47,2% de palavras informativas. Dessas últimas, as que mais aparecem no texto são o nome de Gatsby, os verbos said (disse) e came (veio), seguidas dos nomes dos personagens Daisy e Tom, além de substantivos como house (casa) e adjetivos como little (pouco).

2 - Análise de sentimentos negativos e positivos:

A análise de sentimentos mostrou que o texto possui 55% de palavras negativas e 45% de positivas, o que faz sentido diante do contexto dessa trama.

3 - Descobrindo o peso das palavras negativas e positivas com Escore de Sentimentos:

O escore de sentimentos revelou o peso dos sentimentos das palavras numa escala de -5 (muito negativa) até 5 (muito positiva). Do total, 29,4% receberam escore -2 e 10% de escore -3 contra 24,1% de escore 2 e 16,5% de escore 3. O escritor não usou palavras com o nível de sentimento positivo máximo (escore 5).

Gráfico com análise de sentimentos do texto de O grande Gatsby

O escore de sentimentos também foi usado para dar peso ao arco narrativo da história. No gráfico abaixo, a linha azul representa a média móvel do escore e indica que, apesar dos sentimentos altos e baixos ao longo do texto (linha cinza), a maior parte dele (seções 4 até 21 e 24, aproximadamente) manteve o sentimento positivo (acima de 0.0). 

Isso pode ser atribuído, por exemplo, aos textos sobre as festas e passeios de carros presentes ao longo da narrativa. No entanto, o peso das palavras negativas pode ser percebido a partir das seções 21 e 24 até o final da trama, condizente com a sua classificação como "romance trágico".

4 - Palavras que aparecem em pares mais de 10 vezes e seus insights:

Bigramas do livro "O grande Gatsby"

Entre os bigramas mais presentes nessa obra estão Old Sport (expressão usada por Gatsby e que ficou associada com a figura do próprio Fitzgerald); West Egg (local das residências de Nick e Gatsby, indicando onde boa parte da trama se desenrola) e Gatsby said (as duas palavras que, individualmente, mais aparecem na história (ver wordcloud), sugerindo tratar-se de uma narrativa em terceira pessoa). Outros bigramas apontam para os nomes e sobrenomes de personagens importantes e para mais dois lugares, New York e Long Island.

Conclusão

A aplicação de técnicas de mineração de textos na obra O grande Gatsby extraiu a essência do material escrito por Fitzgerald, mostrando tanto palavras individuais como em pares mais usadas por ele e revelando os sentimentos atribuídos a elas ao longo da narrativa.

Quem leu ambos, a obra de Fitzgerald e este post, pôde constatar que essas técnicas, que nada mais são do que modelos matemáticos e lógica de programação, foram precisas em sua classificação e escoragem de sentimentos, representando bem as ideias do autor. E quem ainda não conhece esse trabalho, passou a ter, com essas informações, uma boa ideia do que o/a espera durante a leitura.

Em termos práticos, no universo das editoras e dos criadores de conteúdo, esses modelos de aprendizagem de máquina são muito utilizados na identificação de padrões de escrita e avaliação de sentimentos em textos, ajudando quem toma decisões a escolher entre manter ou alterar e publicar ou não determinado conteúdo.

Comentários

VEJA TAMBÉM:

Dicas de Richard Branson, Warren Buffett e outros

Dicas do livro "O Homem Mais Rico da Babilônia"

Análises de dados do filme "Moneyball"

"A Via Expressa dos Milionários" em 5 Mandamentos

Dicas do livro "Adams Óbvio"

Dicas para "Empreender na maturidade"

Starbucks Brasil e Maria Luisa Rodenbeck

Dicas do livro "Dobre seus lucros"