Esta semana alguém compartilhou no FB o livro “Text Mining
with R: A Tidy Approach” (link aqui), como me interesso pelo assunto e estou
com mais tempo para aprender coisas novas depois que terminei meu mandato como
diretor da FACE/UnB resolvi dar uma olhada no livro. O primeiro capítulo ensina
a pegar textos e colocar como bases de dados “arrumadas” (tidy) no R, o segundo
capítulo trata de análise de sentimentos, ainda não li os outros. Como gosto de
aprender fazendo exercícios fiz uma, vá lá, análise das palavras que mais
aparecem em alguns livros clássicos de economia e resolvi compartilhar o
resultado com os leitores do blog.
Por limitações minhas as obras escolhidas tinham que estar
disponíveis no Projeto Gutenberg (link aqui), uma organização que disponibiliza gratuitamente
textos de livros clássicos que não estão protegidos por direitos autorais. Para
o exercício considerei três autores clássicos e fundamentais para quem estuda
economia: Adam Smith, Karl Marx e John Stuart Mill. Do primeiro peguei “A
Riqueza das Nações” de 1776, do segundo peguei “Para uma Crítica da Economia
Política” de 1857 e do terceiro peguei “Princípios de Economia Política” de
1848. O livro de Adam Smith será usado como referência, os de Marx e Mill são
da mesma época e representam linhas de pensamento bem diferentes que tomaram
rumos ainda mais distintos no decorrer do século XX.



A tabela abaixo mostra as dez palavras mais frequentes nos
três livros analisados. Repare que as palavras valor, produção, trabalho e
moeda aparecem nas três listas. Isso me parece consistente com as preocupações
dos economistas daquela época. Um exercício semelhante para autores modernos
muito provavelmente não traria a palavra valor, também não ficaria surpreso se
não aparecesse moeda. Por outro lado a palavras como oferta, demanda,
utilidade, custos, preço e capita deveriam, creio eu, aparecer em todas as
listas.
Dez Palavras mais Usadas em Cada Livro
|
|||||
A Riqueza das Nações, Smith
|
Para uma Crítica da Economia Política, Marx
|
Princípios de Economia Política, Mill
|
|||
Palavra
|
Repetições
|
Palavra
|
Repetições
|
Palavra
|
Repetições
|
preço
|
1259
|
valor
|
864
|
capital
|
1032
|
país
|
1238
|
moeda
|
821
|
trabalho
|
916
|
trabalho
|
1003
|
ouro
|
646
|
moeda
|
837
|
comércio
|
970
|
mercadorias
|
620
|
valor
|
816
|
produzir
|
942
|
circulação
|
558
|
produção
|
762
|
quantidade
|
797
|
troca
|
537
|
salários
|
761
|
valor
|
794
|
trabalho
|
512
|
custo
|
632
|
povo
|
776
|
mercadoria
|
431
|
país
|
573
|
moeda
|
767
|
produção
|
413
|
demanda
|
493
|
terra
|
717
|
forma
|
333
|
aumento
|
472
|
Por fim vale uma comparação entre as palavras usadas nos
três livros considerados no post. A figura abaixo mostra a frequência das
palavras usadas por Mill e Marx em relação a frequência das palavras usadas por
Smith. Palavras perto da linha são usadas mais ou menos na mesma frequência pelo
autor do painel e por Smith. Palavras distantes da linha são usadas com mais frequência
pelo autor do painel do que por Smith. Por exemplo, Smith e Mill usam a palavra
país (country) com mais ou menos a mesma frequência, da mesma forma Smith e
Marx usam a palavra capital com frequência parecida. Por outro lado, Mill usa a
palavra “Adam” com mais frequência que Smith, o que me parece muito razoável e
apropriado. Notem que Marx faz mais referências a moeda e circulação do que
Smith, o que pode parecer contraditório, mas, creio eu, não é. Apesar do foco
de Marx no processo de produção capitalista as referências a circulação e moeda
apareciam pela forma como Marx acreditava que esses conceitos estavam inseridos
no processo de produção e também pelas referências críticas aos conceitos de moeda
e circulação em outros autores.
Apenas por curiosidade fiz o teste de correlação entre as
palavras usadas por Smith e Mill e por Smith e Marx. O gráfico sugere que a
correlação é maior para Mill do que para Marx. De fato, para Mill e Smith a correlação
foi de 0,65 com intervalo de confiança entre 0,63 e 0,66. Para Smith e Marx a correlação
foi de 0,50 com intervalo de confiança entre 0,48 e 0,53.
O exercício desse post não tem pretensões de analisar as
obras de Smith, Marx ou Mill nem muito menos de apresentar alguma reflexão
original sobre tis autores. Longe disso, os comentários que fiz costumam estar
presentes em livros básicos de História do Pensamento Econômico e se em algum momento
eu dei impressão de não ter contido a empolgação e ter ido além de um exercício
de mineração de texto desde já apresento minhas desculpas. De toda forma ouso
dizer que ferramentas de mineração de texto, se usadas por quem entende de
história do pensamento econômico, podem ser uma ferramenta interessante para
ampliar a pesquisa na área.
0 comentários:
Postar um comentário