Esta semana alguém compartilhou no FB o livro “Text Mining
with R: A Tidy Approach” (link aqui), como me interesso pelo assunto e estou
com mais tempo para aprender coisas novas depois que terminei meu mandato como
diretor da FACE/UnB resolvi dar uma olhada no livro. O primeiro capítulo ensina
a pegar textos e colocar como bases de dados “arrumadas” (tidy) no R, o segundo
capítulo trata de análise de sentimentos, ainda não li os outros. Como gosto de
aprender fazendo exercícios fiz uma, vá lá, análise das palavras que mais
aparecem em alguns livros clássicos de economia e resolvi compartilhar o
resultado com os leitores do blog.
Por limitações minhas as obras escolhidas tinham que estar
disponíveis no Projeto Gutenberg (link aqui), uma organização que disponibiliza gratuitamente
textos de livros clássicos que não estão protegidos por direitos autorais. Para
o exercício considerei três autores clássicos e fundamentais para quem estuda
economia: Adam Smith, Karl Marx e John Stuart Mill. Do primeiro peguei “A
Riqueza das Nações” de 1776, do segundo peguei “Para uma Crítica da Economia
Política” de 1857 e do terceiro peguei “Princípios de Economia Política” de
1848. O livro de Adam Smith será usado como referência, os de Marx e Mill são
da mesma época e representam linhas de pensamento bem diferentes que tomaram
rumos ainda mais distintos no decorrer do século XX.
Comecemos com “A Riqueza das Nações”. As dez palavras que
mais aparecem no livro são: preço (price), país (country), trabalho (labour),
comércio (trade), produzir (produce), quantidade (quantity), valor (value), povo
(people), moeda (money) e terra (land). O fato de preço aparecer bem mais que
valor pode sugerir que Smith estava mais preocupado em determinar preços do que
em determinar o valor de uma mercadoria, repare que quantidade e comércio também
parecem mais do que valor. Outro ponto que me parece interessante é que capital,
que nem aparece na lista, aparece menos que trabalho e terra, isso talvez seja
reflexo da época e da abordagem de Smith focada no trabalho.
Na lista de “Para uma Crítica da Economia Política”
aparecem: valor (value), moeda (money), ouro (gold), mercadorias (commodities),
circulação (circulation), troca (exchange), trabalho (labor), mercadoria
(commodity), produção (production), forma (form). Se somarmos mercadorias e
mercadoria esse é o termo que mais aparece, faz sentido, Marx tratou tanto da
produção quanto da circulação de mercadorias em uma economia capitalista. O
foco na teoria do valor também fica claro, note que preço nem aparece entre as
dez palavras mais usadas. Também vale destacar a frequência com aparece a
palavra moeda, uma das características marcantes da análise de Marx é que muito
mais que um meio de troca a moeda é um elemento crucial no processo de produção
capitalista.
Por fim chegamos em Mill, o liberal, no livro “Princípios de
Economia Política” as dez palavras mais citadas foram: capital, trabalho
(labor), moeda (money), valor (value), produção (production), salários (wages),
custos (costs), país (country), demanda (demand) e aumento (cresciemto). A
preocupação com a produção e os fatores de produção está clara, note o destaque
para capital e trabalho, é curioso que capital não apareça na lista de Marx.
Também há uma preocupação com valor, um tema que seria abandonado pelos
economistas neoclássicos que podem ser vistos como os herdeiros de Mill. A
lista de Mill também é a única em que, além de salários, aparecem as palavras
custo e demanda, o que não deixa de ser interessante.
A tabela abaixo mostra as dez palavras mais frequentes nos
três livros analisados. Repare que as palavras valor, produção, trabalho e
moeda aparecem nas três listas. Isso me parece consistente com as preocupações
dos economistas daquela época. Um exercício semelhante para autores modernos
muito provavelmente não traria a palavra valor, também não ficaria surpreso se
não aparecesse moeda. Por outro lado a palavras como oferta, demanda,
utilidade, custos, preço e capita deveriam, creio eu, aparecer em todas as
listas.
Dez Palavras mais Usadas em Cada Livro
|
|||||
A Riqueza das Nações, Smith
|
Para uma Crítica da Economia Política, Marx
|
Princípios de Economia Política, Mill
|
|||
Palavra
|
Repetições
|
Palavra
|
Repetições
|
Palavra
|
Repetições
|
preço
|
1259
|
valor
|
864
|
capital
|
1032
|
país
|
1238
|
moeda
|
821
|
trabalho
|
916
|
trabalho
|
1003
|
ouro
|
646
|
moeda
|
837
|
comércio
|
970
|
mercadorias
|
620
|
valor
|
816
|
produzir
|
942
|
circulação
|
558
|
produção
|
762
|
quantidade
|
797
|
troca
|
537
|
salários
|
761
|
valor
|
794
|
trabalho
|
512
|
custo
|
632
|
povo
|
776
|
mercadoria
|
431
|
país
|
573
|
moeda
|
767
|
produção
|
413
|
demanda
|
493
|
terra
|
717
|
forma
|
333
|
aumento
|
472
|
Por fim vale uma comparação entre as palavras usadas nos
três livros considerados no post. A figura abaixo mostra a frequência das
palavras usadas por Mill e Marx em relação a frequência das palavras usadas por
Smith. Palavras perto da linha são usadas mais ou menos na mesma frequência pelo
autor do painel e por Smith. Palavras distantes da linha são usadas com mais frequência
pelo autor do painel do que por Smith. Por exemplo, Smith e Mill usam a palavra
país (country) com mais ou menos a mesma frequência, da mesma forma Smith e
Marx usam a palavra capital com frequência parecida. Por outro lado, Mill usa a
palavra “Adam” com mais frequência que Smith, o que me parece muito razoável e
apropriado. Notem que Marx faz mais referências a moeda e circulação do que
Smith, o que pode parecer contraditório, mas, creio eu, não é. Apesar do foco
de Marx no processo de produção capitalista as referências a circulação e moeda
apareciam pela forma como Marx acreditava que esses conceitos estavam inseridos
no processo de produção e também pelas referências críticas aos conceitos de moeda
e circulação em outros autores.
Apenas por curiosidade fiz o teste de correlação entre as
palavras usadas por Smith e Mill e por Smith e Marx. O gráfico sugere que a
correlação é maior para Mill do que para Marx. De fato, para Mill e Smith a correlação
foi de 0,65 com intervalo de confiança entre 0,63 e 0,66. Para Smith e Marx a correlação
foi de 0,50 com intervalo de confiança entre 0,48 e 0,53.
O exercício desse post não tem pretensões de analisar as
obras de Smith, Marx ou Mill nem muito menos de apresentar alguma reflexão
original sobre tis autores. Longe disso, os comentários que fiz costumam estar
presentes em livros básicos de História do Pensamento Econômico e se em algum momento
eu dei impressão de não ter contido a empolgação e ter ido além de um exercício
de mineração de texto desde já apresento minhas desculpas. De toda forma ouso
dizer que ferramentas de mineração de texto, se usadas por quem entende de
história do pensamento econômico, podem ser uma ferramenta interessante para
ampliar a pesquisa na área.
0 comentários:
Postar um comentário