R e Facebook: Analisando dados do grupo Economia

Continuo usando o período de férias para aprender novos truques com o R, o grupo R-Brasil Programadores (link aqui) tem sido uma excelente fonte de inspiração. De ontem para hoje vi um post que originalmente está no blog do José Guilherme Lopes e que ensina a usar o R para pegar dados do Facebook (link aqui). Como de costume li o post com atenção e resolvi fazer um exercício para ficar alguns conceitos, desta vez o exercício foi analisar os “likes” do grupo Economia no Facebook (link aqui). Assim como fiz com o último exercício (link aqui), resolvi compartilhar com os leitores do blog os resultados que encontrei.

De saída informo que todos os dados do grupo são públicos e podem ser usados por quem quer seja, estritamente falando o exercício que fiz pode ser reproduzido por qualquer um com um lápis, um caderno e um monte tempo disponível. Ainda assim, para evitar polêmicas, só destaquei o lado positivo, não quero irritar ninguém com esse post, muito pelo contrário, a ideia é só fazer um balanço da atividade recente do grupo e ilustrar o uso do R para analisar dados do Facebook. Quem desejar reproduzir o exercício vai ter de recorrer ao post do José Guilherme Lopes para aprender a pegar os dados e vai precisar conhecer um pouco dos pacotes “dplyr”, “tidyr” e “ggplot2”.

Para realizar a análise peguei os últimos dois mil posts publicados no grupo. Tentei pegar cinco mil, mas não consegui, creio que é por limitação minha, do meu token de acesso ou, mais provavelmente, dos dois. Os dois mil posts analisados foram publicados por 450 e participantes do grupo, destes 249 publicaram apenas um post e 405 publicaram dez ou menos posts. O campeão de postagens teve 194 dos 2.000 posts usados no exercício. A figura abaixo mostra os quinze participantes mais ativos se considerado o número de postagens no grupo.




Na sequência considerei o número de “likes” de cada autor. Um total de 88 autores não tiveram nenhum “like” e 296 tiveram 10 ou menos “likes”. O participante com maior número de “likes” foi o Rodrigo Peñaloza, que é meu colega de departamento e, pelo que acompanho o grupo, de fato costuma publicar posts excelentes que mais do que justificam os 1;054 “likes” recebidos. A figura abaixo mostra os quinze participantes mais populares pelo critério de total de “likes”.




O último critério que avaliei foi o número de “Likes” por post publicado. Por esse critério a campeão foi a Júlia Gallant. A figura abaixo mostra os quinze participantes com maior média de “likes” por post.





Como era de se esperar quanto mais posts tem um participante, mais “likes” ele consegue. Porém a relação positiva também vale para a média de “likes” por post. Talvez participantes que publicam muito acabem conseguindo mais atenção e com isso recebam mais “likes”. A tabela abaixo mostra as regressões de “likes” contra número de posts e e de “likes por post” contra número de posts. As regressões foram feitas com logaritmos e no caso dos “likes”, como existem zeros, adicionei um. Não gosto muito de colocar regressões no blog, mas os gráficos ficaram esquisitos e eu queria testar as tabelas do pacote “stargazer” com a opção “html”... o que acabou não saindo como eu queria, mas decidi manter a tabela usando a opção "text" mesmo.

 ==============================================================
                                     Dependent variable:      
                               -------------------------------
                               log(tlikes + 1)     log(mlikes + 1)
                                        (1)                     (2)      
--------------------------------------------------------------
log(nposts)                      0.942***          0.106**    
                                        (0.060)             (0.053)    
                                                              
Constant                          1.248***          1.291***    
                                       (0.074)               (0.066)    
                                                              
--------------------------------------------------------------
Observations                         450             450      
R2                                         0.355           0.009     
Adjusted R2                          0.353           0.007     
Residual Std. Error (df = 448)      1.284           1.134     
F Statistic (df = 1; 448)        246.444***        4.003**    
==============================================================
Note:                              *p<0.1; **p<0.05; ***p<0.01

Espero que os participantes do grupo se divirtam com o post e tentem identificar os campeões por cada critério. Se alguém ficou curioso esse blogueiro teve seis dentre os dois mil posts analisados, os seis posts receberam 94 “likes” o que dá uma média de 15,67 “likes” por post. Nada que impressione, mas fiquei acima da média que foi de 7,46 “likes” por post e bem acima da mediana que foi dois “likes” por post. Caso alguém tenha se interessado em analisar outros grupos ou outros aspectos do grupo Economia com o R recomendo fortemente o post do José Guilherme Lopes que inspirou esse exercício.



Comentários

  1. Fico muito feliz que o meu post lhe tenha sido útil, Roberto. Obrigado pela referência e parabéns pela sua análise. Um abraço!

    ResponderExcluir
    Respostas
    1. Eu que agradeço seu post e te parabenizo pelo esforço de divulgar técnicas de análise de dados, sou um usuário intensivo do trabalho de pessoas como você.

      Excluir

Postar um comentário

Postagens mais visitadas deste blog

Votação do fundo eleitoral por partidos,

2016: O ano que o Império da Lei venceu o império do governante.

Desempenho da economia durante o regime militar: o que dizem os dados?