terça-feira, 11 de julho de 2017

R e Facebook: Analisando dados do grupo Economia

Continuo usando o período de férias para aprender novos truques com o R, o grupo R-Brasil Programadores (link aqui) tem sido uma excelente fonte de inspiração. De ontem para hoje vi um post que originalmente está no blog do José Guilherme Lopes e que ensina a usar o R para pegar dados do Facebook (link aqui). Como de costume li o post com atenção e resolvi fazer um exercício para ficar alguns conceitos, desta vez o exercício foi analisar os “likes” do grupo Economia no Facebook (link aqui). Assim como fiz com o último exercício (link aqui), resolvi compartilhar com os leitores do blog os resultados que encontrei.

De saída informo que todos os dados do grupo são públicos e podem ser usados por quem quer seja, estritamente falando o exercício que fiz pode ser reproduzido por qualquer um com um lápis, um caderno e um monte tempo disponível. Ainda assim, para evitar polêmicas, só destaquei o lado positivo, não quero irritar ninguém com esse post, muito pelo contrário, a ideia é só fazer um balanço da atividade recente do grupo e ilustrar o uso do R para analisar dados do Facebook. Quem desejar reproduzir o exercício vai ter de recorrer ao post do José Guilherme Lopes para aprender a pegar os dados e vai precisar conhecer um pouco dos pacotes “dplyr”, “tidyr” e “ggplot2”.

Para realizar a análise peguei os últimos dois mil posts publicados no grupo. Tentei pegar cinco mil, mas não consegui, creio que é por limitação minha, do meu token de acesso ou, mais provavelmente, dos dois. Os dois mil posts analisados foram publicados por 450 e participantes do grupo, destes 249 publicaram apenas um post e 405 publicaram dez ou menos posts. O campeão de postagens teve 194 dos 2.000 posts usados no exercício. A figura abaixo mostra os quinze participantes mais ativos se considerado o número de postagens no grupo.




Na sequência considerei o número de “likes” de cada autor. Um total de 88 autores não tiveram nenhum “like” e 296 tiveram 10 ou menos “likes”. O participante com maior número de “likes” foi o Rodrigo Peñaloza, que é meu colega de departamento e, pelo que acompanho o grupo, de fato costuma publicar posts excelentes que mais do que justificam os 1;054 “likes” recebidos. A figura abaixo mostra os quinze participantes mais populares pelo critério de total de “likes”.




O último critério que avaliei foi o número de “Likes” por post publicado. Por esse critério a campeão foi a Júlia Gallant. A figura abaixo mostra os quinze participantes com maior média de “likes” por post.





Como era de se esperar quanto mais posts tem um participante, mais “likes” ele consegue. Porém a relação positiva também vale para a média de “likes” por post. Talvez participantes que publicam muito acabem conseguindo mais atenção e com isso recebam mais “likes”. A tabela abaixo mostra as regressões de “likes” contra número de posts e e de “likes por post” contra número de posts. As regressões foram feitas com logaritmos e no caso dos “likes”, como existem zeros, adicionei um. Não gosto muito de colocar regressões no blog, mas os gráficos ficaram esquisitos e eu queria testar as tabelas do pacote “stargazer” com a opção “html”... o que acabou não saindo como eu queria, mas decidi manter a tabela usando a opção "text" mesmo.

 ==============================================================
                                     Dependent variable:      
                               -------------------------------
                               log(tlikes + 1)     log(mlikes + 1)
                                        (1)                     (2)      
--------------------------------------------------------------
log(nposts)                      0.942***          0.106**    
                                        (0.060)             (0.053)    
                                                              
Constant                          1.248***          1.291***    
                                       (0.074)               (0.066)    
                                                              
--------------------------------------------------------------
Observations                         450             450      
R2                                         0.355           0.009     
Adjusted R2                          0.353           0.007     
Residual Std. Error (df = 448)      1.284           1.134     
F Statistic (df = 1; 448)        246.444***        4.003**    
==============================================================
Note:                              *p<0.1; **p<0.05; ***p<0.01

Espero que os participantes do grupo se divirtam com o post e tentem identificar os campeões por cada critério. Se alguém ficou curioso esse blogueiro teve seis dentre os dois mil posts analisados, os seis posts receberam 94 “likes” o que dá uma média de 15,67 “likes” por post. Nada que impressione, mas fiquei acima da média que foi de 7,46 “likes” por post e bem acima da mediana que foi dois “likes” por post. Caso alguém tenha se interessado em analisar outros grupos ou outros aspectos do grupo Economia com o R recomendo fortemente o post do José Guilherme Lopes que inspirou esse exercício.



2 comentários:

  1. Fico muito feliz que o meu post lhe tenha sido útil, Roberto. Obrigado pela referência e parabéns pela sua análise. Um abraço!

    ResponderExcluir
    Respostas
    1. Eu que agradeço seu post e te parabenizo pelo esforço de divulgar técnicas de análise de dados, sou um usuário intensivo do trabalho de pessoas como você.

      Excluir