Continuo usando o período de férias para aprender novos truques
com o R, o grupo R-Brasil Programadores (link aqui) tem sido uma excelente fonte
de inspiração. De ontem para hoje vi um post que originalmente está no blog do
José Guilherme Lopes e que ensina a usar o R para pegar dados do Facebook (link
aqui). Como de costume li o post com atenção e resolvi fazer um exercício para
ficar alguns conceitos, desta vez o exercício foi analisar os “likes” do grupo
Economia no Facebook (link aqui). Assim como fiz com o último exercício (link
aqui), resolvi compartilhar com os leitores do blog os resultados que
encontrei.
De saída informo que todos os dados do grupo são públicos e
podem ser usados por quem quer seja, estritamente falando o exercício que fiz
pode ser reproduzido por qualquer um com um lápis, um caderno e um monte tempo
disponível. Ainda assim, para evitar polêmicas, só destaquei o lado positivo,
não quero irritar ninguém com esse post, muito pelo contrário, a ideia é só
fazer um balanço da atividade recente do grupo e ilustrar o uso do R para analisar
dados do Facebook. Quem desejar reproduzir o exercício vai ter de recorrer ao
post do José Guilherme Lopes para aprender a pegar os dados e vai precisar
conhecer um pouco dos pacotes “dplyr”, “tidyr” e “ggplot2”.
Para realizar a análise peguei os últimos dois mil posts
publicados no grupo. Tentei pegar cinco mil, mas não consegui, creio que é por
limitação minha, do meu token de acesso ou, mais provavelmente, dos dois. Os
dois mil posts analisados foram publicados por 450 e participantes do grupo,
destes 249 publicaram apenas um post e 405 publicaram dez ou menos posts. O
campeão de postagens teve 194 dos 2.000 posts usados no exercício. A figura
abaixo mostra os quinze participantes mais ativos se considerado o número de
postagens no grupo.
Na sequência considerei o número de “likes” de cada autor.
Um total de 88 autores não tiveram nenhum “like” e 296 tiveram 10 ou menos “likes”.
O participante com maior número de “likes” foi o Rodrigo Peñaloza, que é meu
colega de departamento e, pelo que acompanho o grupo, de fato costuma publicar
posts excelentes que mais do que justificam os 1;054 “likes” recebidos. A figura
abaixo mostra os quinze participantes mais populares pelo critério de total de “likes”.
O último critério que avaliei foi o número de “Likes” por
post publicado. Por esse critério a campeão foi a Júlia Gallant. A figura
abaixo mostra os quinze participantes com maior média de “likes” por post.
Como era de se esperar quanto mais posts tem um
participante, mais “likes” ele consegue. Porém a relação positiva também vale
para a média de “likes” por post. Talvez participantes que publicam muito acabem
conseguindo mais atenção e com isso recebam mais “likes”. A tabela abaixo
mostra as regressões de “likes” contra número de posts e e de “likes por post”
contra número de posts. As regressões foram feitas com logaritmos e no caso dos
“likes”, como existem zeros, adicionei um. Não gosto muito de colocar
regressões no blog, mas os gráficos ficaram esquisitos e eu queria testar as
tabelas do pacote “stargazer” com a opção “html”... o que acabou não saindo
como eu queria, mas decidi manter a tabela usando a opção "text" mesmo.
Dependent variable:
-------------------------------
log(tlikes + 1) log(mlikes + 1)
(1) (2)
--------------------------------------------------------------
log(nposts) 0.942*** 0.106**
(0.060) (0.053)
Constant 1.248*** 1.291***
(0.074) (0.066)
--------------------------------------------------------------
Observations 450 450
R2 0.355 0.009
Adjusted R2 0.353 0.007
Residual Std. Error (df = 448) 1.284 1.134
F Statistic (df = 1; 448) 246.444*** 4.003**
==============================================================
Note: *p<0.1; **p<0.05; ***p<0.01
Espero que os participantes do grupo se divirtam com o post
e tentem identificar os campeões por cada critério. Se alguém ficou curioso
esse blogueiro teve seis dentre os dois mil posts analisados, os seis posts
receberam 94 “likes” o que dá uma média de 15,67 “likes” por post. Nada que
impressione, mas fiquei acima da média que foi de 7,46 “likes” por post e bem
acima da mediana que foi dois “likes” por post. Caso alguém tenha se
interessado em analisar outros grupos ou outros aspectos do grupo Economia com
o R recomendo fortemente o post do José Guilherme Lopes que inspirou esse
exercício.
Fico muito feliz que o meu post lhe tenha sido útil, Roberto. Obrigado pela referência e parabéns pela sua análise. Um abraço!
ResponderExcluirEu que agradeço seu post e te parabenizo pelo esforço de divulgar técnicas de análise de dados, sou um usuário intensivo do trabalho de pessoas como você.
Excluir