Quatro formas de olhar para o Twitter

Quatro formas de olhar para o Twitter

A visualização de dados é legal. Também está se tornando cada vez mais útil, à medida que a vibrante comunidade on-line de visualizadores de dados (programadores, designers, artistas e estatísticos – às vezes tudo em uma pessoa) cresce e as ferramentas para executar suas visões melhoram.

Jeff Clark faz parte dessa comunidade. Ele, como muitos entusiastas da visualização de dados, caiu nela depois de ser inspirado pelo pioneiroMartin Wattenberg demapa de árvore marco que visualizou o mercado de ações.

O último trabalho de Clark mostra muita promessa. Ele construiu quatro motores que visualizam aquela pilha gigante de dados conhecida como Twitter. Todos os quatro basicamente buscam palavras usadas em tweets e, em seguida, procuram relacionamentos com outras palavras ou com outros Tweeters. Eles funcionam quase em tempo real.

“O Twitter é uma fonte de dados óbvia para muitas informações de texto”, diz Clark. “É realmente provado ser um ótimo playground para testar ideias de visualização de dados.” Clark admite prontamente que nem todas as visualizações são o produto de seu gênio do design. São suas habilidades de programação que lhe permitem construir mecanismos que impulsionam as visualizações. “Eu passo uma boa quantidade de tempo olhando para o que está lá fora. Vou pegar o que alguém fez visualmente e usarei uma fonte de dados diferente. O Twitter Spectrum foi baseado em coisas que as pessoas procuram no Google. Chris Harrison fez um trabalho interessante que parece ótimo e eu pensei, posso fazer algo assim baseado em dados ao vivo. Então eu o levei para o Twitter.”

Suas ferramentas são definitivamente estágios iniciais, mas mesmo agora, é fácil imaginar onde elas poderiam ser levadas.

PegueTwitterVenn. Você insere três termos de pesquisa e o aplicativo retorna um diagrama de venn mostrando a frequência de uso de cada termo e frequência de sobreposição dos termos em um único tweet. Como bônus, mostra um pequeno mapa de palavras dos termos mais comuns relacionados a cada termo de pesquisa; tweets por dia para cada termo por si só e cada combinação de termos; e um tweet recente. Entrei em “apple, google, microsoft”. Veja o que um tem:

twittervenn.jpg

De imediato vejo que os tweets da Apple estão dominando, não surpreendentemente. Mas observe a alta frequência de palavras inesperadas como “ganhar” “livre” e “capacitivo” usado com o termo “maçã”. Isso sugere marketing (spam?) de produtos apple via Twitter, ou seja, “Ganhe um iPad grátis…”.

Fiquei chocado com a relativa infrequência dos tweets “google”. Na verdade, havia, em média, mais tweets que incluíam “microsoft” e “google” do que aqueles que acabaram de mencionar “google”.

Então eu fui paraEspectro Twitter, uma ferramenta semelhante que compara dois termos de pesquisa e mostra quais palavras são mais comumente associadas a cada termo e quais palavras são mais comumente usadas em tweets com ambos os termos. Aqui está o Twitter Spectrum “google, microsoft”:

twitterspectrum.jpg

Adoro que a palavra “ugh” seja um centro morto entre o Google e a Microsoft. Mas a proeminência dos termos de mídia social no lado azul versus termos de pesquisa no lado vermelho é fascinante. Parece que dois exércitos marchando um para o outro prontos para lutar diferentes guerras.

Clark também criou o TwitArcs. Este, eu sinto, ainda é um trabalho em andamento e Clark diz “visualmente eu gosto, mas pode ser o menos útil até agora”. Nesse caso, você digita o identificador de um tweeter e ele retorna um fluxo dos tweets dessa pessoa com arcos que vinculam palavras comuns entre tweets (à direita) e retweeters comuns (à esquerda). Rolar o mouse sobre destaca o último tweet no arco. Aqui está um TwitArc de @timoreilly:

twitarc.jpg

Finalmente, o Stream Graph. Insira um termo de pesquisa e o mecanismo do Clark retorna a frequência das palavras mais comuns encontradas com seu termo de pesquisa para os últimos 1.000 tweets. Você vê um fluxo literal de conversas. Você também pode destacar um termo para ver como sua frequência mudou ao longo do tempo e você verá os tweets mais recentes que incluem o termo de pesquisa e o termo destacado.

Às vezes, 1.000 tweets com seu termo podem abranger semanas. Para o meu termo de busca, “Tiger Woods” que entrei ontem à tarde logo após a notícia de que ele falaria publicamente, 1.000 tweets cobriram cerca de 20 minutos. Aqui está o gráfico de fluxo “Tiger Woods” com “silêncio” destacado:

streamgraph.jpg

Não é difícil imaginar como isso pode ser aplicável aos negócios. Já posso ver profissionais de marketing ansiosos assistindo o fluxo de fluxo enquanto suas estreias comerciais durante o Super Bowl do próximo ano.

Clark, como muitos visualizadores de dados, acredita que estamos no front-end de uma revolução na apresentação de informações. “Há muito trabalho feito chamado visualização científica ou gráficos de business intelligence”, diz. “E é pragmático, tentando resolver problemas práticos. É tudo padrão, um gráfico de barras ou uma torta. Mas essas formas padrão não são adequadas quando você está tentando minerar um espaço de dados mais rico. O mundo está cheio de dados complexos e estamos apenas começando a obter as ferramentas para dar sentido a isso. Estamos procurando novas formas de apresentar dados.”