[LIGAÇÕES] Big Data: correlação de dados


Fonte: Linkedin

Por Cezar Taurion

Big Data: correlação de dados 

Observando as iniciativas de Big data nas empresas, identificamos dois erros comuns. O primeiro é adquirir tecnologia antes de saber claramente o que vai ser feito com ela. E outro, é começar com uma montanha de dados e então tentar descobrir alguma coisa analisando-os. A questão principal é que o sucesso das iniciativas de Big data & Analytics depende primordialmente de uma clara definição da visão e escopo do problema (as perguntas que devem ser respondidas) e o consequente valor gerado, que são as respostas às perguntas e as suas subsequentes ações. Os conhecidos Vs de volume, velocidade, variedade e veracidade são meios para se chegar ao valor da visão proposta.

O que queremos é transformar dados em informação e estas em insights que gerem respostas e ações. Quanto mais precisa for a pergunta (o problema de negócio a ser resolvido e seu escopo) mais precisa e valorizada será a resposta. E, claro, uma vez respondido, o que fazer? O problema geralmente será resolvido não apenas com os insights gerados, mas com as ações derivadas destes insights.

O que recomendo? Primeiro entender claramente o contexto do negócio (como estratégia e prioridades) e os problemas que se pretende atacar com o projeto de Big Data. Com certeza existem muitas áreas onde análise sistemática de dados poderá contribuir muito, mas como os recursos não são infinitos, é necessário priorizar e escolher a iniciativa que será mais efetiva para a empresa. Uma vez concluída esta primeira iniciativa, passe para a segunda opção e assim sucessivamente. Muito provavelmente Analytics não será um projeto único, mas uma ação contínua.

Com o problema bem definido passe para os dados. Que dados serão necessários para que a resposta seja alcançada? Imagine um cenário hipotético onde todos os dados que você precisa estão disponíveis. A partir da identificação dos dados necessários, passe para o mundo real. Quais os dados realmente disponíveis? Estão dentro de casa ou fora? São acurados? Podem ser utilizados sem nenhuma violação da legislação para sua indústria? Começamos a perceber que são projetos iterativos, uma vez que se algum dado não estiver disponível talvez tenhamos que rediscutir o escopo.

Próxima etapa é definir algoritmos e tecnologias necessárias. Algoritmos, por exemplo, quando aplicados corretamente podem gerar vantagens competitivas. O exemplo clássico do algoritmo de recomendações da Amazon é emblemático. Uma ideia simples: “porque não recomendar livros específicos, baseados nas preferências individuais dos leitores que compram na Amazon?”.

Entramos então em um aspecto interessante do conceito de Big data: correlação de dados. Correlação é um relacionamento estatístico entre dois dados diferentes. Uma correlação é forte quando se um dado muda, o outro muito provavelmente também mudará. E é fraca, quando se um dado mudar, o outro muito provavelmente não será afetado, como por exemplo um aumento na venda de manteiga não implicará no aumento do numero de divórcios.... Observem que correlação não é certeza, mas probabilidade estatística. Quando aplicamos técnicas preditivas não conseguiremos desenhar o futuro, apenas prever que haverá possibilidade maior ou menor, de um evento acontecer.

Fazer previsões implicará que provavelmente teremos um debate interessante pela frente, quando aspectos éticos e legais forem considerados. Um exemplo é o filme “Minority Report” onde a polícia prendia uma pessoa antes que ela cometesse um assassinato, baseado em predições. Será válido prender alguém antecipadamente, mesmo com 99,9% de chance dela cometer o assassinato? Novamente, predição não é certeza, mas probabilidade estatística...

Um efeito colateral das correlações é que possivelmente quebraremos algumas percepções arraigadas, que à luz de dados vão se mostrar erradas. Muitas destas percepções foram geradas pela pouca quantidade de dados disponíveis e estruturadas pela nossa maneira de pensar em termos de causalidade. Quando trabalhamos com correlações e um volume e variedade muitas vezes superior a que trabalhávamos antes, novos insights provavelmente serão gerados. Vamos focar mais em dados e menos em intuição, embora intuição não vai desaparecer. A intuição + insights gerados por dados pode ser uma fórmula diferenciadora...

A etapa final do projeto é a sua implementação, ou seja, gerar dados corretos, operar os algoritmos em cima deles e agir à luz dos resultados obtidos. Muitas vezes esta ação significa alterar processos internos. Por exemplo, vamos imaginar uma empresa de seguro saúde que identifiques uma correlação entre numero de mensagens postadas no Facebook, numero de reclamações ao seu sac e uma posterior reclamação à agência reguladora. Se ela simplesmente responder de forma isolada, caso a caso, não vai eliminar o problema. A solução definitiva será alcançada quando os processos que geram as reclamações forem modificados, para que estas sejam minimizadas.

Em resumo, a maioria das empresas está no inicio da sua curva de aprendizado no uso de Big data. É um processo de tentativa e erro, mas se bem orquestrado e conduzido vai gerar valor significativo. Vale a pena ir em frente. Aliás, porque esperar?
Compatilhe no Google Plus

Sobre Grimaldo Oliveira

Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC) com o projeto “GESMOODLE – Ferramenta de acompanhamento do aluno de graduação, no ambiente virtual de aprendizagem(MOODLE), no contexto da UNEB“. Possui também Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 15 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente é editor do blog BI com Vatapá. Livro: BI COMO DEVE SER - www.bicomodeveser.com.br

0 comentários: