Sua empresa precisa de um Armazém de Dados? Vocês decidiram adotar Data Discovery, então seu primeiro impulso é esnobar respondendo “não, porque a ferramenta não precisa disso”. (Estou sendo sarcástico. ;-) )
Já faz algum tempo que eu publiquei um post sobre o assunto, no qual eu apresentava um argumento definitivo (na minha opinião) a favor da adoção de Armazém de Dados por qualquer empresa que deseje investir em BI. Não tenho nada acrescentar àquele argumento, mas recentemente cheguei a uma outra interpretação e pensei se não seria bacana dividi-la com vocês.
Eu sou formado em Física. Um dos jargões que aprendemos na faculdade é o verbo “fitar”, um estrangeirismo a partir do verbo inglês to fit. Em português podemos usar ajustar ou encaixar mas, como bons brasileiros, falamos fitar e boas.
Em Física queremos explicar a Naturza e por isso boa parte do nosso trabalho é, a partir da observação de um fenômemo, escolher uma função matemática para descrever esse fenômemo – esculpir um modelo matemático da realidade – e tentar encaixar a função nos dados experimentais. Quando nossa função – nosso modelo – encaixa-se sobre os dados, sabemos que ela serve para explicar a realidade, até onde nossos dados experimentais chegam. Todas as fórmulas da Física que você aprendeu na escola são resultado desse trabalho. Seja a Lei da Gravitação Universal, seja o Princípio da Conservação da Energia ou as Leis de Maxwell, tudo, tudo decorrente do teste de modelos matemáticos contra a realidade.
Tentar encaixar a função nos dados experimentais é, você adivinhou, fitar uma curva. A figura abaixo é um exemplo clássico: uma reta fitando os pontos.
E cá entre nós, ô fitizinho ruim! Me parece que uma Gausiana e uma reta modulando uma quádrica dá mais certo… Não acham? ;-)
BI vs. To Fit
Bom, na minha opinião (sempre!), Inteligência de Negócios é a administração científica de uma empresa, é o processo de levantar hipóteses e testá-las, e usar o resultado para decidir entre uma ação ou outra.
Uma forma diversa de falar “testar hipóteses” é “encaixar uma fórmula a um conjunto de pontos”. Em bom fisiquês, é fitar uma função num experimento. Se você quiser ir mais longe ainda, é a criação de um modelo matemático para explicar a realidade. Mas aí também é pedir demais da TI…
Voltando, pergunta retórica: que função você pode fitar em um experimento que coletou a medida de apenas um ponto?
Esse ponto pode ser qualquer coisa, medida instantâneamente. Ou seja, uma medida no momento e mais nada. Como as vendas de hoje, ou o total de pedidos de suporte, o quantos chamados um empregado abriu… Qualquer grão, mas em um único momento no tempo.
Oras, se você mediu seu experimento apenas uma vez – uma única vez – então você tem apenas UM ponto. Quem lembra das aulas de geometria deve se lembrar do lema “uma reta é determinada por dois pontos”. Com um só ponto você não define nada, absolutamente e rigorosamente NADA. Qualquer uma das funções ilustradas pelas linhas coloridas no gráfico acima pode ser ajustadas para passar sobre o ponto medido. Não podemos afirmar nada sobre aquele pontinho.
E este é precisamente o fulcro: como é que vamos testar uma hipótese contra um conjunto de dados que possui uma só medida? Não vamos! Não é possível fitar nada a um conjunto que tenha só um ponto!
Colocada de outra forma, pode-se dizer que é possível fitar um mundo de teorias e hipóteses em um ponto! Não dá para negar nenhuma delas em favor de outra! Qualquer modelo pode explicar aquele ponto!
Agora, se formos adiante e, de tempos em tempos, repetirmos o experimento e coletarmos um novo ponto, teremos uma evolução daquela variável (ou conjunto de) ao longo do tempo. Podemos ver o que aconteceu até agora e tentar enter como aconteceu dessa forma, e talvez o que vai acontecer a seguir.
O gráfico acima conta o final da história: para entender o que está acontecendo no meu sistema eu preciso de mais pontos. Só acumulando medidas do sistema ao longo do tempo é que podemos testar e descartar ou confirmar hipóteses.
E um Armazém de Dados é o sub-sistema da disciplina BI que resolve essa demanda por informação temporal. DW é mais que um banco de dados ou um cluster Hadoop: é uma técnica de coleta organização de dados com vistas a análises futuras. Por isso usamos um DW para soluções de BI: para não ter que reinventar a roda e cometer todos os erros de novo, só para sair com um conjunto temporal de dados do outro lado.
Tempo Não É Tudo
Alguém menos informado pode sentir-se tentado a argumentar que não é preciso coletar dados ao longo do tempo se as variáveis de interesse não incluem o tempo. Por exemplo, “que perfil de mutuário tem mais chance de não pagar o empréstimo?” Basta eu montar o perfil dos Mutuários em atraso hoje para descobrir isso.
Bom, esse argumento tem dois grandes furos:
- Sem uma análise da relação ao longo do tempo você não pode dizer que variável causou que consequência. Em termos técnicos, a ausência do tempo proíbe quase sempre a determinação do nexo causal;
- Sem uma análise ao longo do tempo você não tem como dizer se o valor medido é um outlierou é o valor normalmente encontrado para aquela variável.
Imagine a consequência de conceder mais empréstimos justamente para o maior caloteiro, só por que, por acaso, conseguiu pagar a dívida em dia no mês passado, enquanto que o melhor pagador se atrasou para chegar ao banco!
Não há escapatória: até mesmo para saber que uma relação é constante no tempo é preciso analisá-la ao longo do tempo.
Conclusão
Resumindo, você precisa armazenar histórico dos dados da sua empresa porque “um ponto não fita nada!”
Explicar para alguém porque um DW é necessário em projetos de BI, usando só uma frase, é uma coisa bem difícil. Primeiro precisamos entender que BI é, resumidamente, a tomada de decisão a partir do teste de hipóteses. Se aceitarmos esse fato (o que pode não ser sempre o caso), ainda temos que entender que o teste de hipóteses é, na verdade, um trabalho de encaixar uma explicação matemática a uma realidade medida.
No fundo, não precisamos de um DW, precisamos armazenar a evolução dos parâmetros da organização ao longo do tempo e, aí sim, podemos usar um DW para isso. (Assim como podemos usar um papel de pão e um estagiário anotando valor nele, ou uma planilha Excel, ou dumps de bases em um cluster Hadoop – tanto faz o meio.) Por acaso DW é uma tecnologia pronta para isso.
Se alguém te disse que você não precisa de DW para “fazer” BI, você vai acreditar?
Ah, em português fitar significa olhar fixamente.
0 comentários:
Postar um comentário