O termo Big Data começa a despertar muita atenção, mas ainda é um conceito mal definido e menos compreendido ainda. Com uma rápida pesquisa no Google, identifiquei pelo menos uma dúzia de definições.
[SÉRIE BIG DATA - FIM] Big Data = volume + variedade + velocidade de dados
Fonte:IBM
Neste post vou falar um pouco sobre o assunto e debater alguns desafios que temos pela frente para colocarmos projetos de Big Data em ação. Sem entrar em definições, mas nos atendo apenas a conceitos, podemos resumir com uma fórmula simples, Big Data = volume + variedade + velocidade de dados. Volume porque além dos dados gerados pelos sistemas transacionais, temos a imensidão de dados gerados pelos objetos na Internet das Coisas, como sensores e câmeras, e os gerados nas mídias sociais via PCs, smartphones e tablets. Variedade porque estamos tratando tanto de dados textuais estruturados como não estruturados como fotos, vídeos, e-mails e tuites. E velocidade, porque muitas vezes precisamos responder aos eventos quase que em tempo real, ou seja, estamos falando de criação e tratamento de dados em volumes massivos . Outro desafio: criar e tratar apenas de dados históricos, com os veteranos Data Warehouse e as tecnologias de BI (Business Intelligence) começam a se mostrar lentos demais para a velocidade com que os negócios precisam tomar decisões. Aliás, o termo BI ou Business Intelligence já fez mais de 50 anos. Foi cunhado por Hans Peter Luhn, pesquisador da IBM em um artigo escrito nos idos de 1958.
Quando falamos em volume, os números são gigantescos. Se olharmos globalmente, estamos falando em zetabytes ou 10²¹ bytes. Grandes corporações armazenam multiplos petabytes e mesmo pequenas e médias empresas trabalham com dezenas de terabytes de dados. Este volume de dados tende a crescer geométricamente e em mundo cada vez mais competitivo e rápido, as empresas precisam tomar decisões baseadas não apenas em palpites, mas em dados concretos . Assim, para um setor de marketing faz todo sentido ter uma visão 360° de um cliente, olhando não apenas o que ele comprou da empresa, como registrado no ERP, mas o que ele pensa e diz sobre a empresa, como o faz pelo Facebook e Twitter.
Hoje já é consenso que dados são os recursos naturais da nova revolução industrial. Na atual sociedade industrial, ter apenas recursos naturais como minério e exportá-los de forma bruta, importando em troca produtos manufaturados com eles, não garante a competitividade de um país no longo prazo. O importante é a tecnologia e o conhecimento que cria produtos manufaturados. Afinal um quilo de satélite vale imensamente mais que um quilo de minério de ferro .
Fazendo um paralelo, na sociedade da informação é crucial saber tratar os dados na velocidade adequada. Dados não tratados e analisados em tempo hábil são dados inúteis, pois não geram informação. Dados passam a ser ativos corporativos importantes e como tal podem e deverão ser quantificados econômicamente.
Big Data representa um desafio tecnológico, pois demanda atenção à infraestrutura e tecnologias analíticas. O processamento de massivos volumes de dados pode ser facilitado pelo modelo de computação em nuvem, desde, é claro, que este imenso volume não seja transmitido repetidamente via Internet . Só para lembrar, os modelos de cobrança pelo uso de nuvens públicas tendem a gerar processamentos muito baratos, mas tornam caro massivas transmissões de dados.
A principal base tecnológica para Big Data Analytics é o Hadoop e os bancos de dados NoSQL, onde No significa Not Only SQL, ou seja, usa-se bases de dados SQL e não SQL. A importância do “Not Only” SQL explica-se pelo fato do modelo relacional ser baseado no fato que, na época de sua criação, início dos anos 70, acessar, categorizar e normalizar dados era bem mais fácil que hoje. Praticamente não existiam dados não estruturados circulando pelos computadores da época . Também não foi desenhado para escala massiva nem processamento extremamente rapido. Seu objetivo básico era possibilitar a criação de queries que acessacem bases de dados corporativas e, portanto, estruturadas. Para soluções Big Data tornam-se necessárias varias tecnologias, desde bancos de dados SQL a softwares que utilizem outros modelos, que lidem melhor com documentos, grafos, processamento paralelo, etc.
A complexidade do Big Data vem à tona quando lembramos que não estamos falando apenas de armazenamento e tratamento analítico de massivos volumes de dados, mas de revisão ou criação de processos que garantam a qualidade destes dados e de processos de negócio que usufruam dos resultados obtidos. Portanto Big Data não é apenas um debate sobre tecnologias, mas principalmente como os negócios poderão usufruir da montanha de dados que está agora à sua disposição . Aí emerge a questão da integração: como integrar bases de dados estruturadas e não estruturadas, com diversos softwares envolvidos?
Big Data abre oportunidades profissionais bem amplas. Na minha opinião, existe espaço para dois perfis profissionais, um mais voltado a negócios, qualificados para tratar analiticamente as informações geradas por estas imensas bases de dados e outro com viés mais técnico, ou Data Architect . Pelo viés dos negócios, um artigo interessante que foi publicado há poucos meses pelo Wall Street Journal, edição brasileira, aponta como problema a escassez de talentos. O artigo “MBAs agora preparam mineiros de dados” pode ser acessado aqui . O artigo diz que muitas empresas americanas começaram a procurar profissionais que saibam interpretar os números usando a análise de dados, também conhecida como inteligência empresarial. Mas encontrar profissionais qualificados tem se mostrado difícil . Daí que várias faculdades americanas, como a Faculdade de Pós-Graduação em Administração da Universidade Fordham e a Faculdade de Administração Kelley, da Universidade de Indiana, começam a oferecer disciplinas eletivas, cursos de extensão e mestrados em análise de dados. Já o Data Architect deve lidar com tecnologias SQL e NoSQL, conhecer profundamente conceitos como stream processing e Event Driven Architecture (EDA) e portanto ter capacidade de desenhar estratégias para manusear e analisar massivos volumes de dados de formatos diferentes quase em tempo real.
A ideia de stream processing ou stream computing é fantástica. É um novo paradigma. No modelo de data mining tradicional uma empresa filtra dados dos seus vários sistemas e após criar um Data Warehouse, dispara “queries”. Na prática faz-se garimpagem em cima de dados estáticos, que não refletem o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás. Com stream computing esta garimpagem é efetuada em tempo real. Em vez de disparar queries em cima de uma base de dados estática, coloca-se uma corrente contínua de dados (streaming data) atravessando um conjunto de queries . Podemos pensar em inúmeras aplicações, sejam estas em finanças, saúde e mesmo manufatura. Vamos ver este último exemplo: um projeto em desenvolvimento com uma empresa de fabricação de semicondutores monitora em tempo real o processo de deteção e classificação de falhas. Com stream computing as falhas nos chips sendo fabricados são detetados em minutos e não horas ou mesmo semanas. Os wafers defeituosos podem ser reprocessados e, mais importante ainda, pode-se fazer ajustes em tempo real nos próprios processos de fabricação.
Quanto a EDA, pode-se começar a estudar o assunto acessando seu verbete na Wikipedia em http ://e n.wi kipe dia. org/ wiki /Eve nt-d rive n_ar chit ectu re .
Big Data deve começar a aparecer na tela do radar dos CIOs em breve. Aliás, já aparece no canto da tela de um ou outro CIO, e provavelmente em alguns anos já estará sendo um dos temas mais prioritários das tradicionais listas de “tecnologias do ano” feitas pelos analistas de indústria . Portanto, é bom estar atento à sua evolução e eventualmente começar a colocar em prática algumas provas de conceito.
0 comentários:
Postar um comentário