[NOVOS TEMPOS] Do Data Warehouse para o Data Lake


Fonte: CiênciaeDados

Lago Lüner, Nuvens, Espelhamento, Água, Céu, Azul, Lago 

O Data Warehouse tem sido a base para aplicações de Business Intelligence nas últimas décadas. Entretanto, está claro o movimento que poderá deixar o Data Warehouse obsoleto em pouco tempo, pois o Big Data está trazendo consigo a necessidade de criação de novos modelos e estratégias de armazenamento de dados. Existe uma diferença básica entre armazenar os dados (databases, logs, arquivos, etc…) e analisar e compreender os dados. E o benefício de analisar os dados está ainda muito abaixo do que pode ser atingido com uma análise mais eficaz e robusta. Ou seja, novos métodos de análise, requerem novos métodos de armazenamento.

O Data Warehouse possui uma limitação clara. Os dados são armazenados a partir de diversas fontes em uma estrutura estática e específica que define o tipo de análise que será feita nos dados já no ponto de entrada. Esta estratégia era suficiente nos primeiros estágios da evolução do Business Intelligence, quando a análise era basicamente feita em bancos de dados internos da empresa e o escopo era restrito a relatórios e dashboards específicos.

Mas esta estratégia não tem se mostrado suficiente no mundo do Big Data, onde é muito mais complicado (para não dizer impossível), definir o tipo de análise que será feita, antes de armazenar os dados. Os dados agora têm como fonte não apenas os bancos de dados internos da empresa, mas as mais variadas fontes como mídias sociais, vídeos, bancos de dados externos, páginas da web, sensores, arquivos, imagens e fotos e até mesmo cliques em um website. Além disso, o volume e velocidade dos dados gerados (características próprias do Big Data), tornam o desafio de análise ainda maior. Outra característica importante do Big Data, é que muitas das questões que serão ponto de partida das análises, não são formuladas antes do armazenamento dos dados. Ou seja, um dos trabalhos do cientista de dados, é fazer análise à medida que os dados vão chegando, detectando tendências e formulando as questões a serem respondidas.

O modelo tradicional de buscar insights em Data Warehouses, que possuem visão limitada dos dados e foram concebidos para responder somente questões específicas, não faz mais sentido no mundo atual de Big Data, onde a descoberta dos dados requer novos modelos e estratégias.
É exatamente aí que os Data Lakes começam a fazer sentido. Os Data Lakes são repositórios para todos os dados aos quais uma empresa quer ter acesso. Os dados são armazenados no seu estado bruto, sem qualquer restrição de esquema ou estrutura. Este modelo, permite uma visão praticamente ilimitada dos dados, possibilitando análise em tempo real.

Há ainda quem acredite que o Data Lake seja apenas um Data Warehouse repaginado. Há ainda quem diga que o nome correto deveria ser Data Swamp (pântano de dados). O fato é: como armazenar o alto volume de dados gerado em alta velocidade? Os modelos tradicionais de DW não suportam esta estrutura. Um Data Lake é um repositório de armazenamento que contém uma grande quantidade de dados brutos em seu formato nativo, incluindo dados estruturados, semi-estruturados e não estruturados. A estrutura e os requisitos de dados não são definidos até que os dados sejam necessários. Ou seja, a primeira preocupação é coletar e armazenar os dados. O tipo de análise a ser feita, é que vai definir quais dados serão usados. Porém o mais importante está garantido: nenhum dado será perdido e estarão sempre a disposição dos analistas e cientistas de dados.

 A tabela abaixo apresenta uma comparação simples entre DW e DL:

Data Warehouse Data Lake
Dados ·      Estruturados ·      Processados ·      Estruturados / Semi-estruturados / Não estruturados ·      Não processados (em estado bruto)
Processamento ·      Esquema de dados gerado no momento da escrita ·      Esquema de dados gerado no momento da leitura
Armazenamento ·      Alto custo para alto volume de dados ·      Criado para ser de baixo custo, independente do volume de dados
Agilidade ·      Pouco ágil, configuração fixa ·      Bastante ágil, pode ser configurado e reconfigurado conforme necessário
Segurança ·      Estratégias de segurança bastante maduras ·      Ainda precisa aperfeiçoar o modelo de segurança e acesso aos dados
Usuários ·      Analistas de Negócios ·      Cientistas e Analistas de Dados
Um Data Warehouse só armazena os dados que foram modelados / estruturados, enquanto um Data Lake não requer este tipo de processamento prévio. O DL armazena tudo: estruturado, semi-estruturado e não estruturado. Antes de carregar dados em um Data Warehouse, primeiro precisamos dar-lhe alguma forma e estrutura, ou seja, precisamos fazer a modelagem. Isso é chamado de schema-on-write. Com um Data Lake, basta carregar os dados brutos, tal como estão na fonte e quando você estiver pronto para utilizar os dados, é que se define a forma e a estrutura. Isso é chamado de schema-on-read. Duas abordagens diferentes. Qual das duas você acha que faz mais sentido para o Big Data?

É importante notar que, embora tanto o Data Warehouse quanto o Data Lake sejam repositórios de armazenamento, o Data Lake não é Data Warehouse 2.0. Se o Data Lake será um substituto para o DW? Eu apostaria que sim. Quem trabalha com tecnologia, sabe que elas vêm, cumprem seu papel e se vão. As tecnologias evoluem e isso é absolutamente normal. Já está claro que ainda estamos no começo da explosão dos dados e as empresas precisam de novas estruturas que permitam coletar informação útil do Big Data. E olha que ainda nem estamos considerando o incrível volume de dados gerado pela Internet das Coisas.

Imagino que você possa estar se perguntando: “Ok, mas como crio um Data Lake? “. Isso será assunto para outro post.

David Matos
Compatilhe no Google Plus

Sobre Grimaldo Oliveira

Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC) com o projeto “GESMOODLE – Ferramenta de acompanhamento do aluno de graduação, no ambiente virtual de aprendizagem(MOODLE), no contexto da UNEB“. Possui também Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 15 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente é editor do blog BI com Vatapá. Livro: BI COMO DEVE SER - www.bicomodeveser.com.br

0 comentários: