Fonte: CiênciaeDados
O Data Warehouse tem sido a base para
aplicações de Business Intelligence nas últimas décadas. Entretanto,
está claro o movimento que poderá deixar o Data Warehouse obsoleto em
pouco tempo, pois o Big Data está trazendo consigo a necessidade de
criação de novos modelos e estratégias de armazenamento de dados. Existe
uma diferença básica entre armazenar os dados (databases, logs,
arquivos, etc…) e analisar e compreender os dados. E o benefício de
analisar os dados está ainda muito abaixo do que pode ser atingido com
uma análise mais eficaz e robusta. Ou seja, novos métodos de análise,
requerem novos métodos de armazenamento.
O Data Warehouse possui uma limitação
clara. Os dados são armazenados a partir de diversas fontes em uma
estrutura estática e específica que define o tipo de análise que será
feita nos dados já no ponto de entrada. Esta estratégia era suficiente
nos primeiros estágios da evolução do Business Intelligence, quando a
análise era basicamente feita em bancos de dados internos da empresa e o
escopo era restrito a relatórios e dashboards específicos.
Mas esta estratégia não tem se mostrado
suficiente no mundo do Big Data, onde é muito mais complicado (para não
dizer impossível), definir o tipo de análise que será feita, antes de
armazenar os dados. Os dados agora têm como fonte não apenas os bancos
de dados internos da empresa, mas as mais variadas fontes como mídias
sociais, vídeos, bancos de dados externos, páginas da web, sensores,
arquivos, imagens e fotos e até mesmo cliques em um website. Além disso,
o volume e velocidade dos dados gerados (características próprias do
Big Data), tornam o desafio de análise ainda maior. Outra característica
importante do Big Data, é que muitas das questões que serão ponto de
partida das análises, não são formuladas antes do armazenamento dos
dados. Ou seja, um dos trabalhos do cientista de dados, é fazer análise à
medida que os dados vão chegando, detectando tendências e formulando as
questões a serem respondidas.
O modelo tradicional de buscar insights
em Data Warehouses, que possuem visão limitada dos dados e foram
concebidos para responder somente questões específicas, não faz mais
sentido no mundo atual de Big Data, onde a descoberta dos dados requer
novos modelos e estratégias.
É exatamente aí que os Data Lakes
começam a fazer sentido. Os Data Lakes são repositórios para todos os
dados aos quais uma empresa quer ter acesso. Os dados são armazenados no
seu estado bruto, sem qualquer restrição de esquema ou estrutura. Este
modelo, permite uma visão praticamente ilimitada dos dados,
possibilitando análise em tempo real.
Há ainda quem acredite que o Data Lake
seja apenas um Data Warehouse repaginado. Há ainda quem diga que o nome
correto deveria ser Data Swamp (pântano de dados). O fato é: como
armazenar o alto volume de dados gerado em alta velocidade? Os modelos
tradicionais de DW não suportam esta estrutura. Um Data Lake é um
repositório de armazenamento que contém uma grande quantidade de dados
brutos em seu formato nativo, incluindo dados estruturados,
semi-estruturados e não estruturados. A estrutura e os requisitos de
dados não são definidos até que os dados sejam necessários. Ou seja, a
primeira preocupação é coletar e armazenar os dados. O tipo de análise a
ser feita, é que vai definir quais dados serão usados. Porém o mais
importante está garantido: nenhum dado será perdido e estarão sempre a
disposição dos analistas e cientistas de dados.
A tabela abaixo apresenta uma comparação simples entre DW e DL:
Data Warehouse | Data Lake | |
Dados | · Estruturados · Processados | · Estruturados / Semi-estruturados / Não estruturados · Não processados (em estado bruto) |
Processamento | · Esquema de dados gerado no momento da escrita | · Esquema de dados gerado no momento da leitura |
Armazenamento | · Alto custo para alto volume de dados | · Criado para ser de baixo custo, independente do volume de dados |
Agilidade | · Pouco ágil, configuração fixa | · Bastante ágil, pode ser configurado e reconfigurado conforme necessário |
Segurança | · Estratégias de segurança bastante maduras | · Ainda precisa aperfeiçoar o modelo de segurança e acesso aos dados |
Usuários | · Analistas de Negócios | · Cientistas e Analistas de Dados |
Um Data Warehouse só armazena os dados
que foram modelados / estruturados, enquanto um Data Lake não requer
este tipo de processamento prévio. O DL armazena tudo: estruturado,
semi-estruturado e não estruturado. Antes de carregar dados em um Data
Warehouse, primeiro precisamos dar-lhe alguma forma e estrutura, ou
seja, precisamos fazer a modelagem. Isso é chamado de schema-on-write.
Com um Data Lake, basta carregar os dados brutos, tal como estão na
fonte e quando você estiver pronto para utilizar os dados, é que se
define a forma e a estrutura. Isso é chamado de schema-on-read. Duas
abordagens diferentes. Qual das duas você acha que faz mais sentido para
o Big Data?
É importante notar que, embora tanto o
Data Warehouse quanto o Data Lake sejam repositórios de armazenamento, o
Data Lake não é Data Warehouse 2.0. Se o Data Lake será um substituto
para o DW? Eu apostaria que sim. Quem trabalha com tecnologia, sabe que
elas vêm, cumprem seu papel e se vão. As tecnologias evoluem e isso é
absolutamente normal. Já está claro que ainda estamos no começo da
explosão dos dados e as empresas precisam de novas estruturas que
permitam coletar informação útil do Big Data. E olha que ainda nem
estamos considerando o incrível volume de dados gerado pela Internet das
Coisas.
Imagino que você possa estar se perguntando: “Ok, mas como crio um Data Lake? “. Isso será assunto para outro post.
David Matos
0 comentários:
Postar um comentário