Fonte: CiênciaeDados
O Hadoop está se tornando o coração da infraestrutura de Big Data (clique aqui
para acessar o post com a introdução sobre Hadoop), o que vai
revolucionar o sistema tradicional de armazenamento em bancos de dados
como conhecemos hoje. Além de gratuito, o Hadoop foi criado para ser
usado em hardware de baixo custo, uma combinação essencial para empresas
que buscam reduzir seus custos de infraestrutura de TI e ainda
capitalizar os benefícios do Big Data.
Hadoop é usado principalmente por
empresas que lidam com grandes quantidades de dados, sendo usado para o
processamento dos dados, análises e geração de relatórios. Atualmente
todas as organizações líderes em seus segmentos, incluindo Facebook,
Google, Yahoo, Amazon, IBM, New York Times, etc… estão usando Hadoop.
O Hadoop MapReduce é uma das armas
secretas do Google, por exemplo. Ele é utilizado para dividir o grande
volume de dados do sistema de busca, em pedaços menores e, portanto,
mais fáceis para processamento. O Hadoop é um projeto open-source.
Mas você pode estar se perguntando: Se o Hadoop é open-source, porque eu usaria soluções comerciais de Big Data?
Soluções comerciais de Big Data com Hadoop, possuem as seguintes características:
- Suporte – as principais soluções comerciais do Hadoop oferecem suporte, guias, assistência e melhores práticas.
- Confiança – sempre que o um bug é detectado, as soluções comerciais prontamente atualizam o software.
- Pacote completo – as soluções oferecem pacotes completos, com tudo que é necessário para uma infraestrutura de Big Data.
O gráfico abaixo mostra o universo de
distribuições comerciais do Hadoop disponíveis. Na sequência, falaremos
sobre as principais soluções.
Cloudera
Cloudera Hadoop ocupa o topo na lista de
grande fornecedores de dados Hadoop pois possui uma plataforma
confiável para uso comercial desde 2008. Cloudera, fundada por um grupo
de engenheiros da Yahoo, Google e Facebook – está focada em fornecer
soluções empresariais de Hadoop. Cloudera Hadoop possui cerca de 350
clientes, incluindo o Exército dos EUA, AllState e Monsanto. Alguns
deles com implantação de 1000 nós em um cluster Hadoop para análise de
dados de cerca de um Petabyte. Cloudera possui um sistema amigável de
gestão, chamado Cloudera Manager, para gestão de dados e que possui
suporte técnico.
Hortonworks
Hortonworks Data Platform (HDP) é uma
suíte de funcionalidades essenciais para implementação do Hadoop, que
pode ser usado para qualquer plataforma tecnológica de dados. O
principal objetivo da Hortonworks é conduzir todas as suas inovações
através da plataforma de dados abertos Hadoop e construir um ecossistema
de parceiros que acelera o processo de adoção Hadoop entre empresas.
Apache Ambari é um exemplo de console de gerenciamento do cluster Hadoop
desenvolvido pelo fornecedor Hortonworks. A Hortonworks tem atraído
mais de 60 novos clientes a cada trimestre com algumas contas gigantes
como Samsung, Spotify, Bloomberg e eBay. Hortonworks tem atraído também
fortes parcerias de engenharia com RedHat, Microsoft, SAP e Teradata.
MapR
MapR Data Plarform suporta mais de 20
projetos open-source. MapR foi reconhecida amplamente por suas
distribuições avançadas em Hadoop, no relatório do Gartner “Super
Fornecedores em Infraestrutura da Informação e Big Data, 2012”. A
Plataforma de Dados MapR visa garantir a implementação do Hadoop em
ambiente de produção com uma arquitetura projetada especificamente para
aplicações críticas, acesso a dados e integração, além da capacidade
para executar o processamento de aplicações analíticas em tempo real.
Pivotal HD
Pivotal HD é uma distribuição comercial
do Hadoop. Ele consiste em um conjunto de ferramentas que visam acelerar
projetos de análise de dados e expandir as funcionalidades do Hadoop.
Possui capacidade de análise em tempo real e decisões de processos de
negócio podem ser tomadas quase que imediatamente a análise dos dados.
Amazon Web Services Elastic MapReduce Hadoop
A distribuição Hadoop da Amazon, foi uma
das primeiras distribuições do Hadoop. AWS Elastic MapReduce é uma
plataforma de análise de dados bem organizada e construída sobre a
arquitetura HDFS. Amazon Elastic MapReduce (Amazon EMR) é um web service
que facilita o processamento de grandes quantidades de dados, de forma
rápida e rentável. Amazon EMR simplifica o processamento de Big Data.
Amazon EMR está entre uma das distribuições comerciais do Hadoop com a
maior participação no mercado global.
IBM InfoSphere BigInsights Hadoop Distribution
IBM InfoSphere BigInsights é uma
distribuição Hadoop da IBM. Com IBM Hadoop usuários podem facilmente
configurar e mover dados para clusters Hadoop em não mais de 30 minutos,
com taxa de processamento de dados de 60 centavos de dólar por cluster
Hadoop, por hora. Com o IBM BigInsights, os clientes podem acelerar seus
projetos de Big Data e análise de dados, aproveitando o poder do
Hadoop.
Microsoft Hadoop Distribution
A Forrester classifica a distribuição
Microsoft Hadoop como grau 4 (em uma escala que vai até 5). A nível de
exemplo, Cloudera e Hortonworks estão classificados como grau 5. O
Hadoop foi criado com base no Unix, mas a Microsoft tem feito esforços
para que o Hadoop execute em máquinas Windows. O Hadoop é oferecido pela
Microsoft nas suas soluções de Big Data, através do Windows Azure
HDInsight. É possível executar queries Hadoop para buscar dados no SQL
Server, banco de dados relacional da Microsoft.
Com os grandes players do mercado voltando suas atenções para o Hadoop e o Big Data, este com certeza é o caminho a se seguir.
David Matos
0 comentários:
Postar um comentário