Big Data foi a grande novidade da Strata Conference, realizada na
última semana em Nova York (EUA). Fui atraída ao evento tanto pelos
fabricantes que normalmente cubro, como SAP, SAS e Tableau, quanto pelas
startups de análises de grandes dados, como Datameer e Karmasphere.
Há muito falatório sobre o tema, mas também há muita inovação,
benefícios tangíveis e capital de risco apoiando essa novidade. E, pela
perspectiva do mundo já estabelecido de business intelligence, este é o
momento em que Big Data se encontra com BI.
Em primeiro lugar, Big Data é mais do que Hadoop, o sistema de
arquivo distribuído em código aberto capaz de escalonar para lidar com
petabytes de dados. Escalabilidade não é o único atrativo do Hadoop; ele
também pode lidar com dados de multiestruturas, como clickstreams,
tweets, vídeos, comentários do Facebook e mais. É um desafio ter esses
conteúdos como modelo e armazená-los em um banco relacional tradicional.
Na primeira vez que sugeri a outro participante que Big Data era mais
do que Hadoop, ele me avisou que tal comentário poderia ser considerado
blasfêmia durante o Strata.
No mundo tradicional de BI, tecnologias como ferramentas analíticas,
banco de dados colunar e mecanismos in-memory também podem lidar com
grandes dados. Tudo depende se o desafio é questão de volume ou
desempenho, variedade ou complexidade ou outras combinações.
Isso me leva ao primeiro grande anúncio do evento: o Impala, da
Cloudera, um novo mecanismo de pesquisa em tempo real para Hadoop. A
Cloudera é a principal fornecedora de software e suporte Hadoop;
competindo, entre outros, com Hortonworks e MapR.
No ano passado, muitos fornecedores de BI anunciaram suporte ao
Hadoop. O acesso pelo ferramental passou pelo Hive, um warehouse virtual
de dados para Hadoop que tem sua própria linguagem de pesquisa, o
HiveQL. O problema é que HiveQL gera tarefas MapReduce para chegar aos
dados em Hadoop. O MapReduce é orientado a grupo e possui desempenho
lento, em contraste ao BI, que deve ser rápido. Mas, como estamos
falando de petabytes, pedir um pouco de paciência é cabível.
O Impala, diferentemente do Hive, é em tempo real. Com a Cloudera
liderando o desenvolvimento do Impala por quase dois anos, os early
adopters se perguntavam se a tecnologia seria mantida proprietária,
porém, a empresa decidiu liberá-la para a comunidade de código aberto.
Os primeiros fornecedores de BI a oferecerem suporte ao Impala foram
MicroStrategy, Tableau, Pentaho e QlikView. Pentaho citou aprimoramento
de dez veses no desempenho de pesquisa usando o Impala em vez do Hive,
mas reconheceu que ainda não é tão rápido quanto os usuários estão
acostumados no mundo de BI.
Vencendo a impaciência
Então, o que resta ao impaciente usuário de BI? É aqui que entra o
resto da arquitetura de Big Data. Pesquisar enormes volumes de dados
granulados no Hadoop via Hive pode ser lento, portanto, quando uma
exploração inicial é feita, os fabricantes de BI armazenam os resultados
em cache na tecnologia para garantir análise em alta velocidade. É aqui
que soluções como Hana, da SAP; Olap Services, da MicroStrategy (para
in-memory); servidor LASR, da SAS; o Data Engine, da Tableau; ou o
mecanismo in-memory da QlikView entram no jogo. A fornecedora startup
SiSense também estava no Strata, mostrando sua combinação de mecanismos
in-memory e colunar, explorando 1 terabyte de dados em um laptop simples
com apenas 8 gigabyte de RAM.
Com o Hadoop ganhando tração, diversos outros novos fornecedores de
visualização e exploração de dados surgem para atender este framework.
Não é isso o que os fabricantes de BI com conectores Hadoop fazem? Sim,
mas eles também podem acessar dados em um warehouse, em uma ferramenta
analítica ou planilha. O Hadoop pode ou não ser parte do quadro geral.
Novos fornecedores
Quanto aos novos fornecedores orientados a Big Data, como Datameer,
Karmasphere e Platfora, o Hadoop é, definitivamente, parte do quadro
geral – e pode ser todo o quadro. A Datameer, por exemplo, gera suas
próprias tarefas MapReduce (sem depender do Hive) e fornece mais de 40
conectores para fontes como Salesforce, Twitter e Google Ads, que
permitem carregar dados para o Hadoop. Os dados iniciais são explorados
em uma interface em estilo planilha e então armazenados em cache no
mecanismo in-memory da Datameer. A Datameer anunciou um novo app Market,
com 30 aplicativos iniciais gratuitos. A Karmasphere tem uma abordagem
diferente, focada no acesso de dados e geração de pesquisa pelo Hive, e
em parceria com a Tableau para visualização.
A Platfora, atualmente em versão beta, tem um front end atraente que
me lembra o novo Visual Insight, da MicroStrategy, que pesquisa o Hadoop
por tarefas de MapReduce, para criar o que chama de lentes. As lentes
são cache in-memory de conjuntos de dados que o usuário pode explorar
visualmente.
Foi um alívio ver essa mistura de cientistas de dados e tecnólogos no
Strata. As duas áreas parecem reconhecer que a exploração de dados, em
conjunto com a escassez de talento nesse espaço, está criando a
tempestade perfeita, e só os mais inteligentes poderão sobreviver.
A sobrevivência dos mais inteligentes tem sido o tema predominante
durante a recessão. Algumas empresas ainda sofrem para analisar vendas e
quem está comprando o quê. Na economia do Big Data, as análises se
estendem a quem está interessado em seus produtos, quem influencia as
decisões de compra e quem não está engajado, mas deveria estar!
0 comentários:
Postar um comentário