Ouvimos muitas previsões. Em 2020, a quantidade de dados armazenados eletronicamente chegará a 35 trilhões de gigabytes, um aumento de 44 vezes a partir de 2009. Já teríamos atingido a casa de 1,2 milhões petabytes, ou 1,2 zettabytes no fim de 2010, segundo a IDC. O equivalente para formar duas pilha de DVDs do tamanho da distância da Terra à Lua - cerca de 240 mil milhas.
Para os alarmistas, esta é uma previsão sinistra do fim do mundo para armazenamento de dados. Para os oportunistas, uma mina de ouro de informação cada vez mais fácil de explorar, com o avanço da tecnologia.
Diante do chamado "Big Data", um grupo emergente de tecnologias de mineração de dados, aliada à supercomputação, está transformando o armazenamento, a manipulação e a análise de dados em tarefas mais baratas e mais rápidas. E tornando grandes massas de dados disponíveis para consulta pelas empresas, mudando a maneira como muitas delas fazem negócios.
A Computerworld define "Big Data" como a mineração de enormes volumes de dados estruturados e não estruturados de informações úteis, usando ferramentas não-tradicionais de data-sifting, incluindo Hadoop.
Assim como "a nuvem", o "Big Data" tem sido objeto de muito hype e muita incerteza. Pedimos a alguns analistas e entusiastas para explicar o que cabe e não cabe no conceito.
Estágios para o "Big Data"
Em parte, o "Big Data" surgiu a partir do menor custo de poder de computação e ao fato de os sistemas passarem a ser capazes de realizar multiprocessamento. Os custos de memória principal também caíram, e as empresas passaram a poder processar mais dados "na memória". Além disso, ficou mais fácil juntar computadores em clusters de servidores. Essas três coisas combinadas criaram grandes repositórios de dados, diz Carl Olofson, analista de gerenciamento de banco de dados da IDC.
"Não podemos apenas fazer as coisas melhor, mas torná-las acessível", diz ele. "Alguns dos grandes supercomputadores multiprocessados do passado também foram unido em clusters, mas a um custo de centenas de milhares de dólares ou mais, por estarem em hardware especializado. Agora podemos alcançar esses tipos de configurações com hardware commodity. Isso é o que nos ajudou a ser capazes de processar dados de forma mais rápida e mais barata."
Nem toda empresa com vastos armazéns de dados pode dizer que ele está usando tecnologias "Big Data". Para se qualificar como "Big Data", diz IDC, a tecnologia deve primeiro ser acessível, e depois reunir dois dos três critérios que a IBM descreve como os três Vs: variedade, volume e velocidade.
Variedade significa o uso de dados estruturados e não estruturados. Volume significa uma quantidade muito grande de dados sendo recolhida e analisado. E velocidade refere-se à rapidez com que os dados são processados.
"Dependendo do caso, e da natureza do dado, algumas centenas de gigabytes podem muito bem caracterizar "Big Data" por causa da terceira dimensão, que é a da velocidade ou tempo necessário para processamento", diz Olofson. Se passo a poder realizar um processo analítico em 300GB de dados em um segundo, e isso costumava levar uma hora, muda muito o que eu posso fazer com os resultados gerados, agregando mais valor ao dado. Portanto, "Big Data" é toda aplicação acessível a pelo menos dois dos três Vs", diz ele.
"Muitas pessoas consideram Hadoop e "Big Data" sinônimos. Isso é um erro", afirma Olofson. Algumas implementações da Teradata, MySQL e "tecnologias de clusters inteligentes" que não usam o Hadoop também podem ser consideradas "Big Data", explica.
O Hadoop, um ambiente de aplicação para "Big Data", tem atraído mais atenção porque é baseado no MapReduce, projeto financiado, em grande parte, pelo Google, que o usa para acelerar as pesquisas endereçadas ao seu buscador. O Hadoop é a implementação predominante de uma mistura de projetos intimamente relacionados ao Apache, incluindo o banco de dados HBase encontrado no ambiente MapReduce, e vem sendo usado para aplicações analíticas de dados massivos.
Desenvolvedores de software têm trabalhado com todos os tipos de técnicas para explorar o Hadoop e tecnologias avançadas similares - muitas delas desenvolvidas em comunidades open-source. "Eles criaram uma variedade estonteante dos chamados bancos de dados NoSQL", explica Olofson.
Como as tecnologias open-source não são suportados comercialmente, as coisas vão ter de evoluir por um tempo. Fala-se em vários anos. Esse é o aspecto que pode atrasar um pouco a adoção de tecnologia "Big Data". A IDC espera que pelo menos três fornecedores comerciais ofereçam algum tipo de serviços de suporte para Hadoop até o final do ano. Além disso, vários fornecedores, como Datameer, pretendem lançar ferramentas de análise de componentes que permitam as empresas desenvolverem seus próprios aplicativos Hadoop.
A base das distribuições Hadoop é a comunidade Apache. Diversas empresas vem contribuindo com código para seu desenvolvimento, como Yahoo, Facebook, Cloudera, IBM e outras. Em torno do código base, surgem as distribuições, como Cloudera e DataStax, que agregam valor com utilitários e serviços de suporte e educação no mesmo modelo das distribuições Linux. Interessante que a distribuição da DataStax, chamado de Brisk, substituiu o HDFS por um sistema de arquivos distribuídos baseados no software NoSQL Cassandra, chamado agora de CassandraFS.
Especialistas discordam se os atuais sistemas de gerenciamento de banco de dados relacionais também devam ser considerados tecnologia "Big Data". "Acho que satisfazem os critérios de mais rápido, maior, e mais barato", argumenta Olofson. A Teradata, por exemplo, tornou o seu sistema mais acessível, em um ambiente escalável, acrescenta. Mas nem todos pensam assim.
Então, quem está realmente fazendo análise de "Big Data"?
Um ano atrás, os principais usuários da tecnologia de dados eram grandes empresas da Web, tais como Facebook e Yahoo, que precisam tratar volumes massivos de dados não estruturados. Mas hoje, o interesse está mais pulverizado. Praticamente qualquer empresa que você pode pense tem grandes volumes de dados para processar", diz Marcus Collins, analista de gerenciamento de dados do Gartner. Bancos, serviços públicos, a comunidade de inteligência - todos eles estão entrando na onda do "Big Data".
Algumas das tecnologias estão sendo usadas ativamente por pessoas envolvidas na criação de serviços baseados na Web, influenciados pela mídia social. Eles também estão contribuindo fortemente para estes projetos.
O pessoal da área de Marketing vem fazendo experiências com Hadoop para "análise de sentimentos" na mídia social. Prestadores de serviços são usuários emergentes do Hadoop para peneirar o Twitter atrás do que seus clientes estão dizendo e pensando sobre produtos específicos.
Proceda com cuidado
A tecnologia "Bidg Data" está evoluindo rapidamente. As empresas que já estão usando têm equipes de TI com excepcional conhecimento técnico e podem se adaptar aos avanços da tecnologia e às exigências de suas empresas.
"Se você não estiver pronto para de fazer isso, então trabalhe com um fornecedor de serviços - talvez um serviço de cloud- ou espere o ecossistema amadurecer", sugere Olofson.
Não há dúvida de que a mineração de dados está mudado para sempre. Mas analistas dizem que a tecnologia "Big Data" não vai substituir completamente o data warehouse e as ferramentas de mineração de dados.
0 comentários:
Postar um comentário