[CONHECIMENTO] Cientista de Dados: o novo profissional que o mercado procura


Fonte:  IGTI



Entenda os desafios que a área de Big Data oferece.

O mundo dos dados vem sofrendo uma grande transformação nos últimos anos e essa mudança diz respeito principalmente à quantidade, variedade e formato dos dados com que temos que lidar. Há algum tempo era suficiente para uma empresa processar seus próprios dados e obter as informações desejadas para a sua tomada de decisão, porém atualmente esse panorama mudou drasticamente. Lembra do famigerado caso em que a relação de compra entre fralda e cerveja eram muito próxima e, por isso, resolveu colocá-los próximos na mesma prateleira  Pois é, somente esse tipo de cruzamento de informações não satisfaz mais o mercado. 
As empresas ainda querem descobrir essas relações, porém desejam também combiná-las com muitas outros dados que não estão em seus grandes bancos de dados estruturados, como, por exemplo, os hábitos de consumo ou acontecimentos recentes na vida de seu cliente. Esses dados estão em posts de redes sociais, blogs e outras fontes externas de dados não-estruturados e são gerados pela facilidade de utilização da Internet, proporcionada principalmente pelo uso crescente de dispositivos móveis, como tablets e smartphones.  Para alcançar essas informações, grande parte das empresas estão dispostas a investir pesado em tecnologia Big Data, conforme aponta um estudo de 2016 que indica que o Big Data é prioridade de investimento para 43,23% das organizações brasileiras. Esse outro estudo concluiu que grande parte das empresas mundiais pretendem investir na tecnologia Big Data nos próximos dois anos.

Perfil comportamental do profissional e Competências

Essa mudança de paradigma na forma como lidamos com dados trouxe também novas exigências para os profissionais que já estão ou que ainda entrarão no mercado de trabalho. O candidato a preencher a lacuna criada por essa nova necessidade precisará apresentar um perfil com algumas características que não eram muito exigidas anteriormente. Esse novo perfil engloba:
  • Proatividade: no mundo do Big Data Analytics, uma empresa que contrata alguém para lidar com grandes bases de dados não sabe exatamente qual a informação está procurando e nem o que pode ser extraído. É necessário que o profissional que se dispõe a lidar com esse novo paradigma tenha a iniciativa de se antecipar e descobrir quais dados são esses, onde eles estão e trazê-los à tona para que se transformem em informação útil.
  • Criatividade e Inovação: não basta o profissional seguir scripts prontos e fazer o que todo mundo já faz. É necessário criar, inovar e ir além dos concorrentes propondo soluções que ainda não foram implementadas e que possam trazer vantagem competitiva para as organizações. Conseguir realizar cruzamentos de dados que ninguém pensou e encontrar a informação mais escondida são capacidades raras e que trazem um grande diferencial para o profissional que se habilita a viver o mundo dos dados.
  • Comunicação:  o profissional de Big Data lida com diversos setores e interesses de uma organização e isso exige uma grande capacidade de comunicação para entender as demandas de cada um dos interessados. Essa comunicação pode envolver também as discussões com sua própria equipe de desenvolvimento, com o objetivo de estruturar e definir as melhores estratégias.
  • Conhecimento tecnológico: proatividade, criatividade e comunicação não são suficientes se o profissional não possuir conhecimento das principais ferramentas que envolvem o Big Data Analytics.  É preciso atualização constante, pois a cada dia novas tecnologias surgem para facilitar o trabalho relacionado à Ciência de Dados. Manter-se atualizado exige um grande esforço e dedicação e isso é um dos atalhos para o sucesso nesse campo de atuação.
Todas essas competências aqui listadas serão muito utilizadas pelas empresas contratantes, como é o caso da Uber, por exemplo, que realiza a análise de grandes massas de dados em tempo real, com o objetivo de regular seus preços. Todas essas informações são fornecidas por meio da Internet por seus próprios clientes ao utilizarem o aplicativo de carona coletiva. Quando a quantidade de solicitações feitas pelos usuários aumenta, o preço segue a mesma tendência. A empresa americana de logística UPS também utiliza o Big Data Analytics para seus mais de 100 mil veículos, por meio de otimizações de cálculos de rotas, cálculo de tempo ocioso dos veículos e recomendação de manutenções preventivas. Após a implantação e utilização de tecnologias Big Data, a empresa relata passou a economizar 5 milhões de litros de gasolina anualmente, uma redução considerável nas manutenções corretivas e maior rapidez nas entregas dos produtos. Grandes empresas do setor financeiro também já utilizam o Big Data Analytics para tentar prever os movimentos de seus clientes. Esse é o caso da American Express, empresa americana de serviços financeiros. Com o uso de ferramentas de Big Data Analytics a gigante do setor de crédito diz ser capaz de identificar clientes que pretendem cancelar seus cartões de crédito com uma antecedência de quatro meses.

Áreas de conhecimento técnico necessárias para Big Data

Para lidar efetivamente com grandes massas de dados, o profissional precisará dominar tecnologias que não tinham grande aplicação no dia-a-dia da computação tradicional, tais como:
  •  Programação Paralela e Distribuída: devido a grande quantidade de dados que serão processados daqui em diante, nosso modelo de programação tradicional (sequencial) não será mais suficiente. Cada vez mais haverá a necessidade que o profissional tenha intimidade com a programação multicore (paralela) e em cluster (distribuída). Nesse caso existem diversos frameworks que se propõem a realizar a paralelização e a distribuição automática do processamento (Hadoop, Spark, HBase, Flink e outros) e, com isso, facilitam a vida dos desenvolvedores.
  •  Banco de Dados não Relacionais: o modelo de banco de dados que estamos acostumados a lidar também não é mais suficiente para atender a quantidade de dados que serão processados aqui para frente. Diante disso surgiram os bancos de dados não-relacionais ou NoSql. As ferramentas MongoDB, CouchDB, HBase, Cassandra e muitos outros devem fazer parte do rol de conhecimentos do profissional de Big Data.
  •  Ferramentas de Coletas de Dados: são programas ou scripts automatizados que escaneiam páginas Web para indexa-las ou mesmo procurar e coletar algum conteúdo específico. Esse processo é chamado de Coleta ou Web Crawling. As principais ferramentas são: Heritrix, Nutch, Scrapy, Spider e muitas outras.
  •  Algoritmos e Linguagens de Programação: as linguagens de programação ainda são muito importantes para esse perfil profissional e é necessário dominar algumas já conhecidas, como JAVA, C++, C# e Perl e também outras que estão ficando mais populares ultimamente, tais como Python e Scala.
  •  Técnicas: além das ferramentas, diversas técnicas também precisam também ser muito bem conhecidas pelo profissional de Big Data. As principais delas são: Teoria de Grafos, coletas de dados da Web (Web Crawler), Aprendizado de Máquina (Machine Learning), Inteligência Artificial e técnicas de Análise de Sentimentos.
  •  Computação em Nuvem: a computação em nuvem surgiu para facilitar a tarefa de lidar com grandes massas de dados. Com essa tecnologia é possível adquirirmos processamento e armazenamento por demanda em grandes servidores, como por exemplo Amazon, Microsoft Azure e Google. A grande maioria das empresas utilizam esse recurso devido ao seu custo menor, facilidade de manutenção, expansão e configuração e, principalmente, alta disponibilidade. O profissional de Big Data deve estar familiarizado com esse ambiente.
  •  Sistemas Operacionais: o profissional lida diretamente com diversos sistemas operacionais, seja nos dispositivos que geram os dados ou nas aplicações que processam esses dados (Linux, Windows, IoS, Android). Além disso é necessário realizar operações em uma grande quantidade de versões e distribuições desses sistemas operacionais.
  •  Outras Tecnologias: além das tecnologias aqui destacadas, o profissional deverá dominar as tecnologias e ferramentas tradicionais que são comuns a qualquer tipo de software, tais como Modelagem UML, Bancos de Dados Relacionais (MySQL, Postgresql, Oracle, etc), técnicas de Engenharia de Software, etc.
Para atender esse novo conjunto de exigências técnicas, surgiu um novo perfil denominado Cientista de Dados. Esse profissional deverá estar preparado para oferecer soluções em ferramentas e técnicas de extração, processamento e armazenamento de grandes quantidades de dados. Adicionalmente, para modelar soluções, ele deverá possuir bons conhecimentos em outras áreas correlatas, tais como Matemática, Estatística, Algoritmos, Marketing e Economia. A capacidade de argumentação, comunicação, liderança, curiosidade, perspicácia e habilidade em transformar o seu conhecimento tecnológico em lucro para as empresas completam o perfil desse profissional desde já disputado no mercado de trabalho.  
Como se tudo isso não fosse suficiente, exige-se ainda que o profissional conheça da área de atuação do seu cliente, ou seja, é preciso conhecer do negócio em que vai trabalhar, seja ele da área varejista, telecomunicações, mídia, logística, finanças, órgão público, entretenimento ou qualquer outro.  Esse conhecimento do negócio do cliente é algo de extrema importância, pois o Cientista de Dados precisa saber quais dados possuem relevância concreta para o negócio e, com isso, conseguir realizar análises e cruzamentos de dados com maior qualidade e taxa de acerto.

Tarefas e atividades que realiza e problemas típicos enfrentados pelo cientista de dados

As atividades desempenhadas pelo profissional de Ciência dos Dados englobam principalmente a solução de problemas complexos e, na maioria das vezes, inéditos, pois a repetição e monotonia são raras no dia-a-dia desse requisitado profissional. Rotineira será apenas a produção de informações importantes e úteis para que os gestores de diversas áreas possam realizar a tomada de decisão da maneira mais acertada possível. Produzir esses resultados não é algo trivial, pois as informações que todos desejam podem estar muito bem escondidas e alcançá-las com tempo e custo aceitáveis pode ser algo extremamente complicado. Nesse ponto são importantes exaustivos experimentos com diferentes modelos de simulações, variadas técnicas e diversos cruzamentos de dados, pois é justamente na insistência e nas muitas repetições realizadas com parâmetros mais calibrados que o Cientista de Dados pode encontrar a informação mais adequada e valiosa e, com isso, mostrar o seu verdadeiro diferencial. O responsável por compilar as informações deverá estar muito atento para não gastar mais recursos financeiros do que a informação realmente vale e para não demorar muito a apresentar os resultados, pois caso isso aconteça, a informação poderá estar disponível quando ninguém mais precisa dela. Esse é o dinamismo comum às empresas modernas.
Algumas atividades realizadas pelo Cientista de Dados:
  •  Coleta: obtenção dos dados úteis que podem estar disponíveis na Web ou mesmo na própria empresa em formatos e tamanhos variados, como e-mails, documentos PDF, textos avulsos, áudios, vídeos, etc.
  •  Preparação: nessa atividade o Cientista irá “limpar” os dados que foram coletados na etapa anterior. Preocupa-se aqui com a qualidade dos dados e descarta-se o que não é necessário ou redundante. Nessa fase os dados são preparados para o efetivo processamento.
  •  Processamento: aqui os dados que foram coletados e preparados serão finalmente processados, utilizando as ferramentas específicas para esse fim e também diversas técnicas, como Machine Learning, Aprendizagem Profunda (Deep Learning), Análise de Texto (Text Analytics) ou Teoria de Grafos.
  •  Apresentação de Resultados: por último os resultados do processamento precisam ser compilados e apresentados de uma maneira simples e direta, muitas vezes utilizando painéis (dashboards), que são mais eficientes para o auxílio às tomadas de decisões.
Compatilhe no Google Plus

Sobre Grimaldo Oliveira

Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC) com o projeto “GESMOODLE – Ferramenta de acompanhamento do aluno de graduação, no ambiente virtual de aprendizagem(MOODLE), no contexto da UNEB“. Possui também Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 15 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente é editor do blog BI com Vatapá. Livro: BI COMO DEVE SER - www.bicomodeveser.com.br

0 comentários: