Mudanças
nos últimos anos no processo de Machine Learning fizeram com que a
"escola" estatística perdesse espaço para a "escola"
computacional. A simplificação do processo de construção de algoritmos e o
crescimento mundial do uso da Inteligência Artificial tem desesperado os
profissionais do RH, que já enfrentavam dificuldades na contratação de
estatísticos e agora precisam recrutar “Data Scientists”. Afinal, quem é o Data
Scientist?
A
Transformação do Ponto de Vista Técnico
Até
meia duzia de anos atrás, a diferença entre um modelo estatístico (normalmente
uma regressão logística) e uma rede neural era marginal. A rede neural
apresentava uma capacidade de separação ligeiramente maior, ao custo de ser uma
caixa preta. Com o potencial parecido, a adoção de um método ou outro se dava
por questões de preferência para cada cenário ou pelo tipo de profissional
disponível para a criação do algoritmo.
Recentemente
as redes neurais passaram a suportar uma quantidade de camadas muito maiores
(deep learning), o que possibilitou, dentre outras coisas, a exploração efetiva
e surpreendente dos dados não estruturados, como texto, voz, imagens e vídeos.
Com a capacidade de processamento cada vez maior, surgiram os identificadores
de imagem, tradutores simultâneos, "interpretadores" de texto e
outras novidades que surpreendem o mundo.
O
que não mudou e não vai mudar
A
construção corporativa de algoritmos supervisionados (os chamados modelos
preditivos) sempre foi um processo cuja qualidade depende da realização
apropriada de uma série de etapas que continuarão existindo. Eu enfatizo que a
capacidade da execução de cada etapa deste processo de forma eficiente e
criativa tem mais resultado no algoritmo final do que o ajuste e o método
utilizado. São elas:
Entrevistas:
O
Data Scientist, em sua formação original, não está ligado ao tema para o qual
desenvolverá o modelo. Normalmente um profissional da área de exatas, ele
criará algoritmos para os diferentes processos de tomada de decisão
corporativos ou acadêmicos. É necessário um entendimento do problema, o que se
dá com a entrevista dos profissionais da área. O Data Scientist pode trabalhar
desde a previsão de mortalidade de borboletas africanas até decisão de
publicação de advertising para a terceira idade. A versatilidade, a capacidade
de aprendizado e compreensão de áreas não ligadas à sua formação original é um
grande diferencial aqui.
Compreensão
do fenômeno: Uma
vez entendido o ambiente, há que se estudar o que explica o fenômeno a ser
predito, ou seja, por quê o fenômeno acontece? Quais as relações causais
envolvidas no processo? Um exemplo básico: se você quer prever qual público se
torna inadimplente, deve observar e responder previamente algumas perguntas.
Por que uma pessoa se torna inadimplente? Quando elas contratam o produto, elas
já estariam mal intencionadas? Elas contratam dívidas incompatíveis com a
renda? Existe fraude no processo? Existe pressão de vendas? Estas são algumas
dentre inúmeras perguntas a serem feitas. E existem inúmeras para cada
processo. Um profissional que quer criar algoritmos sem se levantar da cadeira
terá sempre capacidade limitada.
Seleção
de informações relevantes: Compreendidas as possíveis relações causais, onde
estão as informações que poderão explicar o fenômeno? Com a disponibilidade de
informações de fácil acesso (ou nem tanto), explosão das API's, crawlers e
afins, para muitos processos é comum encontrar mais informações relevantes no
(irritante termo) Big Data do que dentro de casa. Um profissional curioso,
antenado e "fuçador" executa bem esta etapa.
Amostragem:
A
escola computacional compreende uso de bases de dados cada vez maiores para
permitirem o ajuste de um gigantes presentes nas múltiplas camadas. Ainda
assim, a definição da variável resposta, a separação da base de dados, a
certificação de uso de dados do passado, a separação dos dados entre ajuste,
validação e teste, etc. requerem bom senso, alguma experiência e algum
conhecimento de estatística.
Trabalho
das Variáveis: Esta
é a única etapa que foi realmente extinta quando se deixa a "escola"
estatística para a "escola" computacional. O desenho artesanal, quase
artístico de variáveis, uma etapa extremamente criativa e que também gera muito
aprendizado acerca do fenômeno, não é mais necessário. Com minha formação
estatística, posso dizer que é uma etapa que deixa saudades. Sua eliminação,
entretanto, aumenta muito a importância da compreensão do fenômeno.
Ajuste
e Avaliação do Ajuste: Com a abordagem computacional, os ajustes e suas
respectivas avaliações ficam muito mais baseados em pesquisa em comunidades e
em tentativa e erro. Com a impossibilidade de compreensão matemática da relação
causal implícita nas equações, os profissionais devem saber pesquisar nas
comunidades as arquiteturas de rede que mais se adequaram para as respectivas
atividades. Uma vez encontrado algo aderente, parte-se para a tentativa e erro
até a convergência de explicação satisfatória do fenômeno. Aqui o processo foi
transformado, exigindo mais conectividade e esforço do que conhecimento técnico
acadêmico.
Implementação: Todas aquelas
API's, extrações de dados internos, crawlers, etc. não são fáceis de serem
implantadas com precisão, estabilidade e principalmente, sem erros. Muitas
vezes não é simples replicar a obtenção efetiva de todas as informações,
principalmente externas, que explicam o fenômeno e foram utilizadas como dados
de entrada. Se um crawler foi utilizado, por exemplo, ele terá que funcionar
sem erros em produção no futuro. Caso a origem seja alterada, ele precisará de
manutenção. Assim como API's. Mais do que um algoritmo, muitas vezes o que foi
desenhado foi uma nova aplicação, que deve ser acompanhada continuamente. O
conhecimento de TI ou o bom relacionamento e diálogo com esta área é
fundamental.
Tudo isso
posto, quem seria o profissional apropriado para Data Science? Seria o que
conseguisse realizar bem todas as etapas acima. Sem nenhuma dúvida,
estatísticos experientes tem fácil capacidade de adaptação a estas mudanças,
aprofundando-se um pouco mais em TI, com suas novas linguagens e arquiteturas.
A escola computacional também gera profissionais plenamente capazes de
executar um bom trabalho desde que consigam executar bem as partes de pesquisa
e entendimento do problema e do fenômeno, além da capacidade de pensar
probabilisticamente. Para tomar uma posição e não ficar em cima do muro: Do
ponto de vista estrito de preparação acadêmica, eu acho que o fiel da balança
penderia ligeiramente para o lado do estatístico. Insisto, porém, que buscar
conhecimento extra em relação às disciplinas escolares seria mais importante do
que a formação em si, qualquer que fosse o curso. A completude, a criatividade e a
visão holística, muito mais do que a álgebra linear, são os grandes
diferenciais aqui.
0 comentários:
Postar um comentário