Overview

Atuando de forma direta com problemas complexos e de grande escala, o capítulo de Ciência de Dados tem a missão de desenvolver algoritmos e modelos de inteligência artificial de suporte e automação à tomada de decisões, apoiando-se em ferramentas matemáticas, estatísticas e computacionais. Nós atuamos de forma matricial em times multidisciplinares extremamente conectados aos problemas de negócio.

O capítulo de Ciência de Dados conta com o apoio técnico e operacional dos capítulos de Analytics Engineering e Machine Learning Engineering para o processamento de grandes volumes de dados e a implementação de modelos em escala de produção, além ter à disposição plataformas de DataOps e MLOps de ponta.

Buscamos Cientistas de Dados para integrar o nosso chapter e nos ajudar a criar soluções baseadas em dados para diversas áreas do Magalu.

Requisitos

  • Habilidades em programação com Python ou linguagens equivalentes;
  • Fortes habilidades analíticas quantitativas para interpretar dados, desenvolver features e propor soluções de Ciência de Dados.
  • Sólido conhecimento teórico e prático de técnicas de modelagem de Machine Learning (aprendizado de máquina supervisionado, semi e não supervisionado)
  • Conhecimento prático de bibliotecas e plataformas de DS/ML/IA do mercado (scikit-learn, tensorflow, pytorch, pandas, PySpark, mllib)
  • Habilidade de se comunicar com pessoas do time de negócios e das demais áreas de engenharia;

Conhecimentos e habilidades diferenciais

  • Conhecimento de Bigquery e/ou SQL
  • NLP (nltk, spacy, gensim, etc) e Processamento de Imagem
  • Word Embeddings, Transformers
  • LLMs, IA Generativa e engenharia de Prompt
  • Hugging face e modelos pré-treinados
  • Conhecimento de Kubeflow

Como Cientista de Dados, você poderá:

  • Explorar os dados de forma analítica para compreender sua qualidade e relevância para as modelagens;
  • Propor a criação de novas variáveis preditivas relevantes para os modelos de aprendizado de máquina;
  • Estudar, propor e criar modelos para a detecção de padrões nos dados (ex. CF, Clusterização, Classificação etc.), com o objetivo de fazer previsões automatizadas;
  • Analisar as métricas de aprendizado e generalização dos modelos e fazer sua correlação com métricas de negócio (CTR, Vendas, etc.);
  • Monitorar os modelos em produção (Drift de dados, métrica, tempo de execução, etc);
  • Quando oportuno, publicar os achados científicos em periódicos ou para a comunidade em geral.