Hard Skills
- Domínio de Linguagens de Programação: Python e Java são essenciais, com conhecimento avançado em bibliotecas como Pandas, PySpark e frameworks como Spring.
- Scala também é altamente desejável para trabalhar com frameworks de Big Data.
- SQL Avançado: Não basta apenas conhecer o básico. Um engenheiro sênior precisa dominar SQL, incluindo otimização de queries, procedures, funções e modelagem de dados complexa.
- Profundo Conhecimento em Bancos de Dados: Experiência com bancos de dados relacionais (PostgreSQL, Oracle, SQL Server) e NoSQL (MongoDB, Cassandra, Redis), incluindo design de esquemas, otimização de performance e administração.
- ETL/ELT Avançado: Dominar ferramentas e frameworks de ETL/ELT como Apache Kafka, Apache NiFi, Spark Streaming e Airflow para construir pipelines de dados complexos e eficientes.
- Big Data: Experiência com ecossistema Hadoop (HDFS, Hive, Pig), Spark, e plataformas de processamento distribuído como Flink.
- Conhecimento de arquiteturas lambda e kappa.
- Cloud Computing: Experiência com plataformas cloud como AWS (S3, EC2, EMR, Redshift), Azure (Blob Storage, Data Lake, HDInsight) ou Google Cloud (GCS, Dataproc, BigQuery), incluindo serviços de gerenciamento de dados, orquestração e serverless.
- Arquitetura de Dados: Desenvolver arquiteturas de dados robustas, escaláveis e seguras, considerando diferentes padrões de arquitetura (data lake, data warehouse, data mesh) e as necessidades do negócio.
- Segurança de Dados: Implementar medidas de segurança como criptografia, controle de acesso e governança de dados para garantir a confidencialidade, integridade e disponibilidade dos dados.
Diferenciais:
- Conhecimento em Streaming de Dados: Processamento de dados em tempo real com tecnologias como Kafka Streams, Spark Streaming e Flink.
- Machine Learning: Compreensão de conceitos de Machine Learning para construir pipelines de dados que suportem modelos de ML e integrar dados com plataformas de Machine Learning.
- MLOps: Conhecimento de práticas de MLOps para automatizar e gerenciar o ciclo de vida de modelos de Machine Learning.
- Data Governance: Definir e implementar políticas e processos de governança de dados para garantir a qualidade, consistência e conformidade dos dados.
- Monitoramento e Observabilidade: Implementar ferramentas e processos de monitoramento para garantir a saúde e performance dos sistemas de dados, utilizando plataformas como Prometheus, Grafana e ferramentas de logging.
|