Sou Gerente de Engenharia de Dados na Educbank (fintech) e uso Databricks como feature platform para unificar pipelines, modelagem com Delta Lake e workflows de ML. No dia a dia:
- desenho e otimizo pipelines batch/streaming (custo, performance e confiabilidade);
- garanto governança & compliance (LGPD/GDPR), versionamento e qualidade;
- lidero times, revisão de código e definição de padrões (PEP-8, clean code, testes).
Databricks (Repos, Workflows, Auto Loader, MLflow) • Apache Spark (PySpark) • Delta Lake (time travel, Z-Ordering) • Orquestração (Airflow, DBT, Databricks Workflows) • AWS (S3, EC2, IAM) • Azure (ADLS Gen2, Event HubsKafka API, Key Vault, Synapse/SQL, Managed Identity) • Python/SQL • Kafka • Terraform • PostgreSQL • MongoDB • GitHub Actions
Trabalho com governança ponta a ponta no Lakehouse, alinhando segurança, catalogação, compartilhamento e auditoria:
- Unity Catalog (UC)
- Catálogo centralizado e RBAC:
USE CATALOG/SCHEMA, privilégios por catálogo, schema, tabela, view, função, volume. - Lineage & descoberta: linhagem de dados fim a fim, tags e classificação para PII/PHI (LGPD/GDPR).
- Segurança granular: row-level e column-level via dynamic views (mascaração/filters por grupo).
- Dados gerenciados e externos: External Locations + Storage Credentials para acesso controlado ao S3.
- Observabilidade nativa: System Tables (acessos, consultas, compute, billing) para auditoria e custos.
- Catálogo centralizado e RBAC:
- Delta Lake
- Schema enforcement & evolution, constraints, OPTIMIZE com Z-Order, Time Travel para auditoria e recuperação.
- Delta Sharing
- Compartilhamento seguro e auditável de tabelas/visualizações com parceiros (UC↔UC ou open recipient).
- Controles de plataforma
- Cluster/SQL Warehouse Policies, Secrets (AWS Secrets Manager/Key Vault), SCIM/SSO, IP access lists.
- Multi-ambiente
- Catálogos por ambiente:
edbk_dev,edbk_stg,edbk_prod(isolamento de dados, acesso por grupos, promotion controlado).
- Catálogos por ambiente:
-- catálogos de ambiente
CREATE CATALOG IF NOT EXISTS edbk_dev COMMENT 'Dev catalog';
CREATE CATALOG IF NOT EXISTS edbk_stg COMMENT 'Staging catalog';
CREATE CATALOG IF NOT EXISTS edbk_prod COMMENT 'Production catalog';
-- esquemas de domínio
CREATE SCHEMA IF NOT EXISTS edbk_prod.finance;
CREATE SCHEMA IF NOT EXISTS edbk_prod.risk;
-- grants mínimos
GRANT USE CATALOG ON CATALOG edbk_prod TO `grp_data_readers`;
GRANT USE SCHEMA ON SCHEMA edbk_prod.finance TO `grp_fin_readers`;
GRANT SELECT ON ALL TABLES IN SCHEMA edbk_prod.finance TO `grp_fin_readers`;- Pipelines em Databricks: notebooks e jobs para ingestão (batch/streaming), Delta Lake e MLflow.
- Orquestração: DAGs do Airflow e Workflows no Databricks para ELT e features de ML.
- Boas práticas: testes, tratamento de schema, particionamento, Z-Ordering, otimização de custos em S3/compute.
Dica: fixe (pin) seus repositórios-chave aqui com uma frase de impacto: problema → solução → resultado (performance/custo/qualidade).
- Arquitetura Lakehouse (Delta Lake, Unity Catalog, governança).
- Pipelines PySpark performáticos e seguros.
- Feature engineering para ML em produção.
- Observabilidade, custo e reliability (SLAs/SLOs).


