Otávio Ribeiro Donotavio

Olá 👋, eu sou o Otávio Ribeiro

Data Engineering Manager @ Educbank — Databricks • Spark • Delta Lake • Orquestração

Sobre mim

Sou Gerente de Engenharia de Dados na Educbank (fintech) e uso Databricks como feature platform para unificar pipelines, modelagem com Delta Lake e workflows de ML. No dia a dia:

desenho e otimizo pipelines batch/streaming (custo, performance e confiabilidade);
garanto governança & compliance (LGPD/GDPR), versionamento e qualidade;
lidero times, revisão de código e definição de padrões (PEP-8, clean code, testes).

Stack principal (foco em produção)

Databricks (Repos, Workflows, Auto Loader, MLflow) • Apache Spark (PySpark) • Delta Lake (time travel, Z-Ordering) • Orquestração (Airflow, DBT, Databricks Workflows) • AWS (S3, EC2, IAM) • Azure (ADLS Gen2, Event HubsKafka API, Key Vault, Synapse/SQL, Managed Identity) • Python/SQL • Kafka • Terraform • PostgreSQL • MongoDB • GitHub Actions

Governança no Databricks (Unity Catalog, Delta Sharing & Segurança)

Trabalho com governança ponta a ponta no Lakehouse, alinhando segurança, catalogação, compartilhamento e auditoria:

Unity Catalog (UC)
- Catálogo centralizado e RBAC: USE CATALOG/SCHEMA, privilégios por catálogo, schema, tabela, view, função, volume.
- Lineage & descoberta: linhagem de dados fim a fim, tags e classificação para PII/PHI (LGPD/GDPR).
- Segurança granular: row-level e column-level via dynamic views (mascaração/filters por grupo).
- Dados gerenciados e externos: External Locations + Storage Credentials para acesso controlado ao S3.
- Observabilidade nativa: System Tables (acessos, consultas, compute, billing) para auditoria e custos.
Delta Lake
- Schema enforcement & evolution, constraints, OPTIMIZE com Z-Order, Time Travel para auditoria e recuperação.
Delta Sharing
- Compartilhamento seguro e auditável de tabelas/visualizações com parceiros (UC↔UC ou open recipient).
Controles de plataforma
- Cluster/SQL Warehouse Policies, Secrets (AWS Secrets Manager/Key Vault), SCIM/SSO, IP access lists.
Multi-ambiente
- Catálogos por ambiente: edbk_dev, edbk_stg, edbk_prod (isolamento de dados, acesso por grupos, promotion controlado).

Exemplos práticos (SQL)

1) Catálogos por ambiente + RBAC

-- catálogos de ambiente
CREATE CATALOG IF NOT EXISTS edbk_dev COMMENT 'Dev catalog';
CREATE CATALOG IF NOT EXISTS edbk_stg COMMENT 'Staging catalog';
CREATE CATALOG IF NOT EXISTS edbk_prod COMMENT 'Production catalog';

-- esquemas de domínio
CREATE SCHEMA IF NOT EXISTS edbk_prod.finance;
CREATE SCHEMA IF NOT EXISTS edbk_prod.risk;

-- grants mínimos
GRANT USE CATALOG ON CATALOG edbk_prod TO `grp_data_readers`;
GRANT USE SCHEMA ON SCHEMA edbk_prod.finance TO `grp_fin_readers`;
GRANT SELECT ON ALL TABLES IN SCHEMA edbk_prod.finance TO `grp_fin_readers`;

Métricas

Projetos & exemplos técnicos

Pipelines em Databricks: notebooks e jobs para ingestão (batch/streaming), Delta Lake e MLflow.
Orquestração: DAGs do Airflow e Workflows no Databricks para ELT e features de ML.
Boas práticas: testes, tratamento de schema, particionamento, Z-Ordering, otimização de custos em S3/compute.

Dica: fixe (pin) seus repositórios-chave aqui com uma frase de impacto: problema → solução → resultado (performance/custo/qualidade).

Como posso ajudar

Arquitetura Lakehouse (Delta Lake, Unity Catalog, governança).
Pipelines PySpark performáticos e seguros.
Feature engineering para ML em produção.
Observabilidade, custo e reliability (SLAs/SLOs).

Contato

ribeitemp@gmail.com • LinkedIn •

Provide feedback

Saved searches

Use saved searches to filter your results more quickly