Skip to content
View Donotavio's full-sized avatar
😎
Helo Word!!!
😎
Helo Word!!!

Block or report Donotavio

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don't include any personal information such as legal names or email addresses. Markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Donotavio/README.md

Olá 👋, eu sou o Otávio Ribeiro

Data Engineering Manager @ Educbank — Databricks • Spark • Delta Lake • Orquestração

visits WakaTime

GitHub Trophies filtrados


Sobre mim

Sou Gerente de Engenharia de Dados na Educbank (fintech) e uso Databricks como feature platform para unificar pipelines, modelagem com Delta Lake e workflows de ML. No dia a dia:

  • desenho e otimizo pipelines batch/streaming (custo, performance e confiabilidade);
  • garanto governança & compliance (LGPD/GDPR), versionamento e qualidade;
  • lidero times, revisão de código e definição de padrões (PEP-8, clean code, testes).

Stack principal (foco em produção)

Databricks (Repos, Workflows, Auto Loader, MLflow) • Apache Spark (PySpark) • Delta Lake (time travel, Z-Ordering) • Orquestração (Airflow, DBT, Databricks Workflows) • AWS (S3, EC2, IAM) • Azure (ADLS Gen2, Event HubsKafka API, Key Vault, Synapse/SQL, Managed Identity) • Python/SQLKafkaTerraformPostgreSQLMongoDBGitHub Actions


Governança no Databricks (Unity Catalog, Delta Sharing & Segurança)

Trabalho com governança ponta a ponta no Lakehouse, alinhando segurança, catalogação, compartilhamento e auditoria:

  • Unity Catalog (UC)
    • Catálogo centralizado e RBAC: USE CATALOG/SCHEMA, privilégios por catálogo, schema, tabela, view, função, volume.
    • Lineage & descoberta: linhagem de dados fim a fim, tags e classificação para PII/PHI (LGPD/GDPR).
    • Segurança granular: row-level e column-level via dynamic views (mascaração/filters por grupo).
    • Dados gerenciados e externos: External Locations + Storage Credentials para acesso controlado ao S3.
    • Observabilidade nativa: System Tables (acessos, consultas, compute, billing) para auditoria e custos.
  • Delta Lake
    • Schema enforcement & evolution, constraints, OPTIMIZE com Z-Order, Time Travel para auditoria e recuperação.
  • Delta Sharing
    • Compartilhamento seguro e auditável de tabelas/visualizações com parceiros (UC↔UC ou open recipient).
  • Controles de plataforma
    • Cluster/SQL Warehouse Policies, Secrets (AWS Secrets Manager/Key Vault), SCIM/SSO, IP access lists.
  • Multi-ambiente
    • Catálogos por ambiente: edbk_dev, edbk_stg, edbk_prod (isolamento de dados, acesso por grupos, promotion controlado).

Exemplos práticos (SQL)

1) Catálogos por ambiente + RBAC

-- catálogos de ambiente
CREATE CATALOG IF NOT EXISTS edbk_dev COMMENT 'Dev catalog';
CREATE CATALOG IF NOT EXISTS edbk_stg COMMENT 'Staging catalog';
CREATE CATALOG IF NOT EXISTS edbk_prod COMMENT 'Production catalog';

-- esquemas de domínio
CREATE SCHEMA IF NOT EXISTS edbk_prod.finance;
CREATE SCHEMA IF NOT EXISTS edbk_prod.risk;

-- grants mínimos
GRANT USE CATALOG ON CATALOG edbk_prod TO `grp_data_readers`;
GRANT USE SCHEMA ON SCHEMA edbk_prod.finance TO `grp_fin_readers`;
GRANT SELECT ON ALL TABLES IN SCHEMA edbk_prod.finance TO `grp_fin_readers`;

Métricas

Top Langs

Projetos & exemplos técnicos

  • Pipelines em Databricks: notebooks e jobs para ingestão (batch/streaming), Delta Lake e MLflow.
  • Orquestração: DAGs do Airflow e Workflows no Databricks para ELT e features de ML.
  • Boas práticas: testes, tratamento de schema, particionamento, Z-Ordering, otimização de custos em S3/compute.

Dica: fixe (pin) seus repositórios-chave aqui com uma frase de impacto: problema → solução → resultado (performance/custo/qualidade).


Como posso ajudar

  • Arquitetura Lakehouse (Delta Lake, Unity Catalog, governança).
  • Pipelines PySpark performáticos e seguros.
  • Feature engineering para ML em produção.
  • Observabilidade, custo e reliability (SLAs/SLOs).

Contato

ribeitemp@gmail.comLinkedIn

Pinned Loading

  1. google-sheets-form google-sheets-form Public

    Registration and editing form within a google sheets spreadsheet.

    JavaScript

  2. GSheetsETL GSheetsETL Public

    Python

  3. knowledge_test knowledge_test Public

    SQL knowledge test and the like for hiring in the database analyst position.

    1

  4. Avaliador-de-Prompt-IA Avaliador-de-Prompt-IA Public

    Python 1

  5. DON-Auto-Clicker DON-Auto-Clicker Public

    This repository contains a simple auto clicker software written in Assembly, which can be compiled for Linux, macOS, and Windows. The program allows users to set the execution duration and click ra…

    Assembly

  6. metabase-google-sheets-add-on metabase-google-sheets-add-on Public

    Forked from bplmp/metabase-google-sheets-add-on

    Import a Metabase question directly to a Google Sheet.

    JavaScript