Arquitetura de Dados Serverless na AWS: Custos e Trade-offs

A promessa do Serverless é sedutora: pague apenas pelo que usar, zero manutenção de infraestrutura. Para pipelines de dados, isso parece perfeito.

Muitos Data Lakes serverless são construídos na AWS hoje. A realidade, porém, é um pouco mais complexa.

O Stack Clássico

Ingestão: Kinesis Firehose (entrega direto no S3).
Processamento: AWS Glue (Spark serverless) ou Lambda (para coisas leves).
Catálogo: Glue Data Catalog.
Query: Athena (Presto serverless).
Orquestração: Step Functions.

Onde Brilha

Para cargas de trabalho esporádicas ou imprevisíveis, é imbatível. Se você processa dados apenas uma vez por dia por 1 hora, por que pagar por um cluster EMR ligado 24/7?

Onde Dói

1. Cold Starts do Glue

O Glue 2.0/3.0/4.0 melhorou muito, mas ainda tem um tempo de startup. Para jobs muito pequenos e frequentes, você paga mais pelo tempo de subida do que pelo processamento.

2. Custo em Escala

O Athena cobra por TB escaneado ($5/TB). Parece barato. Até seu analista rodar um SELECT * numa tabela de 10TB sem partição. Para volumes massivos e constantes, um cluster reservado (EMR ou Redshift) pode sair mais barato que o modelo pay-per-use do serverless.

3. Limites do Lambda

Lambda tem limite de tempo (15 min) e memória. Não tente fazer ETL pesado no Lambda. Use-o apenas para disparar eventos ou processar arquivos pequenos individualmente.

Conclusão

Comece serverless. É a maneira mais rápida e barata de validar valor. Mas monitore os custos. Quando a conta do Athena passar a do Redshift, é hora de repensar a arquitetura.

Dúvidas sobre arquitetura AWS? Desenhar soluções cloud-native otimizadas para custo e performance é nossa especialidade. Fale com nossos arquitetos.

Arquitetura de Dados Serverless na AWS: Custos e Trade-offs

O Stack Clássico

Onde Brilha

Onde Dói

1. Cold Starts do Glue

2. Custo em Escala

3. Limites do Lambda

Conclusão

Posts Relacionados

A Batalha dos Orquestradores: Airflow, Prefect ou Dagster em 2025?

dbt em Escala: Estruturando Projetos para Times Grandes

O Engenheiro de Dados de 2026: Menos ETL, Mais Plataforma

.NET 10: O Guia Prático (Sem Hype) para Desenvolvedores