· PYO Tecnologia · Cloud Architecture · 2 min de leitura
Arquitetura de Dados Serverless na AWS: Custos e Trade-offs
Lambda, Glue, Athena. É possível construir uma plataforma de dados inteira sem gerenciar servidores? Sim, mas cuidado com a conta.

A promessa do Serverless é sedutora: pague apenas pelo que usar, zero manutenção de infraestrutura. Para pipelines de dados, isso parece perfeito.
Muitos Data Lakes serverless são construídos na AWS hoje. A realidade, porém, é um pouco mais complexa.
O Stack Clássico
- Ingestão: Kinesis Firehose (entrega direto no S3).
- Processamento: AWS Glue (Spark serverless) ou Lambda (para coisas leves).
- Catálogo: Glue Data Catalog.
- Query: Athena (Presto serverless).
- Orquestração: Step Functions.
Onde Brilha
Para cargas de trabalho esporádicas ou imprevisíveis, é imbatível. Se você processa dados apenas uma vez por dia por 1 hora, por que pagar por um cluster EMR ligado 24/7?
Onde Dói
1. Cold Starts do Glue
O Glue 2.0/3.0/4.0 melhorou muito, mas ainda tem um tempo de startup. Para jobs muito pequenos e frequentes, você paga mais pelo tempo de subida do que pelo processamento.
2. Custo em Escala
O Athena cobra por TB escaneado ($5/TB). Parece barato. Até seu analista rodar um SELECT * numa tabela de 10TB sem partição. Para volumes massivos e constantes, um cluster reservado (EMR ou Redshift) pode sair mais barato que o modelo pay-per-use do serverless.
3. Limites do Lambda
Lambda tem limite de tempo (15 min) e memória. Não tente fazer ETL pesado no Lambda. Use-o apenas para disparar eventos ou processar arquivos pequenos individualmente.
Conclusão
Comece serverless. É a maneira mais rápida e barata de validar valor. Mas monitore os custos. Quando a conta do Athena passar a do Redshift, é hora de repensar a arquitetura.
Dúvidas sobre arquitetura AWS? Desenhar soluções cloud-native otimizadas para custo e performance é nossa especialidade. Fale com nossos arquitetos.

