Carlos Aguni

Highly motivated self-taught IT analyst. Always learning and ready to explore new skills. An eternal apprentice.


AWS Data Engineer Associate - Study Journey

27 Sep 2023 »

Exam preparation

https://aws.amazon.com/certification/certified-solutions-architect-professional/?ch=tile&tile=getstarted

https://www.aws.training/Certification

  • CTC Centro de Treinamento e Certificacao (AMP) (WBD)
    • (11) 2338-3292 (presencial)
  • InLearn Educacao Ltda (NT) (fechou)
    • (11) 4064-0200 (a partir dia 15/06)
  • Green Tecnologia (WBD)
    • (11) 3253-5299
  • InforMaker SP* - IE-Kiosk-1277 <- Paulista
    • Tel.: +55 11 3020-6339 3555-1585

https://aws.amazon.com/certification/certified-data-engineer-associate/


https://www.linkedin.com/posts/kennedymota_aws-awsdataengineer-awscertification-activity-7143238561134272512-GzdI?utm_source=share&utm_medium=member_desktop

Prova realizada, e digo uma coisa, estudem Amazon Redshift e ingestão de dados via Kinesis. 🤔

Resumo da prova (do que eu lembro):

  • Muito Redshift, não só conceitos básicos mas também comandos de tabelas como o VACUMM.

  • Muito Kinesis Datastream, diversos cenários de ingestão de dados, muita questão com pegadinhas do “near-realtime” adicionando um Apache Flynk nas respostas. Então é importante entender as diferenças entre eles.

  • Amazon S3, caiu duas ou três questões sobre classe de armazenamento. No demais é casos junto com o Kinesis DataFirehose, Glue, Athena e Redshift Spectrum.

  • Falando de Apache Flynk as perguntas eram bem diretas quando envolvia cenários REAL TIME.

  • Não deixou de cair uma ou outra questão sobre REDES, uma delas foi sobre um um Glue (acredito eu) recebendo erro ao tentar se comunicar com o S3 devido a falta de configuração na tabela de rotas. E outra foi uma configuração de grupo de segurança entre uma Lambda e um RDS, onde pedia para que somente a Lambda pudesse se comunicar com o RDS (clássica).

  • Muitas questões sobre como gerenciar os acessos a dados em nível de LINHA ou COLUNA, pergunta do tipo: “O departamento X só pode consultar registros onde o valor da COLUNA aws_region seja igual a Y”. Isso se misturava muito com o AWS Lake Formation e outros serviços.

  • Algumas questões também sobre como migrar os dados de um OnPrimeses para a AWS, impactando o mínimo possível ou da forma mais barata.

  • Quase todas as questões tinham duas ou três respostas certas e você vai precisar saber qual é a MAIS BARATA, com MENOR ESFORÇO OPERACIONAL, COM MENOR LATÊNCIA, etc.

  • Lembro de muitos cenários envolvendo Pipeline de Dados, mais ou menos isso: “Como você pode criar um fluxo ETL para analisar dados PII da maneira mais BARATA e com MENOR ESFORÇO OPERACIONAL?” e as respostas giravam em torno de StepFunctions e Glue Workflows.

  • Caiu assuntos de PII mas nenhuma resposta tinha o AWS Macie. As respostas eram em torno do Redshift com UDFs.

  • Entender bem quando tenho que converter para um PARQUET ou um JSON, algumas questões jogavam desta forma, você recebe um CSV ou um XML e precisa disponibilizar para o Athena para que as Querys sejam mais EFICIENTES.


Do que eu lembro é isso da maioria das perguntas. Se eu fosse separar em % de serviços/assuntos, seria algo assim:

40% Redshift (ingestão e transformação) 20% Glue 20% S3 10% EMR 10% Outros


Espero que ajude quem for fazer o beta ou até a próxima prova oficial. Vamos aguardar os resultados em 90 dias 😖