Exam preparation

https://aws.amazon.com/certification/certified-solutions-architect-professional/?ch=tile&tile=getstarted

https://www.aws.training/Certification

CTC Centro de Treinamento e Certificacao (AMP) (WBD)
- (11) 2338-3292 (presencial)
~~InLearn Educacao Ltda (NT)~~ (fechou)
- (11) 4064-0200 (a partir dia 15/06)
Green Tecnologia (WBD)
- (11) 3253-5299
InforMaker SP* - IE-Kiosk-1277 <- Paulista
- Tel.: +55 11 3020-6339 3555-1585

https://aws.amazon.com/certification/certified-data-engineer-associate/

https://www.linkedin.com/posts/kennedymota_aws-awsdataengineer-awscertification-activity-7143238561134272512-GzdI?utm_source=share&utm_medium=member_desktop

Prova realizada, e digo uma coisa, estudem Amazon Redshift e ingestão de dados via Kinesis. 🤔

Resumo da prova (do que eu lembro):

Muito Redshift, não só conceitos básicos mas também comandos de tabelas como o VACUMM.
Muito Kinesis Datastream, diversos cenários de ingestão de dados, muita questão com pegadinhas do “near-realtime” adicionando um Apache Flynk nas respostas. Então é importante entender as diferenças entre eles.
Amazon S3, caiu duas ou três questões sobre classe de armazenamento. No demais é casos junto com o Kinesis DataFirehose, Glue, Athena e Redshift Spectrum.
Falando de Apache Flynk as perguntas eram bem diretas quando envolvia cenários REAL TIME.
Não deixou de cair uma ou outra questão sobre REDES, uma delas foi sobre um um Glue (acredito eu) recebendo erro ao tentar se comunicar com o S3 devido a falta de configuração na tabela de rotas. E outra foi uma configuração de grupo de segurança entre uma Lambda e um RDS, onde pedia para que somente a Lambda pudesse se comunicar com o RDS (clássica).
Muitas questões sobre como gerenciar os acessos a dados em nível de LINHA ou COLUNA, pergunta do tipo: “O departamento X só pode consultar registros onde o valor da COLUNA aws_region seja igual a Y”. Isso se misturava muito com o AWS Lake Formation e outros serviços.
Algumas questões também sobre como migrar os dados de um OnPrimeses para a AWS, impactando o mínimo possível ou da forma mais barata.
Quase todas as questões tinham duas ou três respostas certas e você vai precisar saber qual é a MAIS BARATA, com MENOR ESFORÇO OPERACIONAL, COM MENOR LATÊNCIA, etc.
Lembro de muitos cenários envolvendo Pipeline de Dados, mais ou menos isso: “Como você pode criar um fluxo ETL para analisar dados PII da maneira mais BARATA e com MENOR ESFORÇO OPERACIONAL?” e as respostas giravam em torno de StepFunctions e Glue Workflows.
Caiu assuntos de PII mas nenhuma resposta tinha o AWS Macie. As respostas eram em torno do Redshift com UDFs.
Entender bem quando tenho que converter para um PARQUET ou um JSON, algumas questões jogavam desta forma, você recebe um CSV ou um XML e precisa disponibilizar para o Athena para que as Querys sejam mais EFICIENTES.

Do que eu lembro é isso da maioria das perguntas. Se eu fosse separar em % de serviços/assuntos, seria algo assim:

40% Redshift (ingestão e transformação) 20% Glue 20% S3 10% EMR 10% Outros

Espero que ajude quem for fazer o beta ou até a próxima prova oficial. Vamos aguardar os resultados em 90 dias 😖

Carlos Aguni

AWS Data Engineer Associate - Study Journey

Exam preparation

https://www.linkedin.com/posts/kennedymota_aws-awsdataengineer-awscertification-activity-7143238561134272512-GzdI?utm_source=share&utm_medium=member_desktop