Spark Structured Streaming: Introdução

Lidar com dados em larga escala exige diversas precauções sob o meio que vamos fazer a leitura, escrita e as iminentes transformações. O Spark traz garantias de tolerância à falhas e também escalabilidade quando desejamos trabalhar com grande volumes. Ele junto às novas APIs de Structured Streaming podem ser a solução ideal quando precisamos de armazenamento em estruturas de datalake ou data lakehouse. Vamos desvendar aqui um pouco sobre o vocabulário, alguns conceitos e pontos de partida para uso da ferramenta....

November 27, 2023 · 1 min · 195 words · Pedro Feitosa

Instalando bibliotecas Python para execução de scripts PySpark

Quando usamos o Spark em ferramentas gerenciadas como o Databricks, muito que precisamos é fornecido com facilidade pela plataforma, e mesmo quando o cenário não nos favorece, podemos instalar bibliotecas com poucos passos, seguindo a documentação da plataforma. Já em casos que precisamos ter maior controle sobre todo o ambiente de execução, seja por questões de custo, ou por limitações - quem sabe a falta de um contrato com o Databricks ou ferramentas semelhantes - instalar bibliotecas, sejam elas Jars adicionais para o funcionamento do Spark, ou libs Python, para organizar o funcionamento do código, simplicidade é uma palavra que não se aplica....

September 10, 2023 · 3 min · 633 words · Pedro Feitosa

TinyGo & Arduino Uno - Introdução e configuração no Windows

Depois de um período muito grande com meus microcontroladores engavetados, conhecer o TinyGo foi o que me fez querer voltar a estudar o assunto. A linguagem nativa do Arduino era uma ferramenta pessoalmente limitante, pois apesar de C++ não ser uma linguagem muito fora do meu contexto, ter que me adaptar a uma linguagem diferente é algo que atrapalha o “compromisso” com os estudos de automação, entra então o TinyGo, que compila projetos orientados a embarcados e WASM....

March 7, 2023 · 3 min · 540 words · Pedro Feitosa

Iot sob a ótica de um desenvolvedor de software

Quando vemos notícias hoje sobre IoT, sempre vem ligado à alguma novidade tipo a implementação do 5G, inteligência artificial e automação residencial, mas na realidade brasileira os dispositivos inteligentes são inacessíveis, sejam por um ponto menos crítico que é o custo, como também a complexidade de integração e uso. Atualmente temos as categorias de empresas que criam e desenvolvem os integradores, que provêem as centrais de controle e os protocolos de comunicação; e as que criam os dispositivos smart, e provêem alternativas para uma ou mais integrações....

March 6, 2023 · 3 min · 464 words · Pedro Feitosa

Principais dores na configuração do Airflow e Spark no Kubernetes

Todo o código utilizado no artigo está no repositório pedrohff/pocairflowkubernetesspark Tive uma missão recentemente de analisar a possibilidade de implantar o Airflow no Kubernetes, principalmente pelo fato da minha equipe já ter passado por um ambiente hosteado numa única máquina no EC2, como também utilizando o MWAA. Ambas as alternativas trouxeram alguns tradeoffs que dificultam o uso ou melhorias no ambiente do Airflow. Essa configuração teve a premissa de ser totalmente local, sem nenhum acesso à serviço externo (como Git ou bancos) facilitando o máximo sua replicação....

May 3, 2022 · 7 min · 1380 words · Pedro Feitosa