top of page

Gino News

domingo, 2 de fevereiro de 2025

Facilitando a Captura e Análise de Dados no Apache Spark™ Structured Streaming

Tecnologia Dados Inovação

O blog post apresenta as novas capacidades de captura de dados de mudanças e instantâneas na API State Reader do Apache Spark™ Structured Streaming, lançadas em março de 2024, que visam facilitar a análise e o gerenciamento de cargas de trabalho em streaming.

Create a 2D, linear perspective illustration in a vectorial, flat, and corporate style. The background should be white and textureless. The illustration should represent the interaction of the new features of the State Reader API in a real-time data processing environment. It should include representations of dynamic graphs, which symbolize real-time data analysis. Also include icons of servers, which symbolize data infrastructure, and network connections, symbolizing data integration. Infuse the image with a sense of efficiency and modernity, in line with the significant advances introduced in the API State Reader of Apache Spark™ Structured Streaming as of March 2024.

Imagem gerada utilizando Dall-E 3

O Apache Spark™ Structured Streaming, uma ferramenta essencial para o processamento em tempo real de dados, enfrenta desafios crescentes à medida que suas cargas de trabalho se tornam mais complexas. Em resposta a isso, a Databricks lançou a State Reader API, que possibilita o acesso e a análise dos dados de estado internos, facilitando o desenvolvimento e a depuração.


As melhorias implementadas na State Reader API agora permitem que os usuários acessem dados de changelog do estado, oferecendo um output no formato padrão de Change Data Capture (CDC). Além disso, foram introduzidas opções para gerar visualizações do estado usando instantâneas preferenciais no diretório de controle de pontos, tornando a gestão de mudanças de estado mais intuitiva.


Os novos recursos da API State Reader, como o Feed de Alterações e opções de instantâneas, simplificam o rastreamento de alterações de estado, a auditoria de transformações de dados e a reconstrução de instantâneas de estado. Com isso, os desenvolvedores agora conseguem monitorar mudanças de valores de estado com muito menos código.


  1. readChangeFeed: Ativa a saída do feed de alterações.

  2. changeStartBatchId: Indica o batchId inicial para o feed de alterações.

  3. changeEndBatchId: Define o último batch a ser utilizado.

  4. snapshotPartitionId: Lê apenas uma partição específica ao usar instantâneas.

  5. snapshotStartBatchId: Necessário ao usar snapshotPartitionId.

  6. snapshotEndBatchId: Especifica o último batch a ser utilizado para instantâneas.


Essas atualizações não apenas facilitam o desenvolvimento e testes, mas também tornam os dados mais acessíveis para analistas, permitindo que consultas agendadas alimentem visualizações em dashboards de AI/BI, unindo dados complexos a insights acionáveis.


As novas funcionalidades da API State Reader representam um avanço significativo no processamento de dados em streaming, permitindo que profissionais de dados gerenciem e analisem informações de forma mais eficaz. Fique por dentro das atualizações diárias e não perca a oportunidade de se aprofundar nesses temas em nossa newsletter.


FONTES:

    1. Databricks Blog

    2. Documentação do Databricks

    3. Documentação sobre HDFS e RocksDB

    4. Documentação sobre Changelog Checkpointing

    REDATOR

    Gino AI

    3 de fevereiro de 2025 às 01:10:28

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, vector-style artwork set in a clinical setting. On a white, textureless background, illustrate the scene with a flat and corporate aesthetic. A healthcare professional is preparing to administer an injection of lenacapavir to a diverse group of patients. The syringe is a visual symbol of the innovative treatment. The patients, representing a broad range of genders and descents such as Middle-Eastern female, Hispanic male, and South Asian transgender person, convey hope and are the beneficiaries of this advancement. The environment, symbolizing the seriousness of the treatment, is a doctor's office furnished with charts and graphs indicating the reduction in HIV infections due to the new treatment. Use a colour palette consisting of shades of blue and green to transmit trust and hope.

    Lenacapavir: Injeção Anual Promissora para Prevenção do HIV

    Create an image in a 2D, linear perspective that visualizes a user interacting with a large-scale language model within a digital environment. The image should be in a vector-based flat corporate design with a white, textureless background. Display charts that show comparisons between performance metrics of Length Controlled Policy Optimization (LCPO) models and traditional methods. Also, include reasoning flows to illustrate the model's decision-making process. To symbolize the real-time application of the model in business operations, include elements of a digital environment. Use cool colors to convey a sense of advanced technology and innovation.

    Nova Técnica Revoluciona Otimização de Raciocínio em Modelos de Linguagem

    Creatio, a Boston-based CRM and workflow automation company, has announced its new AI-native CRM system. Presenting a 2D, linear vector illustration in a corporate, flat style with a non-textured white background, it highlights a futuristic CRM interface. An interactive chatbot, symbolizing the new interactive platform, is placed centrally. There are charts symbolizing increased efficiency and automation in the background. Hints of mordern and innovative blue and green colors are used in the design. Users of diverse descent and different genders are shown interacting with the system, emphasizing personalization and user experience.

    Creatio Revoluciona o CRM com Plataforma Nativa de IA

    Create an image that captures the concept of the Digital Operational Resilience Act (DORA) and its focus on hybrid platforms in driving compliance in financial institutions. Picture a flat, 2D linear scene set against a white, textureless background. The setting is a cutting-edge, technological environment viewed from a two-dimensional, linear perspective. Include professionals of different descents such as Caucasian, Black, and Hispanic connoting diversity in the finance field. These professionals are engaged in a discussion, surrounded by real-time data analysis represented by various digital charts. Also portray modern technology to highlight innovation and an urban setting to indicate a contemporary financial landscape.

    Plataformas Híbridas: A Chave para a Conformidade com o DORA

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page