top of page

Gino News

sexta-feira, 17 de janeiro de 2025

Transcrição de Áudio Sob Demanda com Infraestrutura Pública: Uma Solução Inovadora

Tecnologia Inovação Transcrição de Áudio

No dia 17 de janeiro de 2025, um novo aplicativo de transcrição de áudio desenvolvido com o modelo Whisper da OpenAI promete a transcrição de arquivos de áudio mais longos, utilizando infraestrutura pública para reduzir custos e aumentar a acessibilidade.

Imagine a futuristic date, January 17, 2025, marked by the revolutionary innovation in audio transcription. A new application developed with OpenAI's Whisper model is advertised. It's a vectorial, corporate-style 2D image on a plain white background. A computer is represented, emphasizing the use of technology. The interface of the application is displayed on the computer screen, demonstrating its usability. A sound wave symbolizes the audio being processed by the application, translating auditory information into textual format. A piece of transcribed text stands prominently, showcasing the final outcome of using the application.

Imagem gerada utilizando Dall-E 3

O modelo Whisper da OpenAI se destaca pela sua capacidade de transcrever áudio com alta precisão. No entanto, a necessidade de infraestrutura dedicada para utilizar esses modelos em produção geralmente gera custos elevados. A Hugging Face oferece suporte à transcrição de áudio de curta duração por meio de infraestruturas públicas, mas muitos arquivos de áudio ultrapassam o limite de 30 segundos. Para solucionar essa limitação, foi desenvolvido um aplicativo de transcrição em demanda que fragmenta arquivos de áudio em partes menores, processa cada uma delas usando o Whisper e gera tanto a transcrição completa quanto um resumo conciso do conteúdo.


O desafio da transcrição de áudios longos reside nos custos computacionais e na necessidade de um endpoint de inferência dedicado. O aplicativo utiliza uma mecânica de divisão ou 'chunking' para segmentar os arquivos de áudio em pedaços de 30 segundos, permitindo que sejam processados individualmente e, em seguida, retornados em conjunto. Essa abordagem oferece um equilíbrio entre custo e tempo de processamento.


  1. O usuário faz o upload de um arquivo de áudio através de uma interface web.

  2. O áudio é dividido em segmentos de 30 segundos.

  3. Cada segmento é transcrito usando o modelo Whisper.

  4. Um resumo da transcrição é gerado.

  5. Os resultados são exibidos lado a lado, permitindo cópia e uso fora do aplicativo.


O aplicativo desenvolvido combina diversas ferramentas de código aberto, incluindo Hugging Face Transformers para o modelo Whisper e a criação de resumos, e Gradio para uma interface amigável. Essa abordagem permite que desenvolvedores construam aplicações robustas e escaláveis, facilitando a transcrição e a sumarização de arquivos de áudio mais longos, superando as limitações das ferramentas de reconhecimento de fala disponíveis publicamente.


Essa nova solução evidencia como é possível contornar as restrições de ferramentas de reconhecimento de fala por meio de técnicas inovadoras de processamento de áudio. Ao utilizar modelos avançados como o Whisper em conjunto com ferramentas acessíveis, o aplicativo não apenas facilita a transcrição de áudio longo, como também democratiza o acesso a essas tecnologias. Os leitores são convidados a experimentar a aplicação e conferir suas funcionalidades acessando o link: https://huggingface.co/spaces/ZennyKenny/AudioTranscribe, e não se esqueçam de se inscrever na nossa newsletter, onde encontrarão conteúdos atualizados diariamente sobre tecnologia e inovação.


FONTES:

    1. Hugging Face

    2. OpenAI

    3. Librosa

    4. Soundfile

    5. Gradio

    REDATOR

    Gino AI

    17 de janeiro de 2025 às 12:24:20

    PUBLICAÇÕES RELACIONADAS

    Create a 2D, linear and corporate-style vector image symbolizing a significant milestone in artificial intelligence technology. This image shows the Gemini 2.0 Flash, a model that integrates native image generation and text-based editing. The interface of Gemini 2.0 Flash is shown in use, placed against a plain, white, and texture-less background. In the image, you can see it generating images from text commands within a digital workspace. Additional elements in the image include symbols of artificial intelligence, like brain and circuit icons. Use vibrant colors to convey innovation and technology, and apply a futuristic style that aligns with the vision of advanced technology.

    Google Lança Gemini 2.0 Flash: Revolução na Geração de Imagens com IA

    Creatio, a Boston-based CRM and workflow automation company, has announced its new AI-native CRM system. Presenting a 2D, linear vector illustration in a corporate, flat style with a non-textured white background, it highlights a futuristic CRM interface. An interactive chatbot, symbolizing the new interactive platform, is placed centrally. There are charts symbolizing increased efficiency and automation in the background. Hints of mordern and innovative blue and green colors are used in the design. Users of diverse descent and different genders are shown interacting with the system, emphasizing personalization and user experience.

    Creatio Revoluciona o CRM com Plataforma Nativa de IA

    Illustrate a 2D, linear perspective image in a corporate, flat and vector style. The image has a textureless, white background. In the foreground, focus on a central figure who symbolizes a leadership role in AI, but not specifically Stephen Peacock. He is explaining the application of AI in game development. Include a visual context of the game development environment and a logo symbolizing an international game development provider, but not specifically the Keywords Studios logo.

    Keywords Studios Lança Soluções de IA para Desenvolvimento de Jogos

    Create a detailed 2D, linear and vectorial image in a flat, corporate style on a white non-textured background. The image should showcase the interface of an AI-assistant from a generic restaurant review platform, symbolised by a radiant logo in vibrant colors, similar to the Yelp logo but sufficiently different to avoid copyright issues. To illustrate the AI's functionalities and user interactions, please depict various individuals of diverse descents and genders engaging with the AI interface. Also include the depictions of application interfaces to highlight the technology involved.

    Yelp Inova com Assistente de IA: Desafios e Avanços na Plataforma

    Fique por dentro das últimas novidades em IA

    Obtenha diariamente um resumo com as últimas notícias, avanços e pesquisas relacionadas a inteligência artificial e tecnologia.

    Obrigado pelo envio!

    logo genai

    GenAi Br © 2024

    • LinkedIn
    bottom of page