AWS Transcribe

O serviço do AWS Transcribe é um recurso da amazon que permite exportar texto a partir de um áudio (Speech-to-Text), a partir do chamado ASR (Automatic Speech Recognition), que busca áudios armazenados no AWS S3.

Figura 1 - AWS Transcribe
Figura 1 – AWS Transcribe

A ideia central deste serviço é permitir que os desenvolvedores tenham um grande recursos em mãos quando a necessidade for transformar áudio em texto, principalmente quando o áudio gerado deva servir como informação de pesquisas, por exemplo, um call center ou um escritório jurídico.

O Amazon Transcribe utiliza o aprendizado de máquina (Machine Learning) para aprimorar e refinar o reconhecimento da voz e permitir que isto cada vez mais alcance a precisão humana, inclusive esta técnica vai tão longe que o serviço de reconhecimento automático da fala (em inglês ASR), permite adicionar recursos (como jargões médicos e expressões técnicas por exemplo) na hora de transcrever as falas, indo além de apenas portar o áudio para texto.

Recursos

Transcrições por precisão: Após a transcrição concluída o Amazon Transcribe informa a você para cada palavra a porcentagem de precisão que ele acha que a aquela palavra foi dita no áudio.

Figura 2 - Percentual da probabilidade
Figura 2 – Percentual da probabilidade

Transcrição por Streaming: Dados em streaming podem ser transcriptados quase que em tempo real, sendo um ou vários arquivos ao mesmo tempo.

Identificação de Canal: Áudio provenientes de uma conversa entre duas ou mais pessoas, são automaticamente identificados e separados por rótulos na transcrição, por exemplo, o transcript de um atendimento de uma chamada telefônica.

Ensinar/Filtrar Vocabulário: Você pode enviar uma lista de palavras, jargões ou palavras sujas para que o Amazon Transcribe consiga ir além e entregar uma transcrição ainda mais refinada.

Tempo no Texto: O Amazon Transcribe grava junto com o texto gerado o timestamp do áudio que aquela palavra foi gerada, assim você pode ouvir o trecho do áudio rapidamente a partir do texto e confrontar a qualidade da transcrição.

Casos de Usos

Com o Amazon Transcribe gerando esses dados a partir de um ou mais áudios é possível incrementar em cima disso o uso de outras ferramentas para agregar valor como por exemplo, utilizar o Amazon Comprehend que permite gerar análise de sentimentos, personalidades e frases chaves contidas em textos. Com isso é possível saber se no final de uma ligação ou de uma reunião gravada, os sentimentos comuns das pessoas eram de alegria, insatisfação ou outros.

Outro serviço que é possível integrar neste cenário é o Amazon Polly, com ele é possível transformar o texto em áudio novamente, com isso você consegue sintetizar vozes com estranha clareza e naturalidade e inclusive em diversas outras línguas.

HTTP2

Para trabalhar com a transcrição em tempo real, o Amazon Transcribe permite que o cliente abra uma conexão bidirecional usando protocolos HTTP2 onde em um fluxo o áudio é enviado via streaming e em outro canal de dados os textos são enviados, então é possível transcrever um podcast, por exemplo, praticamente ao mesmo tempo que o escuta.

Limitações

O Amazon Transcribe permite um total de 4 horas ou 2GB totais por chamada à API, ou seja, o streaming pode manter abertas as conexões por até 4 horas.

O serviço ainda não existe na América do sul (sa-east-1), como diversos outros.

Mais informações

No nosso canal do Youtube temos um vídeo que mostra um passo a passo da transcrição de um áudio do s3 e como esses dados são apresentados. Para assistir Clique Aqui.

Abraços!