Quante volte ti è capitato di passare ore per fare sbobine per l’università, adesso l’intelligenza artificiale può farlo per te, ecco Whisper
L’utilizzo dell’intelligenza artificiale per la rapida trascrizione di video e audio può essere realizzato grazie a Whisper di OpenAI.
OpenAI, un’organizzazione no-profit fondata e guidata da Sam Altman, offre al pubblico il rinomato modello di linguaggio GPT-4. Nonostante il Generative Pre-trained Transformer, ormai alla sua quarta generazione, rimanga il fiore all’occhiello della start-up statunitense e la base su cui operano ChatGPT e Bing Chat di Microsoft, OpenAI ha rilasciato altre tecnologie basate sull’intelligenza artificiale con scopi diversi, tra la fine del 2022 e l’inizio del 2023.
In particolare, nel settembre 2022 è stato presentato Whisper, una rete neurale open-source addestrata per gestire contenuti audio e video autentici e fornire una trascrizione rapida in diverse lingue. Ecco come funziona
Come funziona Whisper
Whisper è descritto da OpenAI come un sistema automatico di riconoscimento vocale (ASR) addestrato su 680.000 ore di dati supervisionati multilingue e multitasking raccolti dal web. L’ampio e diversificato set di dati consente di ottenere informazioni più solide e affidabili riguardo agli accenti, alla rimozione del rumore di fondo e alla comprensione del linguaggio tecnico, non solo in inglese (che è la lingua in cui l’IA lavora ottimamente, producendo risultati eccellenti), ma anche in altre lingue. Circa un terzo del set di dati audio utilizzato da Whisper non è in inglese.
Il funzionamento di Whisper è sorprendentemente intuitivo. Si tratta di un approccio end-to-end in cui l’audio in ingresso viene diviso in blocchi di 30 secondi, convertito in uno spettrogramma e quindi passato a un codificatore. Questo codificatore è addestrato per prevedere il testo corrispondente all’audio fornito come input, indirizzando il modello verso la lingua appropriata. Whisper inizia la trascrizione vocale in inglese, offre la possibilità di completarla in altre lingue e fornisce anche i timestamp per associare il testo al momento corretto nel video o nel file audio.
Altri approcci esistenti spesso utilizzano set di dati audio-testo più piccoli o si basano su un addestramento audio preliminare non supervisionato. Al contrario, Whisper è addestrato con un ampio e diversificato set di dati e non è stato progettato per un uso specifico; è quindi una soluzione open-source estremamente versatile. Anche se non raggiunge le prestazioni di LibriSpeech, presenta il 50% in meno di errori rispetto ad altri modelli con un caso d’uso ben definito.
Whisper è disponibile su GitHub e può essere scaricato in cinque diverse varianti (Tiny, Base, Small, Medium, Large) per accedere a un numero crescente di parametri, che vanno da 39 milioni a 1,5 miliardi. Di conseguenza, per eseguire un modello di dimensioni medie o grandi, che offre prestazioni migliori, sono necessarie risorse di sistema più elevate.
Usare Whisper con Replicate
Puoi utilizzare Whisper anche senza un computer di fascia alta o un server dedicato attraverso Replicate, che consente di utilizzarlo direttamente dal browser. Replicate è uno strumento progettato per semplificare l’uso di modelli di intelligenza artificiale e machine learning. Integrando soluzioni come Stable Diffusion, Vicuna-13b, StableLM e Bark in un unico servizio controllabile tramite uno strumento open source proprietario, Replicate consente di acquistare semplicemente il tempo di calcolo su server più o meno performanti.
Nel caso di Whisper, Replicate offre un sito web pubblico gratuito che consente agli utenti di caricare un file audio e ricevere la trascrizione dopo un periodo di attesa variabile. Una volta sul sito, è sufficiente caricare il documento di interesse, selezionare il modello di Whisper (disponibili solo Large e Large-v2, una versione più aggiornata e performante), il formato della trascrizione (testo normale, file SRT per sottotitoli o file VTT) e, se necessario, la traduzione in inglese. Alcuni parametri specifici includono la lingua del file originale per agevolare il lavoro di Whisper e l’opzione per rimuovere la punteggiatura.
Whisper su Replicate opera utilizzando le GPU NVIDIA T4, che richiedono circa 75 secondi per elaborare file di lunghezza media. Tuttavia, il modello sembra avere alcune difficoltà nel determinare correttamente la lingua quando viene specificato il parametro apposito. Pertanto, potrebbe essere più conveniente omettere la specifica della lingua del file e lasciare all’intelligenza artificiale il compito di comprenderla.