L'editor video AI di Dumme crea cortometraggi di YouTube in pochi minuti

Dumme, una startup che utilizza l'intelligenza artificiale nell'editing video, sta già generando domanda prima di aprirsi al pubblico. La società sostenuta da Y Combinator ha centinaia di creatori di video che testano il suo prodotto, che sfrutta l'intelligenza artificiale per creare video in formato breve dai contenuti di YouTube, e una lista d'attesa di oltre 20.000 pre-lancio, afferma. Utilizzando una combinazione di modelli di intelligenza artificiale proprietari ed esistenti, la promessa di Dumme è che non solo può risparmiare tempo di editing ma anche, ed ecco la sua grande pretesa, fare un lavoro migliore rispetto alla forza lavoro (umana) a contratto che spesso ha compiti più umili. lavori di editing video, come la riduzione di contenuti di lunga durata per la pubblicazione su piattaforme di breve durata come YouTube Shorts, TikTok o Instagram Reels.

Fondato nel gennaio 2022 e partecipante al programma Winter 2022 dell'acceleratore di startup Y Combinator, il cofondatore e CEO di Dumme Merwane Drai ha affermato che inizialmente era concentrato sulla creazione di un motore di ricerca per video. Ma circa sei mesi fa, il team si è reso conto che un prodotto migliore potrebbe essere quello di riutilizzare gli stessi modelli di intelligenza artificiale che stavano sviluppando per modificare invece i videoclip.

Insieme ai co-fondatori Will Dahlstrom (CPO) e Jordan Brannan (CTO), tutti con esperienza nell'intelligenza artificiale, Drai si è reso conto che Dumme avrebbe potuto trovare la giusta posizione nel mercato del prodotto dopo che la loro app è diventata virale, mandando in crash i loro server.

"Non ci aspettavamo davvero che avrebbe ottenuto molta trazione o altro, quindi abbiamo semplicemente lanciato qualcosa", spiega Drai. "Poi quello che è successo è che da un giorno all'altro ci siamo ritrovati con server sovraccarichi, come se nulla funzionasse davvero. Quindi abbiamo smontato tutto e messo insieme una sorta di lista d'attesa", continua. "La mattina dopo, probabilmente ci siamo svegliati con 5.000 persone lì dentro, il che è stato interessante."

Il team ha poi scoperto che un creatore di TikTok aveva pubblicato un breve video sul prodotto, che ha inviato un’ondata di traffico al loro sito.

"In realtà la situazione non si è mai calmata", osserva Drai.

Il prodotto, pronunciato "dummy", piaceva ai creatori perché mirava a semplificare e accelerare il lavoro coinvolto nell'editing video.

Crediti immagine:Stupido

Usare Dumme è semplice come suggerisce il nome. Per iniziare, l'utente incolla il collegamento di un video di YouTube, quindi fa clic su "genera" e l'intelligenza artificiale produrrà una serie di brevi video che mostrano i punti salienti del contenuto importato. L'azienda afferma che sta utilizzando YouTube come fonte, invece di supportare riprese video grezze, al fine di esternalizzare la moderazione dei contenuti, ovvero se è consentito su YouTube, è consentito anche su Dumme.

Il tempo di elaborazione e il numero di clip risultanti dipenderanno dalla lunghezza del video originale.

Ma ad esempio, l'elaborazione di un podcast video di un'ora potrebbe richiedere circa 20 minuti e inizierai a ricevere clip dopo circa cinque minuti, afferma Drai. Al termine, i creatori possono scaricare i video clip, che per impostazione predefinita durano meno di 60 secondi, e caricarli su qualsiasi piattaforma che supporti contenuti in formato breve, come YouTube Shorts, ma anche altre piattaforme, come Reels o TikTok.

Crediti immagine:Stupido

Il modo in cui tutto questo funziona sul back-end, ovviamente, è molto più complesso. L'azienda afferma che, inizialmente, Dumme imparerà il più possibile dal video sorgente tramite i metadati. Quindi trascrive il video e cerca di comprendere la semantica di ciò che viene detto guardando anche i fotogrammi per cercare di decodificare le emozioni di chi parla. Questi risultati vengono correlati e passati a un modello linguistico che tenta di determinare quali parti del video meritano di essere ritagliate. Questo viene poi passato a un altro modello che tiene traccia degli altoparlanti attivi e gestisce il ritaglio.

Dumme afferma che sta lavorando con modelli di intelligenza artificiale esistenti come GPT-4, una versione ottimizzata di Whisper e altri costruiti internamente, come il modello che tiene traccia degli altoparlanti attivi in un fotogramma video. Uno dei suoi modelli è stato anche addestrato su una serie di Short di YouTube per imparare cosa costituisce un buon inizio per attirare gli spettatori. E, sebbene non sia ancora attivo, il team sta anche sperimentando un modello open source, LaViLa di Facebook Research, per comprendere meglio il contesto del video.