Come generare immagini con ChatGPT

È possibile generare immagini su ChatGPT? In realtà no, ma con uno stratagemma specifico si può fare: ecco i passaggi che bisogna seguire.

ChatGPT è uno strumento che a volte sembra miracoloso, in grado di fornire output eccezionali da prompt molto semplici. Abbiamo già parlato dei rischi di ChatGPT grazie agli esperti di Panda Security, i quali hanno fornito qualche dritta su come riconoscere i principali pericoli dell’IA firmata OpenAI. Oggi è però giunto il momento di rispondere a un altro quesito che tante persone si sono poste sperimentando con tale strumento. Ecco come generare immagini con ChatGPT.

È possibile generare immagini con ChatGPT?

In realtà, prima di tutto bisogna porsi un’altra domanda: è possibile creare immagini con ChatGPT? La risposta è negativa, e vi spieghiamo perché. Trattandosi di un modello di linguaggio che si limita a produrre testi simili a quelli scritti dagli esseri umani basandosi su un input offerto da un individuo, non può fornire un output visivo alla stessa maniera di strumenti come DALL-E, soluzione proposta proprio da OpenAI a partire dal 2021.

Tuttavia, è possibile sfruttare l’output testuale di ChatGPT per creare un’immagine mediante i generatori appositi, proprio come DALL-E o, in alternativa, Midjourney. Vediamo come si fa.

Come creare un’immagine con Midjourney

In mancanza di una sincronizzazione diretta tra ChatGPT e DALL-E, realizzati dalla stessa società, o anche con Midjourney, bisogna procedere manualmente. Prima di tutto, ci serve un’idea: con una semplice richiesta posta “a parole proprie”, pertanto, possiamo ottenere una base grazie a ChatGPT. Ad esempio, se si desidera realizzare un logo particolare per una squadra di calcio locale bisogna usare un prompt simile al seguente: “Crea un prompt testuale per Midjourney per creare il logo di una squadra di calcio”. Naturalmente, è meglio tradurlo in inglese affinché entrambe le IA riescano a comunicare al meglio tra di loro.

Una volta ottenuto l’output, nel caso specifico di Midjourney è necessario entrare nel server Discord utilizzato per la generazione delle immagini, dall’accesso completamente libero. A questo punto, basterà recarsi sul canale apposito e completare la generazione dell’immagine desiderata consegnando il prompt di ChatGPT all’IA. In pochi secondi – nei migliori dei casi – o in qualche minuto – nei momenti di traffico maggiore -, Midjourney provvederà a offrirvi quattro output.

Il procedimento vale anche per DALL-E?

Naturalmente la stessa procedura è valida anche per DALL-E o altri generatori di immagini: prima si domanda un testo più complesso a ChatGPT, a partire dalle nostre necessità, e poi si copia e incolla l’output del modello di linguaggio in un’altra IA concepita per la produzione di disegni, fotografie e progetti visivi. Ognuna di esse risponderà quindi in maniera differente, offrendo output peculiari e non per forza corretti o perfetti.

Non aspettatevi miracoli dalle IA, sia chiaro: i loro limiti vi costringeranno a valutare con attenzione le parole usate, mantenendo l’input semplice ed essenziale per garantire all’IA più libertà, oppure scendendo nei minimi dettagli – senza esagerare – cosicché le linee guida offerte a Midjourney e servizi analoghi permettano loro di lavorare al meglio.

Con GPT-4 tutto cambierà

Mentre l’attuale versione di ChatGPT è limitata alla generazione di testi, la prossima versione dotata del nuovo language model GPT-4 dovrebbe essere di natura multimodale. Cosa significa? Che GPT-4 potrebbe riuscire a gestire input e output audiovisivi, ovvero diventando capace di generare immagini. In questo modo, finalmente anche gli utenti più esigenti e ispirati dagli strumenti IA di ultima generazione potranno divertirsi, sperimentare e ritenersi soddisfatti dei risultati finali.

Quando arriverà GPT-4? Al momento non abbiamo ancora una data di lancio, tantomeno un periodo di debutto nella sua versione stabile. Ciononostante, sappiamo che Microsoft mostrerà GPT-4 la prossima settimana nel contesto dell’evento “Focus on AI – Digital Kickoff” organizzato dalla divisione tedesca della società statunitense. Forse in tale occasione potremo vedere GPT-4 all’opera con una versione modificata di ChatGPT per Bing. Insomma, l’azienda di Redmond potrebbe avere anticipato tutti i rivali assicurandosi per prima GPT-4 grazie ad un accordo di partnership con OpenAI.

Quali saranno le capacità di questo strumento? È difficile prevederlo. Le incredibili potenzialità di ChatGPT, che rammentiamo essere basato su GPT-3, hanno evidenziato ciò che ci aspetta nel futuro, ovvero strumenti IA pronti a offrirci risultati pressoché immediati anche in contesti complessi, con stringhe di codice e altri prodotti testuali di pregiata fattura, seppur spesso imperfetti. Midjourney, d’altro canto, ha mostrato quello che potrebbe essere il futuro dell’arte. L’eticità di tali strumenti è ancora dubbia e oggetto di discussione tra avvocati, artisti, programmatori e colossi della tecnologia, ma la direzione degli sviluppatori sembra già piuttosto chiara: riuscire a produrre il language model più completo e performante possibile, preparandosi a un avvenire che consenta a chiunque di esprimersi tramite la tecnologia.

Non ci resta quindi che portare pazienza, attendendo l’evoluzione di ChatGPT – o meglio, del “Generative Pre-trained Transformer” su cui si basa – e provando infine con mano le nuove intelligenze artificiali, con tutte le carte in regola per riuscire a superare qualsiasi limite da noi pensato in passato. Saranno davvero in grado di farlo? Staremo a vedere.