OpenAI, het bedrijf achter ChatGPT, kondigt twee nieuwe functies aan voor Plus – en Enterprise-abonnees: spraak- en fotofuncties. Volgens het bedrijf bieden beide een nieuwe, intuïtievere vorm van interactie waardoor de gebruiker in staat wordt gesteld een gesprek te voeren via spraak of ChatGPT te tonen waar het gesprek over gaat.
De nieuwe spraakmogelijkheid wordt aangedreven door een nieuw tekst-naar-spraakmodel dat in staat is om menselijk klinkende audio te genereren met slechts tekst en een paar seconden gesproken voorbeeld. Het bedrijf heeft samengewerkt met stemacteurs om elk van de stemmen te creëren. Tevens maken ze ook gebruik van Whisper, het open-source spraakherkenningssysteem.
De fotofuncties stelt de gebruiker in staat met ChatGPT te communiceren via foto’s, op basis van de visuele informatie kan ChatGPT reageren. Voorbeelden hiervan zijn het verstellen van een fiets, een maaltijd bedenken op basis van de inhoud van een koelkast of het analyseren van werk gerelateerde grafieken.
OpenAI benadrukt dat zowel de spraak- als de afbeeldingsfunctie potentiële risico’s met zich meebrengen. Er bestaat theoretisch gezien de mogelijkheid dat kwaadwillende personen de spraakfunctie kunnen gebruiken om echte personen na te bootsen. Om deze reden heeft het bedrijf ervoor gekozen om de technologie te beperken tot gebruik binnen de voicechatfunctie van ChatGPT. Bovendien heeft de ontwikkelaar verklaard dat de afbeeldingsfunctie aanzienlijke beperkingen heeft met betrekking tot interactie met echte personen.