Inhalt
In den letzten Jahren hat sich die Sprachinteraktion mit Künstlicher Intelligenz (KI) stark weiterentwickelt. Insbesondere mit dem neuen Voice Mode von ChatGPT bietet OpenAI einige interessante Möglichkeiten, die Art und Weise, wie wir mit KI kommunizieren, natürlicher zu gestalten. Seit kurzem ist das Feature "Advanced Voice Mode" endlich auch in Deutschland verfügbar. Dieser Artikel gibt dir einen Überblick über die Neuerungen, wie du die Funktion aktivieren und nutzen kannst.
(Letzte Aktualisierung: 24.10.24)OpenAI bietet zwei verschiedene Voice-Modi: den Standard Voice-Modus und den Advanced Voice-Modus. Diese unterscheiden sich in ihrer Funktionsweise.
Den Standard Voice Mode gibt es schon seit einiger Zeit. Du sprichst etwas in dein Mikrofon, es dauert eine Weile und der Chatbot antwortet. Die Spracheingaben werden in Text umgewandelt und die Antworten entsprechend generiert und dann „vorgelesen“. Das ist gut für einfache Konversationen und das Beantworten von Fragen. Nach dem Aktivieren des Advanced Voice Modes habe ich keine Möglichkeit gefunden, diesen Standard wieder zu aktivieren. Ich gehe davon aus, dass dieser in der kostenlosen Version zum Einsatz kommt.
Wenn du den Standard-Voice-Modus verwendest, erkennst du dies daran, dass der Kreis schwarz und nicht farbig dargestellt wird.
Neu ist der Advanced Voice Mode. Am auffälligsten ist, dass du eine größere Auswahl an Sprecherinnen und Sprechern hast und während der Chatbot spricht, kannst du ihn mit deiner Stimme unterbrechen. Fast wie im richtigen Leben. Aber dieser Modus hat noch viel mehr zu bieten:
Personalisierung der Stimme:
Es stehen neun verschiedene Stimmen zur Auswahl, jede mit ihrem eigenen Klang und Charakter. Die Stimme kann jederzeit in den Einstellungen oder über das Anpassungsmenü im erweiterten Sprachmodus geändert werden.
Erkennung von Emotionen:
ChatGPT kann angeblich Emotionen und den Tonfall in deiner Stimme erkennen und seine Antworten entsprechend anpassen. Ich habe das zwar noch nicht ausprobiert, aber ich glaube es mal.
Unterbrechungen und kontextabhängige Reaktionen:
Wie bereits erwähnt, kannst du ChatGPT während einer Unterhaltung unterbrechen und die KI wird auf den veränderten Gesprächsverlauf reagieren - fast so, als würdest du mit einem echten Menschen sprechen.
Unterstützung einer Vielzahl von Sprachen:
Dieser Modus ermöglicht Konversationen in verschiedenen Sprachen, was ihn für eine Vielzahl von Anwendungsfällen interessant macht. Ich habe dem Chatbot zum Beispiel gesagt, dass er auf Englisch antworten soll, während ich auf Deutsch mit ihm spreche. Das funktioniert natürlich auch mit anderen Sprachen. Es gibt sicher noch mehr interessante Möglichkeiten für den Einsatz dieser Funktion. Denkbar sind Echtzeit-Übersetzungen oder sogar Unterhaltungsformate.
Wie so oft gibt es natürlich auch einige Einschränkungen und Dinge, die man bei der Nutzung beachten und wissen sollte.
Verfügbarkeit des Advanced Voice Modus:
Diese Funktion steht nur Plus-, Team- und Enterprise-Benutzern zur Verfügung. Es ist davon auszugehen, dass auch in der kostenlosen Version eine eingeschränkte Anwendung möglich ist. Außerhalb der EU kann diese Funktion kostenlos genutzt werden. In der Europäischen Union, der Schweiz, Island, Norwegen und Liechtenstein ist dies noch nicht möglich.
Tägliche Nutzungsbeschränkung:
Die tägliche Nutzung von Advanced Voice ist für Plus- und Team-Benutzer begrenzt. Kostenlose Benutzer außerhalb der EU haben Zugang zu einer sogenannten monatlichen Vorschau von Advanced Voice. Wie auch immer diese aussieht. Zur Erinnerung: Dieser Modus ist für die kostenlose Nutzung in der EU noch nicht verfügbar.
Keine Unterstützung für Bilder:
Advanced Voice unterstützt noch keine Funktionen wie Bilder. Daher können entsprechende Gespräche nicht im Advanced Voice-Modus fortgesetzt werden.
Mögliche Unterbrechungen:
Während eines Gesprächs mit Advanced Voice kann es gelegentlich zu Unterbrechungen kommen. OpenAI empfiehlt, Kopfhörer zu verwenden und den Mikrofonmodus „Voice Isolation“ auf dem iPhone zu aktivieren, um ungewollte Unterbrechungen zu vermeiden.
Optimierung für Bluetooth im Auto oder Freisprecheinrichtung:
Dies ist für diejenigen wichtig, die sich lieber mit ChatGPT im Auto als mit dem Beifahrer unterhalten. Diese Funktion ist noch nicht für Bluetooth im Auto oder Freisprecheinrichtungen optimiert.
Nicht verfügbar für GPTs:
Erweiterte Voice-Konversationen sind noch nicht für die Verwendung mit GPTs verfügbar.
Kein Zugriff auf Ressourcen aus dem Internet:
Advanced Voice ist noch nicht in der Lage, auf Informationen aus dem Internet zuzugreifen, um die Antwort zu vervollständigen.
Ich habe am Anfang einen Hinweis bekommen, dass diese neue Funktion verfügbar ist. Dort wurde ich dann durch die Aktivierung und Auswahl der Stimmen geführt. Falls das bei dir nicht der Fall ist, stelle zunächst sicher, dass du die neueste Version der ChatGPT-App auf deinem Gerät installiert hast.
Öffne die App und gehe zu den Einstellungen. Unter Audio findest du die Option, den Advanced Voice Mode zu aktivieren bzw. die Stimme auszuwählen. Seit kurzem ist diese Funktion auch in Deutschland verfügbar.
Wenn der Audiomodus aktiviert ist, drücke im Chat auf das entsprechende Symbol. Warte kurz, bis ein farbiger Kreis erscheint. Jetzt kannst du mit dem Chatbot sprechen.
ChatGPT Symbol: Advanced Voice Modus
Unabhängig davon, ob du den Standard- oder den Advanced Voice Mode verwendest, hier sind ein paar Tipps, um das Beste aus deiner Sprachinteraktion mit ChatGPT herauszuholen:
Sprich deutlich:
Eine deutliche Aussprache hilft der KI, dich besser zu verstehen. Es gibt aber auch Berichte, wo man sich mit einem Dialekt gut unterhalten kann.
Mache kurze Pausen:
Kleine Sprechpausen zwischen den Sätzen verbessern die Erkennung und die Reaktion. Wenn du jedoch zu lange schweigst, denkt ChatGPT, dass deine Frage oder Antwort beendet ist und beginnt zu sprechen.
Emotionen bewusst einsetzen:
Gerade im Advanced Voice Mode kann es sinnvoll sein, Emotionen und Betonungen bewusst einzusetzen. Diese Emotionen sollten dann aber auch in der Sprache erkennbar sein. Ein Stirnrunzeln oder ein ungläubiger Blick reichen nicht aus 😀.
Sprechgeschwindigkeit anpassen:
Eine moderate Sprechgeschwindigkeit hilft der KI, flüssig und präzise zu antworten.
Unterbrechen:
Im Advanced Mode kann der Chatbot während des Sprechens durch erneutes Sprechen unterbrochen werden.
Ein häufig diskutiertes Thema bei der Verwendung von KI-basierten Sprachtools ist der Datenschutz. OpenAI gibt an, dass die Audioclips nach der Transkription gelöscht werden, es sei denn, du stimmst zu, dass sie zur Verbesserung des Modells verwendet werden. Das kannst du jederzeit in den Einstellungen ändern.
Wenn du dich dafür entscheidest, werden die Transkripte verwendet, um das Sprachmodell weiter zu trainieren und zu verbessern. Du hast damit die Kontrolle über deine Daten. Wir gehen mal davon aus, dass OpenAI, der Anbieter von ChatGPT sich auch an diese Vorgaben hält.
Der Advanced Voice Mode ist eine sehr interessante Entwicklung. Die Fähigkeit, Emotionen zu erkennen und dynamisch auf Unterbrechungen zu reagieren, macht die Kommunikation mit ChatGPT einfacher und natürlicher. Es fühlt sich immer mehr wie ein echtes Gespräch an und eröffnet neue Möglichkeiten für den Einsatz von Sprach-KI. Ein Nachteil ist, dass der Chatbot während des Gesprächs noch nicht auf das Internet zugreifen kann. Dadurch hat man im Laufe des Gesprächs keinen Zugriff auf aktuelle Informationen.
Was hältst du vom neuen Voice-Modus? Benutzt du ihn schon? Teile gerne deine Erfahrungen in den Kommentaren mit! Zum Abschluss noch eine grafische Gegenüberstellung:
➥ Homepage von ChatGPT:
ChatGPT Webseite
➥ ChatGPT Search:
ChatGPT Search: Die neue Suche im Internet
➥ FAQs ChatGPT Advanced Voice:
Advanced Voicemode von OpenAI / ChatGPT - FAQs zu dem Thema
➥ Die ChatGPT-Canvas Funktion:
Infos über die ChatGPT-Canvas Funktion
➥ OpenAI GPTs Erläuterung:
Einführung in OpenAI GPTs (englisch)
Mit ChatGPT eine Mindmap in 5 Minuten erstellen
Mit ChatGPT kannst du in 5 Minuten eine komplette Mindmap zu einem beliebigen Thema erstellen. Wie das geht? Einfach den Artikel ...
Weiter lesen ..
Was kann GPT-4. Neue Maßstäbe in der Sprachgenerierung?
Das ist neu an GPT-4. Eine Übersicht über die Neuerungen. Kreativer, Bilder nutzen und vieles ...
Weiter lesen ..
Mit ChatGPT in 5 Minuten zur fertigen Powerpointpräsentation
Schnell zur fertigen PowerPoint-Präsentation: Entdecke 3 zeitsparende Methoden mit ChatGPT! Überzeuge dich selbst & spare Zeit ...
Weiter lesen ..
Zur Zeit gibt es noch keinen Kommentar zu diesem Thema. Das ist deine Chance 😉