ChatGPT Vision: Bilder analysieren und mehr

ChatGPT ermöglicht das Hochladen von Bildern und Fotos. Das hört sich erst einmal nicht so spektakulär an. Das habe ich auch gedacht, bis ich mich ein wenig damit beschäftigt habe, wie ich das nutzen kann. Von der Bilderkennung, über Texterkennung, Analyse bis hin zur Bildbeschreibung. Und das ist noch nicht alles. Diese Funktion wird auch ChatGPT Vision genannt. Ich zeige dir, was du mit der Bildanalyse alles machen kannst.

(Letzte Aktualisierung: 10.01.25)
Foto

Inhaltsverzeichnis

Bild hochladen | Funktionen | Bildbeschreibung | Bildqualität erkennen | Objekterkennung | Texterkennung | Fazit | Häufige Fragen | Kommentare

Buch: DU und die KI

ChatGPT: Bilderkennung und -analyse nutzen


Die „Vision“-Funktion steht auch in der kostenlosen Version zur Verfügung. Allerdings gibt es hier Einschränkungen, was die Häufigkeit der Nutzung betrifft. Da dies von OpenAI, dem Anbieter von ChatGPT, je nach Auslastung festgelegt wird, kann ich dir keine genauen Zahlen nennen, wie oft und wie umfangreich du diese Funktion in der kostenlosen Version nutzen kannst.

Um ein Bild analysieren zu lassen, musst du es zunächst hochladen. Dazu klickst du auf das Bildsymbol neben der Eingabeaufforderung. Du kannst auch direkt Google Drive oder Microsoft One Drive einbinden.

Screenshot Eingabe ChatGPT

Klicke auf das Symbol und lade dein Bild oder Foto hoch. Du hast auch die Möglichkeit, mehrere Bilder hochzuladen. Dabei gibt es sicherlich eine Größenbeschränkung, aber ChatGPT will nicht so recht sagen, wo diese liegt.

Der nächste Schritt ist, dass du beschreibst, was mit dem Bild geschehen und was ChatGPT damit machen soll.


ChatGPT Vision: Was du alles damit machen kannst


Lade ein Bild hoch, und lass dir eine detaillierte Beschreibung davon geben. Vielleicht fragst du dich, wofür das gut ist. Nun, es gibt eine Menge an Anwendungsfällen:

Barrierefreiheit:
Für Menschen mit Sehbehinderungen kann die Bildbeschreibung eine wertvolle Hilfe sein. Sie ermöglicht es, visuelle Inhalte zugänglich zu machen, indem zum Beispiel sogenannte Alt-Texte für Bilder generiert und auf Webseiten genutzt werden.

Bildsortierung und -organisation:
Wenn du eine Vielzahl von Bildern besitzt und diese nach bestimmten Kriterien organisieren möchtest, kann die Bildbeschreibung helfen, den Inhalt in kürzester Zeit zu erfassen und entsprechend zu sortieren. Ein Nachteil ist dabei allerdings, dass man meist viele Bilder hat und diese alle hochzuladen und sich Beschriftungen erstellen zu lassen, könnte aufwändiger sein.

Kunstwerkanalyse:
Wenn du ein Kunstwerk hochlädst, versucht ChatGPT den Stil, die Technik und eventuell die Bedeutung oder den historischen Kontext zu erläutern.

Beispiel:
Wenn dich interessiert, wie solch eine Beschreibung ausschauen kann, habe ich ein Beispiel für dich. Ich habe zusätzlich noch eine Farbanalyse hinzugefügt. ➥ Die Analyse eines Gemäldes.

Meine Bewertung:

ChatGPT kann bestimmte Objekte oder Elemente in einem Bild erkennen. Ich habe das mit zwei Beispielen getestet. Vorab verraten, ChatGPT hat beide Bildobjekte korrekt identifiziert und beschrieben.

Bilderkennung ChatGPT Beispiel

Hier nun die Ergebnisse. Ich hoffe, du hast auch erkannt, was die Bilder zeigen.

ChatGPT Vision: Beispiel Feuerschale
Das Bild zeigt eine brennende Flamme in einer Art von Glas- oder Metallbehälter, möglicherweise eine Kerze oder eine Öllampe. Der Behälter ist auf Holzstücken oder Holzstrukturen platziert (...)

ChatGPT Vision:
Das Bild zeigt eine Holzoberfläche, die mit Moos überzogen ist. Moos ist eine Art von kleinem, grünem Landpflanze, die oft auf Bäumen, Steinen und anderen Oberflächen wächst, besonders in feuchten, schattigen Bereichen (...)

Meine Bewertung:

Falls auf dem Bild Text vorhanden ist, kann ChatGPT diesen erkennen und dir den genauen Wortlaut wiedergeben. Es gibt zwar auch eine Menge anderer Tools, die das auch können, aber mit ChatGPT geht das auch. Zugegeben, mein Test ist nicht sehr schwierig, aber das Ergebnis ist bis auf das letzte Zeichen genau.

Screenshot, Texterkennung ChatGPT

Meine Bewertung:

Manchmal ist es schwierig, ein Diagramm zu interpretieren. Dann kann ChatGPT möglicherweise helfen. Anfangs wurden bei der Analyse der Diagramme noch viele Fehler gemacht. Das hat sich inzwischen wesentlich verbessert. Ich habe ein Beispiel-Diagramm verwendet und es dann mit dem Prompt „Analysiere das Diagramm und gib mir Empfehlungen“ analysieren lassen.

Beispiel-Diagramm

Die Analyse hat die Zahlen richtig erkannt, den Umsatz betrachtet und mir Empfehlungen gegeben. Natürlich muss man das noch einmal überprüfen. Denn auch KI-Chatbots machen Fehler.

Screenshot: ChatGPT Antwort Analyse Diagramm

Die ausführliche Analyse kannst du hier nachlesen.

Meine Bewertung:

Die Qualität von Bildern ist oftmals wichtig, egal ob du Fotos machst oder sie in einer App verwendest. Jeder möchte gern ein gutes Bild posten und nicht in den Kommentaren sehen, dass das Bild schlecht ausschaut. Ob ein Bild gut oder schlecht ist, hängt von vielen Faktoren ab, wie Schärfe, Farben und sogar davon, wie viel Rauschen im Bild ist. Natürlich kannst du diese Sachen auch bewusst einsetzen und gegen fotografische Regeln verstoßen, aber darum geht es in diesem Fall nicht.

Es gibt spezielle Rechenverfahren, die automatisch messen können, wie gut dein Bild ist. ChatGPT kann deine Bilder prüfen und du bekommst Tipps und Infos über die Bildqualität und eventuell auch, wie du das Bild verbessern kannst.

Wenn dich interessiert, wie ChatGPT mein Foto beurteilt hat, schau dir gerne die ➥ Beurteilung des Fotos an. Ich fand die Beurteilung gut und richtig.

Meine Bewertung:


Fazit und Zusammenfassung


Ich muss zugeben, ich bin erstaunt, was man mit ChatGPT alles machen kann. Du kannst nicht nur chatten, sondern auch Bilder beschreiben oder analysieren lassen. Ich finde die Qualität der Ergebnisse sehr gut und nützlich. Ob es nun darum geht, ein Bild genau zu erklären, Muster und Zusammenhänge zu erkennen oder einfach nur einen visuellen Eindruck in Worte zu fassen. Die Funktion ist vielseitig einsetzbar.

Was meinst du zu dieser Funktion von ChatGPT Vision? Hast du das eine oder andere auch schon genutzt und wie beurteilst du die Antworten? Schreib es einfach unten in die Kommentare, es würde mich freuen.

Falls du im Detail wissen möchtest, wie das alles funktioniert, schau dir die Seite von OpenAI an. Dort findest du einen Link zu einem mehrseitigen, technischen PDF-Dokument mit dem Titel ➥GPT-4(V)ision system card.

Hashtag Zeichen

Dir hat der Artikel gefallen und du möchtest mehr über KI erfahren?

Buch: DU und die KI

Interessante Artikel zum Thema: ChatGPT


Kategorie - Foto

ChatGPT-Canvas-Funktion: Texte schreiben und bearbeiten
ChatGPT Canvas: Wie man längere Texte schreibt und bearbeitet. Alle Bearbeitungsmöglichkeiten auf einen ...

Weiter lesen ..

Kategorie - Foto

Was ist GPT-o1? Alles über das neue KI-Modell von OpenAI
Möchtest du GPT-o1 nutzen? Hier erfährst du Schritt für Schritt, wie du das Modell aktivierst und welche Funktionen dir zur Verfügung ...

Weiter lesen ..

Kategorie - Foto

ChatGPT Team: Funktionsumfang, Vor- und Nachteile
Mit ChatGPT Team einige Vorteile nutzen. Unterschiede zur Abo-Version und ...

Weiter lesen ..

▸ Und nun noch etwas zum Schmunzeln

Warum bin ich kein Künstler?

Antworten auf wirklich wichtige Fragen des Lebens. Beantwortet von meinem kleinen, depressiven KI-Roboter:

Künstler sein, das wäre was. Doch warum bin ich so normal?

Weiter lesen ...





Kommentare



Flo

vor 10 Monaten

Hallo, seit ich über meine Erfahrungen mit LLMs blogge, bekomme ich auch viele Vorschläge. Unter anderem ihren sehr schönen Blog. Ich war bei der Diagrammerkennung ähnlich enttäuscht wie sie, bis ich GPT4 und die Wolfram Alpha API getestet habe. Es ist immer noch nicht perfekt, aber deutlich besser als Copilot (der hat von allen anderen LLMs am besten abgeschnitten). Würde mich interessieren, wie ihre Erfahrungen sind.


Burkhard

vor 10 Monaten

Mit der Wolfram API habe ich noch keine Erfahrungen gemacht. Danke für die Anregung. Ich schaue mir das in den nächsten Tagen einmal an.