Blog:

Die nächste Grenze überschritten: Maschinen, die Bilder verstehen

verfasst von Martin Gross-Albenhausen

Google hat gemeinsam mit Wissenschaftlern der Stanford University ein neues Verfahren entwickelt, um aus Bildern den Kontext mit zu extrahieren und in Text zu übersetzen. Und so, vermutlich, bessere Suchresultate zu liefern. Die computergenerierten Beschreibungen, wie oben im Bild gezeigt, sind erstaunlich korrekt und laufen nur in die Irre, wenn Perspektiven verzerrt oder die Abbildungsinhalte zu gruppiert sind.

Der „Kontext“ stand für mich in diesem Jahr wieder und wieder im Fokus, denn das Wissen darüber, was lose und im Stakkato aneinandergereihte Begriffe oder Objekte für den Nutzer in einen sinnvollen Zusammenhang bringt, war und ist noch ein wesentliches Differenzierungsmerkmal auch für Spezialversender. Google aber kann inzwischen die Früchte langer und kostspieliger Projekte wie der Digitalisierung von Büchern oder der zugekauften Aktivitäten wie like.com ernten. Suche wird „contextual“ und „conversational“.

Wir dürfen nicht vergessen, dass die Zahl und Größe der Screens, auf denen Commerce stattfindet, heute so vielfältig ist, dass sogar responsive Programmierung allein hier nicht mehr weiter hilft. Facettierte Navigation ist ein wichtiges, aber doch letztlich nur den rationalen Teil des Kaufvorgangs adressierendes Hilfsmittel. Wenn Menschen (wie beim Firephone) Objekte fotografieren oder Texte phonetisch eingeben und sich auf dieser Grundlage Kaufempfehlungen zeigen lassen können, ist die Brücke zurückgeschlagen zum Impulskauf.

Google legt seit dem Panda und Hummingbird-Update immer mehr Wert darauf, dass Websites für den Kunden relevante Informationen liefern. Kontextrelevanz war etwas, das man lange aus Onlineshops verbannt hat. Bereitwillig haben die Shops und Publisher jedoch Google mit Beschreibungen dessen gefüttert, was auf Bildern zu sehen ist.

Je transaktionaler die Suche wird, um so weniger Kontext braucht es. Navigationale Suchen könnte Google dank der Vorarbeit in Streetview und Goggles exzellent unterstützen. Informationale Suchen profitieren potentiell am meisten von der softwarebasierten Interpretation der Bilddaten. Also der Bereich, der im Moment vom Content Marketing adressiert wird. Eher die frühe Phase der Customer Experience Journey.

Ich bin gespannt, wie Google das Ranking der Suchmaschinenresultate im Rahmen eines Matchings optimiert. Denn es ist nicht damit getan, die Bildinhalte korrekt zu extrahieren. Viel wichtiger ist, die relevanten von den unwichtigen Kontextinformationen zu unterscheiden. Ist z.B. das Alter oder die Haarfarbe einer Person im Bezug auf die getragene Mode relevanter als z.B. der Schnitt? Sicher nicht – aber das muss eine Maschine lernen.

Was Google aus der neuen Bild-Interpretation macht, ist völlig offen. Die SEO wird früher oder später davon tangiert, alles weitere Spekulation. Nur eines ist es sicher nicht: Akademische Spielerei im Elfenbeinturm der Wissenschaft.