Microsoft macht Fortschritte bei der Bilderkennung durch künstliche Intelligenz

Ein neues maschinelles System soll fähig sein, Fragen zu vorgegebenen Fotos in natürlicher Sprache zu beantworten. Mithilfe von Deep Learning erfasst es hierzu die Elemente des jeweiligen Bildes sowie den Inhalt der Frage. Laut Microsoft könnte es etwa als Warnsystem für Fahrradfahrer zum Einsatz kommen.
Die Forschungsabteilung von Microsoft (Microsoft Research) hat gemeinsam mit Wissenschaftlern der Carnegie Mellon University ein System entwickelt, welches es Maschinen ermöglicht, Bilder zu analysieren. Ziel der Forscher ist es, dass die Maschinen im Anschluss an ihre Untersuchung fähig sind, Fragen so zu beantworten, wie Menschen sie stellen würden. Mittels künstlicher Intelligenz sollen also Antworten auf Fragen in natürlicher Sprache über vorgegebene Inhalte erfolgen können.
Das neue System nutzt einem Blogbeitrag von Microsoft Research zufolge Techniken zur Bilderkennung, zum Deep Learning und zur Spracherkennung, um Bilder und Fragen auszuwerten. Als Beispiel nennen die Wissenschaftler ein Foto, das zwei Hunde zeigt, die in einem Fahrradkorb sitzen. Dazu könne die Frage lauten: “Welches Tier sitzt da in dem Fahrradkorb”.
“Zuerst würde man in der ersten Informationsschicht die spezifischen Details erfassen – das Fahrrad, den Korb und was in dem Korb ist”, heißt es in dem Blogbeitrag. “Dann würde eine zweite Schicht die fraglichen Schlüsselbereiche genau bestimmen – den Korb – und analysieren, was darin ist. Die Antwort: Hunde.”
Als Mensch konzentriere man sich auf das, was für die Beantwortung einer Frage notwendig sei. Das System wiederum entscheide mithilfe eines neuralen Netzwerks, welche Region für die Frage wichtig sei, und unterdrücke die irrelevanten Informationen, so Microsoft weiter. Das System erfasse Informationen, ähnlich wie menschliche Augen und das Gehirn, schaue sich die Szene ab und stelle Beziehungen zwischen den verschiedenen Objekten her.

Deep Learning wiederum kommt den Forschern zufolge zum Einsatz, um visuelle Informationen zu extrahieren, die Bedeutung der Frage in natürlicher Sprache zu erkennen und in zwei Schritten die Regionen des Bilds einzuengen, um die richtige Antwort zu finden. “Das ist die Technik, die man sich vor wenigen Jahren nicht hätte vorstellen können: menschliches Verhalten zum Vorbild nehmen, um Probleme zu lösen”, ergänzte Li Deng, Forscher am Deep Learning Technology Center von Microsoft Research.
Microsoft geht davon aus, dass sich das System auch in der Praxis einsetzen lässt, beispielsweise für neue Applikationen, die Empfehlungen in Echtzeit abgeben oder gar menschliche Bedürfnisse voraussagen. Konkret nennt das Unternehmen ein Warnsystem für Fahrradfahrer, das dessen Umgebung mit einer Kamera erfasst. “Das System würde sich selbst fragen ‘Was ist links neben oder hinter mir’ oder ‘Überholen mich andere Fahrräder auf der linken Seite’ oder ‘Sind irgendwelche Jogger in meiner Nähe, die ich vielleicht nicht sehe’. “Die Antworten könnten dann automatisch in Richtungsanweisungen übersetzt werden, um Unfälle zu verhindern.
[mit Material von Stefan Beiersmann, ZDNet.de]
Tipp: Was wissen sie über Microsoft? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.