-
Computerbasiertes Sehen auf der Überholspur
Computer lernen die visuelle Umgebung zu verstehen
Mannheim, 28. April 2021
Fortschritte in der Computer Vision
Wie funktioniert eigentlich das Sehen? Und was haben Computer damit zu tun? Das sind Fragen, bei denen es sich weit ausholen lässt. Wir wollen uns im folgenden Blogbeitrag auf das Wesentliche konzentrieren und euch wissenswerte Trends und Neuigkeiten im computerbasierten Sehen zeigen, das eine echte Renaissance erlebt hat.
Starten wir aber mal mit dem Sehen. Licht kann durch sein Spektrum physikalisch beschrieben werden. Wir Menschen nehmen in etwa den Bereich der Wellenlängen zwischen 380nm und 780nm wahr. Das liegt daran, dass unsere Sonne in diesem Wellenlängenbereich ihre elektromagnetische Energie abgibt, zumindest ist das der Bereich, der bei uns auf der Erde ankommt und wir Menschen uns so über Generationen auf dieses Spektrum "spezialisiert" haben. Auf der Retina im Auge liegen unsere drei Farbrezeptoren (auch Zapfen genannt). Dabei haben wir einen Blau-, einen Grün-, und einen Rotrezeptor. Vielleicht habt Ihr schonmal von der Farbpalette RGB (Rot, Grün, Blau) gehört? Das hängt miteinander zusammen. Wenn wir technische Geräte entwickeln, die uns eine farbliche Ausgabe präsentieren, greifen wir natürlich auf eine Farbpalette zurück, die wir Menschen besonders gut sehen können.
Über die Jahre lernen wir Menschen spielerisch mit unseren Augen die Welt um uns herum zu verstehen. Wir lernen Segmente, Muster und Merkmale zu identifizieren und Objekten zuzuweisen. Es ist für uns eine Selbstverständlichkeit, Objekte unterscheiden, Entfernungen abschätzen und Bewegungsabläufe einigermaßen präzise vorhersagen zu können. Diese Eigenschaften einem Computer beizubringen war lange Zeit ein sehr schwerfälliges Forschungsgebiet mit nur langsamen Erfolgen.
Computer Vision (CV) oder zu Deutsch computerbasiertes Sehen beschäftigt sich mit der Interpretation und dem Verständnis der visuellen Welt. Sie hat durch die Verbesserung der Hardware, dem Durchbruch der Künstlichen Intelligenz und der Entwicklung des Internets und mobiler Technologien, durch die Unmengen an Fotos und Videos verfügbar wurden, eine echte Renaissance erlebt. Entsprechend ist sie heute weit verbreitet. Im Gesundheitswesen helfen sie beispielsweise in der Bildanalyse bei Verletzungen und Krankheiten (bspw. Krebs) und in der Landwirtschaft kann durch Monitoring die Ackerfläche bestimmt werden, die so voll autonom gesät und geerntet werden kann. In der Versicherungsbranche hilft sie gemeldete Schäden zu rationalisieren und konsistent und genau zu bewerten.
Was gibt es Neues zu dem Thema aus der Versicherungswelt?
Nicht direkt themenverwandt, aber hochinteressant sind erste Lösungen zur Virtualisierung von Kundenverhalten. Tausende virtueller Kunden mit unterschiedlichen Personas und damit abweichenden Präferenzen reagieren auf Tarif- und Preisänderungen eines Angebots.
Aus dem simulierten Verhalten der virtuellen Kunden lassen sich wichtige Erkenntnisse für ein optimales Produktportfolio gewinnen und sind wesentlich genauer als Marktforschung, Pricing-Beratung oder das eigene Bauchgefühl.
Aktuelle Neuigkeiten und Trends aus der Forschung
Segmentierung ohne Expertenwissen
Derzeit erfordern selbst die populärsten Modelle für Objekterkennung und Segmentierungsaufgaben in der Computer Vision, wie bspw. das Faster R-CNN (Faster Region Based Convolutional Neural Network), manuelles Einpflegen über Wissen der Architektur. Ein neues Framework, das DETR genannt wird (kommt von DEtection TRansformer), verwendet 2D-Bildmerkmale aus einem CNN (Engl. für Faltungsnetze), führt sie zu einer Sequenz zusammen und transformiert sie, um Merkmale zu modellieren. Das Modell ist einfacher, da es lernt zu interpretieren und viel manuelles Vorarbeiten nicht mehr gebraucht wird. Im Bild sieht man, dass das Modell für Segmentierungsaufgaben recht gut abschneidet.
Raumkrümmungen korrigieren
360° Bilder liefern nicht unbedingt die Ergebnisse, die man sich wünscht. Wir sehen hier, dass das linke Bild fehlausgerichtet ist, also keine einheitliche Bezugslinie hat. Hochmoderne Deep Learning Algorithmen sind in der Lagen, dem Bild einen ebenen Bezugspunkt zu geben und so einheitlich auszurichten.
Semantisches Erkennen von Bildobjekten
Bisher tun sich Modelle schwer, Texte und Symbole in Bildern zu erkennen und ihren semantischen Hintergrund zu begreifen. Aber auch hier gibt es einen großen Fortschritt in der Forschung. So ist das KI-Modell LoRRA (Look, Read, Reason & Answer) auf einem völlig neuen Datensatz aus ca. 45.000 Fragen zu ca. 28.000 Bildern trainiert worden, und konnte danach effizient Fragen zu Bildern beantworten.
Realistische Abtastwerte in Texturen erzeugen
Das ist aber noch nicht alles aus dem Bereich von Computer Vision. Das Modell SinGAN ist in der Lage, realistische Abtastwerte für Texturen und ganze Objekte zu erzeugen und liefert damit einen echten Mehrwert im Bereich der Bildverarbeitung.
Man beachte den Weihnachtsbaum, in der Mitte rechts, der als bildfremdes Objekt eingefügt wurde und als solches ein völlig falsches Sampling besitzt. Der Algorithmus lässt es aber so aussehen, als wäre er Teil des Originals.