Anhand der Aufnahmen eines Smartphones oder einer Webkamera lassen sich die Bewegungen einer Person in einem 3D-Modell rekonstruieren
Immer mehr Anwendungen erfordern es, eine Person und ihre Bewegungen als digitales 3D-Modell in Echtzeit zu erfassen: Angefangen bei der Animation virtueller Figuren in Computerspielen, über die Bewegungsanalyse im Sport bis hin zu Untersuchungen in der Medizin. Bisher war dies nur mit teuren Kamera-Systemen möglich. Forscher des Max-Planck-Instituts für Informatik in Saarbrücken haben nun das Verfahren VNect entwickelt, das lediglich eine einfache Kamera etwa eines Smartphones voraussetzt. Es kann die dreidimensionale Haltung sogar aus einem vorab aufgenommenen Video berechnen, das beispielsweise von der Online-Plattform YouTube stammt. Damit sind völlig neue Anwendungen möglich, unter anderem auch die Bewegungsanalyse per Smartphone.
Srinath Sridhar führt vor, wie gut VNect bereits funktioniert: Das System ermittelt aus Aufnahmen einer preiswerten Webcam in Echtzeit ein dreidimensionales Modell der Körperhaltung des Doktoranden am Max-Planck-Institut für Informatik.
‘Mit unserem System können Sie sogar in den Alpen ein 3D-Bewegungsmodell erstellen, sogar in Echtzeit und mit der Kamera ihres Smartphones’, sagt Dushyant Mehta, Doktorand am Max-Planck-Institut für Informatik die Vorzüge des neuen Systems, das er mit seinen Kollegen aus der Gruppe ‘Graphics, Vision and Video’ von Christian Theobalt entwickelt hat. ‘Bisher war das nur mit mehreren Kameras oder einer so genannten Tiefenkamera möglich, die beispielsweise auch in die Kinect von Microsoft eingebaut ist’, ergänzt Srinath Sridhar, der ebenfalls am Saarbrücker Max-Planck-Institut forscht.
Den Fortschritt ermöglicht eine spezielle Art von neuronalem Netzwerk, das Forscher als gefaltetes neuronales Netzwerk bezeichnen und das in Wirtschaft und Wissenschaft als Basis für das sogenannte Deep Learning, einer besonders leistungsfähigen Form des Maschinellen Lernens, für Furore sorgt. Die Saarbrücker Forscher haben eine neue Methode entwickelt, um damit in kürzester Zeit aus den zweidimensionalen Informationen des Videostreams das dreidimensionale Abbild der Person zu berechnen. Wie das konkret aussieht, zeigt ein von den Wissenschaftlern erstelltes Kurzvideo auf ihrer Webseite. Ein Forscher jongliert mit Keulen, ein Monitor zeigt die entsprechende Videoaufnahme. Die Gestalt des Forschers wird hier von einem feingliedrigen, roten Strichmännchen überlagert. Egal, wie schnell oder wie weit der Forscher ausholt, das Strich-Skelett macht die gleichen Bewegungen, genauso wie ein Körpermodell im virtuellen Raum, das auf einem weiteren Monitor dargestellt wird.
Training mit über zehntausend Bildern von Körperhaltungen
Die Forscher haben ihr System VNec getauft. Bevor es die 3D-Pose der Person ermittelt, bestimmt es deren Position im zweidimensionalen Bild und lässt alle anderen Objekte im Bildausschnitt unberücksichtigt. Dadurch verschwendet es keine Rechenkraft für Bildregionen, die nichts von der Person zeigen. Um die aktuelle dreidimensionale Haltung in Form entsprechender Winkel in den Gelenken zu spezifizieren, trainierten die Forscher das neuronale Netzwerk beim Maschinellen Lernen mit über zehntausend Bildern unterschiedlicher Körperhaltungen. Die Beugungen in den Gelenken, die mit dem derart geschulten Programm bestimmt werden, lassen sich leicht in virtuelle Figuren überführen.
‘Mit VNect können in Zukunft noch mehr Menschen Computerspiele per Körperbewegung steuern. Sie brauchen dafür weder teure Tiefenkamera noch mehrere Kameras, noch müssen die spezielle Marker tragen. Ihre Web-Kamera genügt. Damit sind sogar völlig neue Erfahrungen in der Virtuellen Realität möglich’, erklärt Mehta. Darüber hinaus ist VNect auch das erste System, das lediglich ein Video benötigt, um daraus das 3D-Bewegungsmodell einer Person zu erstellen. ‘Das Spektrum der möglichen Anwendungen für VNect ist daher enorm groß’, erklärt Christian Theobalt, der die Gruppe ‘Graphics, Vision and Video’ am Max-Planck-Institut für Informatik leitet. Die Bandbreite reiche von Mensch-Maschine-Interaktion zu Mensch-Roboter-Interaktion bis hin zu Industrie 4.0, wo Mensch und Roboter Seite an Seite arbeiten. ‘Oder denken Sie an Autonomes Fahren. In Zukunft könnte das Auto mit Hilfe der Kamera die Bewegungen von Personen erfassen, um so auf deren Verhalten zu schließen’, so Theobalt.
VNect wird sich für den Einsatz im Alltag weiterentwickeln
Noch stößt VNect jedoch auch an Grenzen. Die Genauigkeit des neuen Systems ist etwas geringer als die Genauigkeit von Systemen, die auf mehreren Kameras oder Markern basieren. VNect gerät auch in Schwierigkeiten, wenn das Gesicht der Person verdeckt ist und wenn die Bewegungen zu schnell sind oder zu wenig den gelernten Vorbildern entsprechen. Mehrere Personen vor der Kamera bereiten VNect ebenfalls Probleme.
Dennoch ist sich Max-Planck-Forscher Srinath Sridhar sicher, dass sich VNect weiterentwickeln wird und bald so komplexe Szenen verarbeiten kann, dass es ohne Problem im Alltag einsetzbar ist.
VNect wurde unter der Leitung von Christian Theobalt in der Gruppe ‘Graphics, Vision and Video’ am Max-Planck-Institut für Informatik umgesetzt. An dem Projekt wirkten neben Srinath Sridhar und Dushyant Mehta auch Oleksandr Sotnychenko, Helge Rhodin, Mohammad Shafiei, Hans-Peter Seidel, Weipeng Xu sowie Dan Casas mit. Die Forscher werden VNect auf der größten Computer Vision Konferenz CVPR, im US-amerikanischen Honolulu, vom 21. bis 26. Juli, und auf der renommierten, internationalen Konferenz ‘SIGGRAPH’ in der US-amerikanischen Stadt Los Angeles vom 30. Juli bis 3. August vorstellen.
GOB