Face Detection and Tracking for Computer Games on Mobile Devices (Diplom Thesis) — Overview

In the process of this Diplom Thesis, the possibility and quality of face detection and tracking on mobile devices were examined. The application area of computer games was chosen due to its requirement of low latency and the recent popularity of motion-based game input controls.

First research for the thesis was done in the spring and summer of 2009. Its six-month time frame officially started in September 2009. Until the middle of December 2009 the thesis was worked on in cooperation with SnapDragon Games which then became insolvent. In March 2010, the thesis was finished and handed in and in June 2010 it was graded.

Impact

The released prototype game BurgerFace earned great feedback and has been downloaded over 5,000 times. The associated videos on YouTube both have around 50,000 views.

For example, the videos were featured on:

Abstract (EN)

In recent years, a trend to new input methods for computer games can be identified. Controls that require the player to move are especially successful as they improve the player's experience and allow new interaction techniques. Concurrently, mobile devices become more powerful and often possess a camera. Face detection methods can be used to determine the positions and sizes of faces in camera images. Face tracking procedures, which allow tracking detected faces, can additionally be used. The goal of this thesis is to use inputs in the form of head movements for computer games on mobile devices.

For the application area of computer games on mobile devices, several fundamental requirements and restrictions are identified that constitute the selection criteria for eligible face detection systems. Two systems are selected and described in detail as well as implemented. One system stems from Séguier [1]. It is feature-based and consists of several modules that detect and track a face together. The alternative is a system by Viola and Jones that consists of a cascade of classifiers and is image-based [2]. It requires a long preceding training.

The implementations are made in C++ on the mobile device Nokia N900. This device contains a 600 MHz ARM processor and a camera on the front side. In order to achieve a satisfying performance, the face detection systems are optimized for this platform. On top of that, the prototype game BurgerFace is developed. The objective of the game is to pick up certain objects through head movements in order to gain as many points as possible.

Especially the system by Viola and Jones proves to be very well suited for the application area and is therefore selected for further evaluation. The performance and quality of the face detection and tracking are determined. The release of the game prototype together with a survey on the Internet delivers results on the quality and fun under everyday conditions.

Controlled tests as well as the survey show that inputs in the form of head movements work very well. The system by Viola and Jones is fast enough and provides very good detections. Furthermore, the survey shows that the players have a lot of fun playing such games and that the input method is easily understood.

Abstract/Kurzfassung (DE)

In den letzten Jahren ist bei Computerspielen ein Trend zu neuen Eingabemöglichkeiten festzustellen. Besonders erfolgreich sind solche Steuerungen, die Bewegungen voraussetzen, da sie das Spielerlebnis verbessern und neue Interaktionstechniken ermöglichen. Gleichzeitig werden mobile Endgeräte immer leistungsstärker und verfügen häufig über eine Kamera. Methoden der Face Detection können benutzt werden, um die Positionen und Größen von Gesichtern in Kamerabildern zu bestimmen. Zusätzlich können Face Tracking-Verfahren verwendet werden, die die Verfolgung eines detektierten Gesichts ermöglichen. Dieser Arbeit liegt die Idee zu Grunde, Eingaben in Form von Kopfbewegungen für Computerspiele auf mobilen Endgeräten zu verwenden.

Für das Anwendungsgebiet von Computerspielen auf mobilen Endgeräten werden dazu einige grundsätzliche Anforderungen und Einschränkungen identifiziert, die die Auswahlkriterien für mögliche Face Detection-Systeme darstellen. Daraus ergeben sich zwei Systeme, die beschrieben und implementiert werden. Ein System stammt von Séguier [1]. Dieses System ist merkmalsbasiert und besteht aus mehreren Modulen, die zusammenarbeiten, um ein Gesicht zu detektieren und zu verfolgen. Eine Alternative stellt ein System von Viola und Jones dar, das aus einer Kaskade von Klassifikatoren besteht und bildbasiert ist [2]. Es benötigt ein vorgelagertes, langwieriges Training.

Die Implementierungen werden in C++ auf dem mobilen Endgerät Nokia N900 vorgenommen. Dieses Gerät verfügt über einen ARM-Prozessor mit 600 MHz und eine Kamera auf der Vorderseite. Zur Erreichung einer guten Performanz werden die Face Detection-Systeme in Bezug auf diese Plattform optimiert. Darauf aufbauend wird der Spielprototyp BurgerFace entwickelt. Das Spielprinzip besteht darin, durch Kopfbewegungen bestimmte Objekte einzusammeln, um möglichst viele Punkte zu erreichen.

Besonders das System von Viola und Jones erweist sich als sehr gut geeignet für das Anwendungsgebiet und wird deshalb zur weiteren Evaluierung ausgewählt. Die Performanz sowie die Qualität von Face Detection und Tracking werden erhoben. Die Veröffentlichung des Prototyps zusammen mit einer Umfrage im Internet liefert Ergebnisse im Hinblick auf Funktionalität und Spielspaß unter Alltagsbedingungen.

Sowohl kontrollierte Tests als auch die Umfrage zeigen, dass Eingaben durch Kopfbewegungen sehr gut funktionieren. Das System von Viola und Jones ist schnell genug und liefert eine sehr gute Detektion. Die Umfrage zeigt des Weiteren, dass die Spieler viel Spaß an einem solchen Spiel haben und die Steuerung schnell zu verstehen ist.

Videos

References

[1] Séguier, R.: A very fast adaptive face detection system. In: Proceedings of the Fourth IASTED International Conference on Visualization, Imaging, and Image Processing, 2004.

[2] Viola, P. und M. Jones: Robust real-time object detection. In: Proceedings of the Second International Workshop on Statistical and Computational Theories of Vision, 2001.