人と機械を繋ぐインターフェースとして、キーボードやマウスといった人にとって特殊な操作が必要なデバイスを用いるのではなく、音声やジェスチャといった、より人間の自然なコミュニケーションに近く、より直感的な操作を可能にするための研究が数多く報告されている。 人のジェスチャを認識する方法として、人にモーションキャプチャのための特殊な装置を装着する方法と、カメラの画像から人の姿勢を推定する方法がある。前者は、関節の位置や角度を計測することで、比較的正確に姿勢を獲得することが出来るが、特殊な装置を装着する必要があり、人にかかる負担は少なくない。それに対し、後者は人に特殊な装置を装着する必要はなく、より負担の少ないインターフェースだと言える。 我々は、カメラの画像から人の姿勢を推定する方法として、複数カメラからの画像を用いて、視体積交差法によって人の立体形状を復元し、その立体形状をもとに指さしジェスチャ