生成AIと立体錯視の困難な関係2026年06月02日 06:02

あるプログラム作成問題で、3次元データのZ方向データのみ入れ替えられるようPythonスクリプトを作成するようChatGPTに依頼してみた。

こちらの指示が不適切だったためか何度もデータの関係を誤解して、意図した結果にならない。

しばらくして、これは立体錯視をAIが起こしているのではないのかという考えに至った。

立体錯視とは立体を2次元表示する場合に奥行き方向のデータが正しく認識できない問題で、ヒトが良く勘違いする場合である。

この良く知られた例はエッシャーのだまし絵だが、
https://masterpiece-shop.jp/news/sp/2018-06.html

これほど複雑でなくても正四面体の12の辺を紙に書いた場合も錯視と同じ現象は生じる。

即ち、上から正四面体を見た図なのか下から見た図なのか、ヒトは決めることができない。経験から普通は上から見た図と認識(錯視でもある)するだけだ。

AIも同じである。AIは2次元の図をメッシュ切りし、各メッシュの明暗などのデータを配列として、メモリーに記憶する。

この2次元図から正しいと思われる3次元立体を定めるには、ヒトの目のような物理的な装置が必要になる。しかし、現在のAIにはそのような装置はついてはいない。二つの視点も焦点深度の認識もないのである。

これが生成AIで3次元物体をなかなか理解できないように見える理由だろう。

生成AIが自由に扱うことができる言語というものは1次元データの羅列とみることができる。3次元データを適正に処理するには何らかの改良が必要だと思う。