生成AIと立体錯視の困難な関係 ― 2026年06月02日 06:02
あるプログラム作成問題で、3次元データのZ方向データのみ入れ替えられるようPythonスクリプトを作成するようChatGPTに依頼してみた。
こちらの指示が不適切だったためか何度もデータの関係を誤解して、意図した結果にならない。
しばらくして、これは立体錯視をAIが起こしているのではないのかという考えに至った。
立体錯視とは立体を2次元表示する場合に奥行き方向のデータが正しく認識できない問題で、ヒトが良く勘違いする場合である。
この良く知られた例はエッシャーのだまし絵だが、
https://masterpiece-shop.jp/news/sp/2018-06.html
これほど複雑でなくても正四面体の12の辺を紙に書いた場合も錯視と同じ現象は生じる。
即ち、上から正四面体を見た図なのか下から見た図なのか、ヒトは決めることができない。経験から普通は上から見た図と認識(錯視でもある)するだけだ。
AIも同じである。AIは2次元の図をメッシュ切りし、各メッシュの明暗などのデータを配列として、メモリーに記憶する。
この2次元図から正しいと思われる3次元立体を定めるには、ヒトの目のような物理的な装置が必要になる。しかし、現在のAIにはそのような装置はついてはいない。二つの視点も焦点深度の認識もないのである。
これが生成AIで3次元物体をなかなか理解できないように見える理由だろう。
生成AIが自由に扱うことができる言語というものは1次元データの羅列とみることができる。3次元データを適正に処理するには何らかの改良が必要だと思う。
こちらの指示が不適切だったためか何度もデータの関係を誤解して、意図した結果にならない。
しばらくして、これは立体錯視をAIが起こしているのではないのかという考えに至った。
立体錯視とは立体を2次元表示する場合に奥行き方向のデータが正しく認識できない問題で、ヒトが良く勘違いする場合である。
この良く知られた例はエッシャーのだまし絵だが、
https://masterpiece-shop.jp/news/sp/2018-06.html
これほど複雑でなくても正四面体の12の辺を紙に書いた場合も錯視と同じ現象は生じる。
即ち、上から正四面体を見た図なのか下から見た図なのか、ヒトは決めることができない。経験から普通は上から見た図と認識(錯視でもある)するだけだ。
AIも同じである。AIは2次元の図をメッシュ切りし、各メッシュの明暗などのデータを配列として、メモリーに記憶する。
この2次元図から正しいと思われる3次元立体を定めるには、ヒトの目のような物理的な装置が必要になる。しかし、現在のAIにはそのような装置はついてはいない。二つの視点も焦点深度の認識もないのである。
これが生成AIで3次元物体をなかなか理解できないように見える理由だろう。
生成AIが自由に扱うことができる言語というものは1次元データの羅列とみることができる。3次元データを適正に処理するには何らかの改良が必要だと思う。
最近のコメント