画像は言語に裏打ちされて概念化する？

全く知らない用語が出てくれば当然グーグルに頼るが、ぱっと画像検索したほうが「あ、なるほど」と納得することが多い。たとえば「ガールズ&パンツァー」とか。ただしWikipedia「ガールズ&パンツァー」でしか得られないこともまた多い。ふと、人工知能はどっちを使いたがる？　と考える。

それはそれとして。人間は、何かをぱっと目で見て相当多くのことがわかってしまうけれど、それは実は、その画像（それが山であれビルであれベッキーであれ戦車であれ）が、すでに相当多くの概念と結びついているからだ。

そうした画像がまとう概念は、もともとは言語がこと細かく裏打ちしていたのだろう。いわば「言語が裏打ちした概念が画像を裏打ちしている」。しかしやがて画像は言語の支えを不要として概念を一気に立ち上げるようになる。――そんな感触だ

しかし、画像には言語のような操作性はない。だから、私たちは画像のみを使ってあれこれ考えたりコミュニケーションしたりするのは難しい。でも人工知能なら、それをやすやすと乗り超えるのではないか。そのとき、画像の「文法」というものが浮上するのかもしれない。それが言語の文法と似ているか否か、俄然興味がある。

（補足）以前、グーグルの人工知能に絵を描かせたら不気味なものが出来上がった、というのがあった。あれは、あの絵から言語的に読み取れる概念や文法が不気味なだけであり、画像本来がもつ概念や「文法」はきわめてまっとうなのではないか？　だとしたら、大変なことが起こっている！

東京永久観光