東京永久観光

【2019 輪廻転生】

検索の原理、ブログの原理


7月26日のコメント欄。検索の話が出てそこから人間の言語や認知や遺伝子や脳の話へと無闇に広がり、私も考えがいろいろ飛んで面白かったので、ここに転載。


■えのき(敬称略)
 今ごろになってコメント 
 テーマから外れてしまう話ですが「分裂勘違い君劇場 - 西暦2026年の日本」にあったように、画像や動画をじかに検索できるようになれば、この話は実現しそうですね。最近出てきたXML形式の文書が普及すれば、より効率的な検索が可能になるし、国立情報学研究所というところが、動画検索技術を開発中というニュースを耳にしましたが、これが実現すればすごいなと思います。
 人間の頭の中で行なわれている、「想像」とか「連想」とかいうものは、つまるところ、テキスト検索や動画検索だと思っているので、実現すれば、Webの仕組みそのものが、ワンランク上のステージに上がるのではと思ったりします。そうなると2026年もSFではすまされないわけですが…


■tokyocat
 映像の検索というのは面白いテーマですよね。でも内容による検索(ご飯を食べている映像を取り出す、とか、きれいなお姉さんが映っている映像を取り出すとか、心のきたないお姉さんが映っている映像を取り出すとか)は、やっぱり難しいと聞きます。それで検索のひとつの方法として、撮影と同時にGPS情報を記録しておくという手法を開発している研究者もいるそうです。映像は時間軸で統御するしかないのですが、GPSを使うと、時間+空間という二つの統御が出来るということなんですよ。あふれかえる映像のなかから、たとえば、家にいたときの映像と、会社にいたときの映像くらいは、瞬時に振り分けることができる。これはなかなか凄いことだと思います。
 さてさて、それにしても、文章というのは内容に応じた検索ができるのに、映像ではとりあえず難しい。なんでだ? この非対称は非常に興味深いと思います。結局のところ、映像というのは世界の(視覚的な)現実そのものに近いのでしょう。ところが、言葉は、それとはまったく違っていて、世界の現実をことごとく人工的に置き換え編み上げ、一から十まで作り直したもの、ということなんじゃないでしょうかね。言葉って、やっぱりおかしなものというか、すごいものなんですよね。言い換えれば、インターネットもふくめて世界にあふれている言葉(単語)のなかには、今まで誰にも使われたことのないものは、ただのひとつもない。それに比べ、映像というのは、どのカットをとってもこの世にひとつしかない。あらゆる映像はすべて、私たちが一度も見たことのないものとしてしか撮影されてこない。
 あともう一個ですが、グーグルでたとえば「坊ちゃん」を検索したいなら、 我々は「赤シャツ」「野だいこ」とか打ち込むわけですが、さらに「小説」とか打ち込むこともある。このとき、最初の二つは検索する対象自体ですが、あとの「小説」は、対象自体ではなく、対象が何であるかを示すわけです。これがまたなんというか、非常に興味深いのです。私たちは、「それ自体を知っている」といだけでなく、「それが何であるか」もしばしば知っている、ということですよね。「メタ認知」という術語がありますが、そうかこれが「メタ認知」ということか、と私は初めて実感しました。で、映像の検索においては、言葉と同じようなメタ認知的な検索は可能なんだろうか、というのがまた、気になるところなのです。人間の脳は、言葉がわかるときだけでなく、映像がわかるときも、音楽が分かるときも、その「メタ認知」を自然にやっているに違いないと思うんです。コンピュータ、悔しかったら、もっとがんばれ、というところですね。(長くてすいません)


■えのき
 GPS情報を利用したとしても、そえれはテキスト検索と本質的に変わらないわけで、真の映像検索実現までの代替技術だろうとは思いますが、究極的には我々の脳内で起こっている画像処理を再現できるような技術が現れないと難しいのでしょうね。少なくとも小泉サンのAAをみて「あ、小泉だ。」と認識できるソフトでないと微妙な検索など、とうていムリと言うことでしょうか…』


■tokyocat
 文章の検索は、検索する対象も、検索するキーも言葉なわけですが、映像の検索を実際に行うときのキーは、何になると思います? はてなの写真ブログなどでは、色をキーにして検索したりしてますが、けっきょくのところ、言葉をキーにして(小泉首相とか、果物とか、サッカーとか)映像を検索することになるんじゃないかと思うんですよね。そうかんがえると、検索というのは、むしろコンピュータが得意、というか、コンピュータを使うようになって初めて気づいた作業というか、そういうふうにも思えるのです。人間の脳は、もっと複雑でダイナミックなことをしていて、ガチガチの検索というのは、案外苦手だったりするのかなと思ったりします。2598×9073の計算が、人間は苦手でコンピュータは得意というのと同じで。
 なんか最近、コンピュータの仕組みと脳の仕組みの違いのほうが重要な気がしてきて、脳の不可思議さを想像したり理解したりするには、コンピュータの仕組みをいったん忘れたほうがいいんじゃないかと思ったりもします。
 人間以外の動物は、言葉を使わずして、対象の同一性を判断したり、検索みたいなことをしたりしているのでしょうから、人間もそういう言葉以外の働きによる認識の部分がもちろんあって、それがどういう原理や形式なんだろうかと、思いますね。
 このあいだ読んだ本では、たとえばあるサルは、なんらかの動物が写っている写真と、なにも動物が写っていない写真との区別があまりできないのに、カワセミが写っている写真と、他の鳥が写っている写真との区別は、うまくできたそうです。人間は、逆ですよね。人間は抽象的な分類ができるというのが、やはり特徴で、それは言葉が抽象的な分類にとても優れているということと関係あると思うんです。
 でも無数の写真や、映像のラッシュをざっとみていて、「あ、小泉だ」と気づくときの、脳の働きは、今いった言葉的な抽象性とは、また違った不思議な認知の能力を使っているのかな、とは思います。レンタルビデオ屋で、ざあっとジャケットをブラウズしているだけなのに、芸術っぽい映画と、ハリウッドっぽい映画とは、なんとなく区別できる。そういう自分の脳がとても面白いなあと思ったりします。


■えのき
 何度も書き込みしてしまって恐縮ですが、あと1回だけ…
 複雑な人間の顔などを、脳が認識する場合でも、顔のパーツをばらばらに分解して、視覚野のそれぞれの部分で「単純な図形」として記憶し、思い出す際には、ふたたびそれらを呼び出して再合成する…という話を何かで読みました。「単純な図形」というファクターは、よりテキストに近い扱いが可能なのではないか、と思ったりします。(夢を見ているときなどは、再合成する際の合理的な力が極端に不足するので、夢の中で同僚と話しているつもりがなぜか顔だけが父親だったり…というふうにランダムな検索結果が映像化する…と、これは僕の勝手な解釈ですが。)
 人間の顔だけでなく、視覚に入る自然界の生成物すべてがATGCのテキストによって「形作られている」ことを考えれば、アナログ的に思える顔形や表情も、脳からすれば、単純な図形の組み合わせ、と見るのもごく当たり前なのかも… 
 最後は飛躍してしまいました。また別の機会に。


■tokyocat
 生命の原理が、なぜか知らないけれど、物質の並びを記号の並びに見立てて利用していること、しかもその記号は「とりあえずは」一文字ずつ一方向で読めばいいこと、そのたびに決められた通りの変化を連ねていけばいいこと、これらは、あまりにできすぎていて、驚くばかりです。これってまさにコンピュータの原理なんじゃないでしょうかね。では脳はどうなんでしょう。たとえば何かを覚えたり何かを思い出したりというとき、ニューロンもまた、ひたすら一個ずつ一方向でしかも決まった一つの作用だけを連ねている、のかというと、そこはどうなんでしょうね。そもそも人間がものを捉えるとき、一続きの流れでしか捉えられない(音楽も文章も映画も)ように思えます。だから、生命や脳の原理をこと人間が実感するときは、どうしてもそうした「一続きの流れ」という形でしか、そういう形の側面しか、実感しようがない、というふうにも思えます。ただその一方で、この物理世界を構成している素粒子(電子とかクオークとか)の状態は、量子的で、「一続きの流れ」みたいな直感ではまったく理解できない、というのが、いっそう不思議(世界は不思議だし科学理論も不思議)に思います。‥こちらも話が飛躍したところで、おしまい。


http://d.hatena.ne.jp/tokyocat/20060726#c1154673957


 *


聞きかじりの怪しい知識も豊富かとおもうが、考えたり書いたりしないよりは、考えたり書いたりするほうが、少なくとも自分にとっては明らかに有益で建設的だとおもった。もうひとつ明らかなのは、相手のコメントに応じるという形だと、それがなければ書くことを控えたような自分の思いもどんどん勢いに任せて書いてしまうということ。これもまた人間の思考や行動の原理といっていいのではなかろうか。

ブログも、なんでわざわざ今これを書くのだろうと悩み出すと、更新が止まってしまうが、インタラクションに応じた形だと、なんとも気楽にいくらでも書けるというところがある。


 *


ついでのようだが、非常に興味深いリンクをひとつ。

茂木健一郎 クオリア日記(2006/08/04)
認知科学における基本概念について」
(講演がmp3で聴ける)
http://kenmogi.cocolog-nifty.com/qualia/2006/08/post_f51c.html

進化という現象の解明が一気に進むためには「突然変異」「自然選択」という基本概念のセットが決定的だったように、脳の実際の認知を記述していくという今後の長い仕事の大前提としても、まずはそれに相当するなんらかの概念セットが不可欠ではないか、ということが述べられている。

そのための着眼点として、茂木氏は、脳の働きにみられる「オープン・エンディッド性」「不確実性」を挙げている。脳は常に決まり切った反応をしておしまいということではなく「いつまでも学習し続ける」ということ。また、脳はたとえば損得などを確率的な法則だけで判断するのではないようだ、ということ。それに関連して、脳のネットワークは、秩序だった結合だけで出来ているのではなく、ランダムな(スモールワールド的な)スパムともいえる結合が存在することが無視できないこと。などなど。

でまた勢いで書いておくが。脳の認知を記述する基本概念セットと聞いて、「表象」&「抽象」という働きのことを私は思った。そしてそれはどちらも言語の本質にかかわると思う。(私がそう思ったからといって、まったくどうということはないのだが、私が今こう思って今こう書くことが、少なくとも私にとっては最重要なのだということだけは、私は知っている)


 *

というわけで、もっとオープンエンドに気楽に書いて間違ったこともかまわず書いてそれからいくらでもどんどん書き足して書き直していけばそれでいいじゃないか、というのが本日の結論。