人工知能をめぐる冒険（2）

人工知能が人間の知能をついに実現できそうだ――という話。そこから実にいろいろな考えが浮かんでくる。とりあえず１つ。

人間の行いのうち人工知能が得意になって真似できそうなものだけを「知能」と呼ぶのだろう（＝そうでないものは人間の行いであっても「知能」とは呼べない）

その前提なら、少なくとも「入力に対する出力」がなければ知能ではない。

もっというと「記号の入力に対する記号の出力」がなければ知能ではない。

もっというと「言語記号の入力に対する言語記号の出力」がなければ知能ではない。

もっというと「言語記号による質問の入力に対する言語記号の回答の出力」がなければ知能ではない。

だからたとえば、忘年会で同僚から「頭をなでる」という入力をされた人間が「ひじでつつく」という出力をしたとしても、それは知能とはかなり遠い。

同じく、散歩していて口笛を吹いたりスキップをしたりしても、それは知能ではない。

人工知能や人間の知能にケチをつけているように聞こえるかもしれないが、まったくそうではない。人工知能研究のおかげで、知能というものの実用的な定義や可能性と限界の見極めができそうでありがたいのだ。そんななかで、知能と呼ぶほどの何かを持つのは人間だけだと仮定すれば、人間が行っていて他の動物や生物が行っていないのは何だろうと考えることになり、そうだ言語や記号の入出力だ！と改めて気づくことになるのだ。

ここまでは露払い。さらにいろいろ考える。＝以下更新中＝

（１）
TARSなどの人工知能も、記号による質問と回答に対応しなければ役には立たないだろう。つまり、「自民党と公明党を合わせて議席はいくつになるか」と言語記号で問うと、「はい、346議席です、ご主人さま」と言語記号で答える。「しぇしぇしぇのしぇ」とかわけのわからないことを答えられても、それは少なくとも人間の知能ではない。

ではこのとき、出入力される記号は言語でなければならないか。そこは思案の余地がある。もちろん実用的には言語が便利だ。でもたとえば絵やメロディーを入出力する人工知能があってもいい。ただそのときは、人間が絵やメロディーで質問を作成できるのか、絵やメロディーの回答を人間が理解できるのかが問題になってくる。（そもそも言語世界以外に疑問というものは存在するのか？）

（２）
しかしながら、人間の知能に近づいたと伝えられる人工知能の１例はグーグルのコンピュータで、それは猫の画像を大量に眺めているうちに猫とはどういうものが把握できるようになったというものだ。図らずもこれは「猫」という言語の入出力ではないかもしれないので、非常に面白い。（少なくとも知能を身につけさせるために入力する情報は言語でなくてもかまわない、ということだろう）

ここで浮かんでくるのは、人間社会の営みの大半は言語の入出力で成立しているように思っているけれど、言語以外の記号（画像など）に拠るところも案外大きいのだろうか、という疑問だ。

もちろん、そもそも人間の知能は言語なしには成立も機能もしてこなかっただろう。そして、特にここ2〜300年の間では「知」というようなものは「書物」の形でこそ構築されてきた。それは間違いないだろう。

しかしそれでも、グーグルのコンピュータが猫にまつわる「多量の言語」の入力ではなく猫にまつわる「多量の画像」の入力によって「猫とは何か」をついに把握したらしいという事実は、きわめてエキサイティングだ。

グーグルが把握した「猫とは何か」を猫の概念と呼ぶべきか、猫のイメージと呼ぶべきか、猫の表象と呼ぶべきか。ともあれ、それは私たちが扱っている猫の概念、猫のイメージ、猫の表象と本質的に似ているのだと私は思う。

……そういえば、私も最近「〜とは何か」が知りたいとき、グーグルに頼るのは当然としても、しばしば画像検索をする。「サモワールって何？」とか「ロマノフ朝って何？」とか「スラブ民族って何？」とか、ぱっとわかりたいとき、いちいちWikipediaなんか読んでいられないのだ。

（といっても、繰り返しになるが、人間が猫にまつわる多量の言語から猫の表象を得るように、人工知能も猫にまつわる多量の言語から猫の表象を得てもよいし、一般にはその方向で人工知能の実用化は進むだろう）

（３）
非常に大事な補足。

記号の入出力をするものだけが知能だという見立てはけっこう妥当だと思う。ただし、人工知能が人間の知能に近づくための最大の鍵は、記号が入力されてから記号を出力するまでの過程にこそある。その過程では「いわゆる記号処理をしていたのでは人間のような知能には絶対になれない」というのが松尾豊さんの話の核心だ。じゃあどんな処理がいいのか。私が理解するかぎりではニューラルネットワークやコネクショニズムといった用語で呼ばれてきた処理だと思う。人工知能が意味や概念を学習できる方法「ディープラーニング」もそこにつながってくる。

　
（４）猫は画像か言語か
グーグルもコンピュータが、猫とはどういうものか（猫という概念もしくは「猫」という単語の意味といっていい）を、ついに把握したという話の続きだが。

われわれは、顔写真を見て誰であるかを把握するより、名前の文字を見て誰であるかを、もっと速くまさに瞬時に把握しているのではないか。

たとえば、これとこれを比べて、そう思う。

顔写真から、われわれは自然現象としてのこの世界の成り立ちを濃縮させて感じ取るように思うが、一方、名前文字からは、言語現象としてのこの世界の成り立ちを濃縮させて感じ取るのだ。そしてどっちが主かというと、人間は概して後者だ。ましてネットばかりしてれば、そりゃもう当然。

ただしそれは、ネットは文字が主という現状が前提なので、ネットの情報や交信がいつかなんらかの画像ばかりで成り立つようになったら、人間は500年ぶり（印刷術発明後）または5000年ぶり（文字発明後）くらいに新しい時代を迎えるかもしれない。

あるいは50000年ぶりくらいに。（現生人類の心に記号や表象といった働きが出現したのは数万年前だろうとか言われている）

ちなみにツイッターの普及はここ5年くらいか。

（５）人工知能に支配される？
将来、人間は人工知能に支配されたり滅ぼされたりしそうか？　十分ありそうだが、そうなっても人間は自らの行動や思考は自らが正当に決定していると思い、まさか人工知能のサシガネだとは思わないのではないか。すでに今も人間は自らの大間違いの行動や思考を自らが正当に決定していると信じている。

　＊

→　人工知能をめぐる冒険（３）http://d.hatena.ne.jp/tokyocat/20150208/p1