未来の自分からの助言をAIが案内できる時代が近づいている

タイムトラベルをする、過去の世界に行って昔の自分とコミュニケーションを取る、そんなSF小説のようなことが起こるかもしれない。

GoogleのDeepMindユニットが近年、機械学習に長期的な結果を組み込むことで、精神的なタイムトラベルをする人間の能力と同様に働くプログラムを開発したと発表したのだ。
このプログラムを利用すれば、あなたは若い頃の自分に重要なアドバイスを伝えるために時間をさかのぼるというSF小説さながらのことを、AIを通じて行うということが可能になるかもしれない。

AIプログラムは通常は、短期かつ即時の応報をえるために強化学習に依拠したシステムだ。
これに対して、Googleが開発したDeepMindの新しいプログラムであるTemporal Value Transport（TVT）は、ニューラルネットワークの代替形態として機能する。
遠い将来から応報シグナルを後方に送信することを可能にし、これによって強化学習に変換するものだ。

このプログラムはシミュレートされた世界で動作ができ、特定のターゲットへの道（パス）を探索することができる。
プログラムは同じターゲットに対して将来の追跡を行い、パスのメモリを使用することで応報が与えられるシステムだ。
このプロセスはReconstructive Memory Agentと呼ばれており、過去のイベントの記憶はエンコードされた最初の時を示すことができるという。
つまり、Google DeepMindは最新のAI作業で記憶をさかのぼらせてくれる。

「Reconstructive Memory Agent」は、複数の目標を使用して、過去の情勢の記録を一種の記憶として「学習」します。

これまで、多くの社会学者や経済学者たちが、長期的な人間の意思決定の領域やプロセスについて研究してきた。
DeepMindのTVTは人間の思考を完全に代表することはできないが、プログラムの認知メカニズムは人間の思考プロセスに大きな影響を与える可能性が期待されている。

Deeptempの強化学習のバージョンは、「時間的価値トランスポート」を使用して報酬から後方に信号を送信し、アクションを形成することで、ニューラルネットワークの代替形式よりも優れた結果を出します。ここで、「TVT」プログラムは、「長期記憶」またはLSTM、ニューラルネットワーク、メモリあり、メモリなし、および基本的な再構成メモリエージェントと比較されます。

もし、誤って手を火傷してしまったとしよう。
すると、AIが熱いストーブを避ける方法を簡単に学習するのだ。
もっとも、人間の多くは満たされていないキャリアパスに従ってしまうというパターンに、長期的に陥りかねない。
たいていは、そのときは危険だ、もう同じミスを繰り返したくないと思っても、同じ失敗を繰り返してしまうのだ。

これは、長期的な決定には即座のフィードバックがないので、正しい方向を示す兆候を早期に発見して学ぶことは難しいことを表している。
そこで、AIの助けを借りて将来の経路を生成したうえで、現在の結果を通知することができるようになれば、人間はこれまでとは全く異なる新しい方法で学ぶことができるようになるだろう。

DeepMindのTVTが学習能力を高め、実践的に機能できるようになれば、投資の決定から政府の政策に至るまで、未来からの知恵が役立つに違いない。
将来からのメッセージを受け取って案内ができるAIが、現在の選択や娯楽、人間の相互作用までサポートする時代がくるかもしれない。

参考：Google DeepMind gamifies memory with its latest AI work.