深層信念ネットワークとは。 ディープラーニング【G検定 学習】

ニューラルネットワークの基礎解説:仕組みや機械学習・ディープラーニングとの関係は |ビジネス+IT

深層信念ネットワークとは

モデルは、さまざまな理由により、数十層、たとえば3層に制限されていましたが、これにはさまざまな理由があります。 たとえば、Kolmogorovs thmという名前の数学証明は、低エラーで(ただし多くのニューロンのみで)理論的に任意の関数を近似できることを示しています。 それを超える多層ネットワークは、従来の学習手法では実現可能ではありませんでした。 2006年には、より多くのレイヤーをトレーニングできる3人の異なる研究者Hinton、Le Cun、Bengioが同様のブレークスルーをもたらしました。 この領域の顕著な問題は手書き認識でした。 特にこのプレゼンテーションのスライド17を参照してください そのため、分野はたった半年で、急速な研究開発が行われています。 Google、Facebook、Yahooはすべてディープラーニングベースのイニシアチブを発表しており、研究開発が進行中です。 人工ニューラルネットワークは、グラフに基づいたさまざまな種類のアルゴリズムを含むアルゴリズムのクラスです。 ANNには多くの種類があるため、言いすぎることはないので、ここでは詳細を説明しません。 最初の種類の人工ニューラルネットワークである有名なMcCulloch-Pittsニューロンは 線形でした。 つまり、線形決定問題(つまり、線を引くことで 線形に分離できるデータセット)しか解けませんでした。 時間が経つにつれて、この線形ニューラルネットワークモデルは、パーセプトロンまたはアダリンとして知られるようになりました(重みの更新の計算方法によって異なります)。 線形ニューラルネットワークは、2部グラフで構成されています。 左側のノードが入力で、右側のノードが出力です。 これらのノード間のエッジの重みのみが学習されます(ノードのアクティブ化しきい値も調整できますが、これはめったに行われません)。 浅いニューラルネットワークが発明されたとき、大きな一歩が踏み出されました。 2部グラフだけでなく、3部グラフを使用します。 入力「レイヤー」、出力「レイヤー」、それらの間の 1つの「隠しレイヤー」です。 隠れ層のおかげで、ネットワークは非線形の決定を下し、標準的なXORなどの問題を解決できるようになりました。 「浅い」という用語は、 ディープニューラルネットワーク( n層ニューラルネットワークとも呼ばれる)が発明されたときに遡及的に作られたものであることに注意してください。 これは、1つの隠れ層のみを持つニューラルネットワーク と、n個の隠れ層を持つ深いニューラルネットワークに対抗するためです。 推測できるように、より多くの非表示レイヤーを使用すると、決定を調整するレイヤーが増えるため、より複雑なデータセットを決定できます(つまり、決定境界の次元を増やして、過剰適合につながる可能性があります)。 あなたは尋ねることができます:なぜ誰も以前に多層(ディープ)ニューラルネットワークを使用しようとしなかったのですか 事実、彼らは1975年には福島によってと(実際には畳み込みニューラルネットワークですが、それは別の話です)で行いました。 しかし、問題は、そのようなネットワークを効率的に学習する方法を誰も知らなかったことであり、大きな問題は 正則化でした。 が道を開き、後 問題を修正しました。 Deep Beliefs Networks(DBN)はどうですか?それらは、多層の半制限ボルツマンマシンです。 したがって、それらは一種のディープニューラルネットワークですが、異なる基本的なネットワークパターン(つまり、レイヤー、これが繰り返されるパターンです):ボルツマンマシンは、 生成的であるという点で他のネットワークとは異なります。 つまり、通常はデータを学習してデータを再現(「生成」)するために使用され、通常のディープニューラルネットワークはデータを 分離するために使用さ れます(「決定境界」を描画することにより)。 実際、きちんと要約すると、AutoEncodersはDeep Belief Networkのより単純な形式であると言えます。 以下は、数字ではなく顔を認識するように訓練されたDBNの例です。 数字は自動的に消えます(これはDBNの「修正」効果です)。 したがって、最終的に、DBNとDNNは反対ではありません。 これらは相補的です。 たとえば、手書き文字を認識して、最初にキャラクターの画像をDBNにフィードしてよりステレオタイプにしたシステムを想像してから、ステレオタイプの画像をDNNにフィードして、イメージが表すキャラクターを出力します。 最後の注意:Deep Belief NetsはDeep Boltzmann Machinesに非常に近い:Deep Boltzmann MachinesはBoltzmann Machines(双方向ニューラルネットワーク、リカレントニューラルネットワークとも呼ばれます)のレイヤーを使用しますが、Deep Belief Netsは半制限付きボルツマンマシン(semi-制限は、それらが単方向に変更されることを意味します。 したがって、再帰伝播を使用するよりもはるかに効率的なネットワークを学習するために逆伝播を使用できます。 おまけ:畳み込みニューラルネットワーク(CNN)については、多くの矛盾したわかりにくい主張がありますが、通常、それらは単なるディープニューラルネットワークであることがわかります。 ディープニューラルネットワークは、深さが比較的高いニューラルネットワークです。 それらはニューラルネットワークのサブクラスです。 このアイデアは実際には数十年前に遡り、新しいものではありません。 新しいのは、実際にそれらを訓練する方法を見つけたということです。 最近非常に人気になった理由は、それらのトレーニングが実行可能になり、人々がそれらを使用して最先端のアルゴリズムを打ち負かしたからです。 DNNには、数十年前には利用できなかった大量のデータと計算能力が必要です。 ジェフヒントンと彼の学生と同僚は、過去10年間でそれらを実際に訓練する方法を考え出し、それらを使用して、ほとんどの研究者が当時それらを完全に使用するという考えを避けていたいくつかの分野で最先端の機械学習アルゴリズムを打ち負かしました。 信念ネットワークは確率的グラフィカルモデルのクラスであり、グラフを使用して一連のランダム変数とその依存関係をモデル化します(これを行うにはさまざまな方法があります)。 これらの変数自体は、パラメーター化された分布からのものであり、ニューラルネットワーク(またはパラメーター化された分布を表す他のモデル)によってモデル化される場合があります。 深い信念ネットワークは、比較的深い信念ネットワークです。 信念ネットワークは生成的である傾向があります。 つまり、訓練されたモデルを使用して、それが表す分布からサンプルを生成できます。 ニューラルネットワークは差別的である傾向があり、それらを使用して特定の入力の確率を計算できます(これは猫の写真ですか?これは猫の写真である確率はどれくらいですか?)猫の絵)。

次の

20150310 第1回 ディープラーニング勉強会

深層信念ネットワークとは

モデルは、さまざまな理由により、数十層、たとえば3層に制限されていましたが、これにはさまざまな理由があります。 たとえば、Kolmogorovs thmという名前の数学証明は、低エラーで(ただし多くのニューロンのみで)理論的に任意の関数を近似できることを示しています。 それを超える多層ネットワークは、従来の学習手法では実現可能ではありませんでした。 2006年には、より多くのレイヤーをトレーニングできる3人の異なる研究者Hinton、Le Cun、Bengioが同様のブレークスルーをもたらしました。 この領域の顕著な問題は手書き認識でした。 特にこのプレゼンテーションのスライド17を参照してください そのため、分野はたった半年で、急速な研究開発が行われています。 Google、Facebook、Yahooはすべてディープラーニングベースのイニシアチブを発表しており、研究開発が進行中です。 人工ニューラルネットワークは、グラフに基づいたさまざまな種類のアルゴリズムを含むアルゴリズムのクラスです。 ANNには多くの種類があるため、言いすぎることはないので、ここでは詳細を説明しません。 最初の種類の人工ニューラルネットワークである有名なMcCulloch-Pittsニューロンは 線形でした。 つまり、線形決定問題(つまり、線を引くことで 線形に分離できるデータセット)しか解けませんでした。 時間が経つにつれて、この線形ニューラルネットワークモデルは、パーセプトロンまたはアダリンとして知られるようになりました(重みの更新の計算方法によって異なります)。 線形ニューラルネットワークは、2部グラフで構成されています。 左側のノードが入力で、右側のノードが出力です。 これらのノード間のエッジの重みのみが学習されます(ノードのアクティブ化しきい値も調整できますが、これはめったに行われません)。 浅いニューラルネットワークが発明されたとき、大きな一歩が踏み出されました。 2部グラフだけでなく、3部グラフを使用します。 入力「レイヤー」、出力「レイヤー」、それらの間の 1つの「隠しレイヤー」です。 隠れ層のおかげで、ネットワークは非線形の決定を下し、標準的なXORなどの問題を解決できるようになりました。 「浅い」という用語は、 ディープニューラルネットワーク( n層ニューラルネットワークとも呼ばれる)が発明されたときに遡及的に作られたものであることに注意してください。 これは、1つの隠れ層のみを持つニューラルネットワーク と、n個の隠れ層を持つ深いニューラルネットワークに対抗するためです。 推測できるように、より多くの非表示レイヤーを使用すると、決定を調整するレイヤーが増えるため、より複雑なデータセットを決定できます(つまり、決定境界の次元を増やして、過剰適合につながる可能性があります)。 あなたは尋ねることができます:なぜ誰も以前に多層(ディープ)ニューラルネットワークを使用しようとしなかったのですか 事実、彼らは1975年には福島によってと(実際には畳み込みニューラルネットワークですが、それは別の話です)で行いました。 しかし、問題は、そのようなネットワークを効率的に学習する方法を誰も知らなかったことであり、大きな問題は 正則化でした。 が道を開き、後 問題を修正しました。 Deep Beliefs Networks(DBN)はどうですか?それらは、多層の半制限ボルツマンマシンです。 したがって、それらは一種のディープニューラルネットワークですが、異なる基本的なネットワークパターン(つまり、レイヤー、これが繰り返されるパターンです):ボルツマンマシンは、 生成的であるという点で他のネットワークとは異なります。 つまり、通常はデータを学習してデータを再現(「生成」)するために使用され、通常のディープニューラルネットワークはデータを 分離するために使用さ れます(「決定境界」を描画することにより)。 実際、きちんと要約すると、AutoEncodersはDeep Belief Networkのより単純な形式であると言えます。 以下は、数字ではなく顔を認識するように訓練されたDBNの例です。 数字は自動的に消えます(これはDBNの「修正」効果です)。 したがって、最終的に、DBNとDNNは反対ではありません。 これらは相補的です。 たとえば、手書き文字を認識して、最初にキャラクターの画像をDBNにフィードしてよりステレオタイプにしたシステムを想像してから、ステレオタイプの画像をDNNにフィードして、イメージが表すキャラクターを出力します。 最後の注意:Deep Belief NetsはDeep Boltzmann Machinesに非常に近い:Deep Boltzmann MachinesはBoltzmann Machines(双方向ニューラルネットワーク、リカレントニューラルネットワークとも呼ばれます)のレイヤーを使用しますが、Deep Belief Netsは半制限付きボルツマンマシン(semi-制限は、それらが単方向に変更されることを意味します。 したがって、再帰伝播を使用するよりもはるかに効率的なネットワークを学習するために逆伝播を使用できます。 おまけ:畳み込みニューラルネットワーク(CNN)については、多くの矛盾したわかりにくい主張がありますが、通常、それらは単なるディープニューラルネットワークであることがわかります。 ディープニューラルネットワークは、深さが比較的高いニューラルネットワークです。 それらはニューラルネットワークのサブクラスです。 このアイデアは実際には数十年前に遡り、新しいものではありません。 新しいのは、実際にそれらを訓練する方法を見つけたということです。 最近非常に人気になった理由は、それらのトレーニングが実行可能になり、人々がそれらを使用して最先端のアルゴリズムを打ち負かしたからです。 DNNには、数十年前には利用できなかった大量のデータと計算能力が必要です。 ジェフヒントンと彼の学生と同僚は、過去10年間でそれらを実際に訓練する方法を考え出し、それらを使用して、ほとんどの研究者が当時それらを完全に使用するという考えを避けていたいくつかの分野で最先端の機械学習アルゴリズムを打ち負かしました。 信念ネットワークは確率的グラフィカルモデルのクラスであり、グラフを使用して一連のランダム変数とその依存関係をモデル化します(これを行うにはさまざまな方法があります)。 これらの変数自体は、パラメーター化された分布からのものであり、ニューラルネットワーク(またはパラメーター化された分布を表す他のモデル)によってモデル化される場合があります。 深い信念ネットワークは、比較的深い信念ネットワークです。 信念ネットワークは生成的である傾向があります。 つまり、訓練されたモデルを使用して、それが表す分布からサンプルを生成できます。 ニューラルネットワークは差別的である傾向があり、それらを使用して特定の入力の確率を計算できます(これは猫の写真ですか?これは猫の写真である確率はどれくらいですか?)猫の絵)。

次の

20150310 第1回 ディープラーニング勉強会

深層信念ネットワークとは

派生問題:複合的な方策の一般化と関数近似は如何にして可能になるのか これまでの推定のように、単一の状態や単一の状態と行動の組み合わせのみを前提とした場合、状態の数と行動の数が少ない場合にしか方策を規定できなくなる。 そのため、限定された部分的なを generalization することで、既知の状態や既知の状態と行動の組み合わせから未知の状態や未知の状態と行動の組み合わせに対応する価値を的に算出する必要がある。 例えばが適用される視覚のセンシング技術などのように、同一の状態で同一のが得られる保証の無い場合には、とりわけ過去のから未だしていない状態や行動へとすることが求められる。 そこで、は supervised learning の問題と接点を持つことになる。 つまり、の一種である function approximation のをに組み込むことにより、目的となる既知のから全体をするを試みることになる。 そのためや認識、木などのようなは、においても有用なとして挙げられるかもしれない。 だが、全てのが例外無くに適している訳ではない。 例えばでは、静的な訓練を前提としているために、同一ので複数回の試行が実行されることを想定されている。 しかしながらでは、環境やそのとの相互作用を通じて、がオンラインで実行でなければならない場合もある。 そのためには、新を随時獲得しつつにし続けるが必要になる。 更に付け加えるなら、では、「 nonstationarity target function 」を参照したが求められる。 とは、と共にする目的をする。 例えば方策が変化しない場合であっても、訓練内の目的価値がやTDなどによるによって生成される場合には、その目標価値は非定常型となる。 こうした非定常を扱うことを不得手としているは、には不向きと言える。 問題解決策:平均二乗誤差 の大半は、入力の分布P上の「 mean-squared error 」を最小化するように動作する。 における価値の予測問題では、入力値に該当するのが状態で、目的に該当するのが真のとなる。 あらゆる状態のをゼロまで小さくすることは、通常ならば不だ。 そのためこの分布は重要な位置付けにあるとされる。 言うなればの能力の自由度は希少資源のようなものだ。 つまり、一部の状態でを得るためには、他の状態でのの質をにせざるを得ない。 分布Pは、このオフの関係を指し示している。 問題解決策:大域最適解と局所最適解の区別 この最小二乗に固執すべきか否かは議論の余地がある。 において重要となるのは、最小二乗の追究ではない。 で求められるのは、の予測をにすることで方策のへと応用していくことだ。 最小二乗における理想的な目標は「 global optimum 」をすることに他ならない。 この理想的な目標は、線形などのような的単純なにおいては達成である場合が多い。 しかしや木などのような的複雑なにおいては、ほぼ不である。 こうした複雑なは、代替的に「 local optimum 」へ収束するように動作する。 これは、非線形それ自体の目的の達成という点では十分なとしてられる場合がある。 だがの事例の多くにおいて、最適解への収束は見受けられていない。 この問題は、この点で未だ研究途上にあると言える。 例えば勾配に基づくの中では「 Deep architecuture 」とも関わりを持つ逆を用いた多層が採用される場合がある。 いわゆる Deep Q Network は、この方面を推し進め、に「 Deep learning 」を用いたとなっている。 問題解決策:関数近似による行動価値推定 記事を用いたをにすることは的容易に実現できる。 ここでもまた、を確実に実行させるとして、「」と「」のが導入される。 だが行動全体が巨大なか値となる場合は特に、こうした設計に明確な解を与えられるほどには、研究は進んでいない。 問題解決策:深層学習 遅くても2006年から2009年ごろの間には、「 Deep Learning 」の研究領域では、「 Deep Architectures 」という概念が取り沙汰にされるようになった。 ここでいうの深さ depth of architecture は、非線形の水準をする。 深さがあるということがするのは、が的にも的にも「階層」しているということだ。 例えばならば Hidden Layer の個数に比例して「深くなる」。 はこうした中間層のように高度に的な highly-varying function を幾つも階層的に組み合わせ、的低水準の層でした個別具体的なベクトルが的高水準の層に渡されるに連れてされていくというによって、概念のをにしている。 このされたはを前提とした「 generalization 」によって成り立っている。 のはとによるをにする点にあると言える。 表面的にれば、のは深く層の数の多いとして記述できる。 しかしより重要なのは、のがした点を対象としたによるのがだ。 このしたをとりわけ「 internal representation 」、あるいは単に「 feature 」と呼ぶ。 のみならず、音声認識や画像認識をはじめとした認識においては、入力な音声や画像のから認識に有用なベクトルをすることが先決となる。 認識に適用な少数の有用なベクトルができれば、線形分類器やなどによってクラス推定やラベリングがになる。 、のがされるのは、したに潜在的なが含まれているためだ。 例えばが局所的なとして分布している場合には、事前にを実行した後に、各に対する処理を実行した方が効率が良い。 そうしたは「カテゴリ category 」とは異なって、が事前に把握していたとは関連を指し示す。 そうした関連は、元来無関係と思われていた複数のを紐付けることによって、それら複数の問題を一挙にするへの道標を連想させることもあり得る。 確かに「ノーフリーランチ定理 no free lunch theorem 」がるように、あらゆるに対して万能なはあり得ない。 だが、多くのに対応し得る汎用の高いをできれば、より汎用的なとなるを設計することもになる。 ニューラルネットワークの関数近似能力 は長らく「 Vanishing Gradient 」にしめられていた。 多層化されたでは、のパラメタの勾配が0に近付いてしまう。 つまり最急降下による勾配が小さくなることで、それ以上が進まなくなってしまうのだ。 的な経緯からすれば、は外部要因からも厳しい制約を受けていた。 丁度問題が取り上げられた時期と重なるように、「 Support vector machine; SVM 」が脚光を浴びたためだ。 SVMはのように局所収束の問題に直面する訳ではない。 このはカーネルによる複雑な非線形的な識別分類をもにする。 MNIST Mixed National Institute of Standards and Technology database の手書き認識に対するベンチマークテストでも、当時はを上回る能を発揮していた。 SVMは識別の一種であると共に、の一種でもある。 この分析では、と非のが重視される。 SVMは「マージン最大化」によって、各の内外をする。 ここでいう「マージン margin 」とは、あるの内外から最も近傍に位置するとのを指す。 例えば二次元平面上のでを実行する場合、各の内外を規定するためには、をする線分を引く必要がある。 この化は、所与の各を前提とした場合のみならず、未知の新たなが入力された場合にも適用できなければならない。 さもなければその分析は汎化を失う。 したがってここで記述する線分は、な限り各の中心を通過するのが好ましい。 言い換えれば、「マージン」が最大となるように、線分を記述した方が良いのである。 サポートベクターマシンは、このマージン最大化の原理により、未知のに対してもなをにするとされている。 これに対しのとりわけ逆によるでは、原則的にに対してのみを保証する。 の無い上においては、分析が初期値に依存することになる。 故にの導入にもが伴う。 ニューラルネットワークとSVMのアルゴリズム的差異 そうなると、そもそもにおいてSVMとがされるのは、まさにMNISTの手書き認識の如く、ある一定のを前提としたのが導入された場合の的な分析を採用した場合に限られる。 双方は手書き認識のような問題を設定した場合にはとなり得るだろう。 しかし的な等価は全く無い。 SVMのが上の非線形問題のとなる一方で、のは「 Function approximation 」において付けられる。 ニューロンの入出力における微分をとしたシグモイドのは、多層パーセプトロンによる出力値を0から1の間の値に限定することを指向する。 とのすらこの範疇の値で正規化してすることがなのだ。 概してを付けるは、単純に認識のような問題のにあるというよりは、むしろ出力値をにしていくことにある。 問題再設定:深層強化学習問題の枠組み とをに接続させた「 Deep Reinforcement Learning 」において名を馳せているのは、Googleが「 Q Learning 」と「 Convolutional neural network を組み合わせることで設計したDeep Q-networks だ。 しかしのかられば、この組み合わせのは。 がのようなとのをするのは、状態あるいは状態対行動の組み合わせが大量にあり得る場合のメモリや量の面で限界に直面してしまうからだ。 つまりこの場合のは、で状態や状態対行動の組み合わせの「」がというを前提としたとして導入されているのである。 これは、言い換えれば「 generalization 」の問題として設定できる。 状態や状態対行動の組み合わせのをすることで、より広汎な状態や状態対行動の組み合わせに対するをしていくことが求められているのだ。 このに対するとして第一に挙げられるのは、でも採用されているように、「 function approximation 」であろう。 それはにおけるをはじめとした目的からサンプルをして、そこから全体をするようにを実行していく。 はの一種だ。 は、これをにする具体例の一つとなるだろう。 しかしするなら、この問題に対するなは直ぐに思い付く。 例えばから未知のをベイズ的に予測するのは、状態や状態対行動の組み合わせに対しても適用できる。 状態や状態対行動の組み合わせに関するから未知の潜在的なを推定することによって、より効率的にをしていくこともまた、状態や状態対行動の組み合わせに伴うへの対処となるはずだ。 問題解決策:Deep Q-Network 以上のように、は、を導入することの派生問題となるの問題の枠組みとなる。 このにおけるのは、に他ならない。 このことは、従来のの的ながの問題をにしていることからも明らかである。 「のかられば、は幾つかのを抱えている。 まず、今日まで成功したのアプリケーションが大量の的なを必要としていたのに対して、は、頻繁に発生する疎のが含まれ、遅延も伴うスカラー型の信号からできなくてはならない。 とりわけ気掛かりなのは、でされた入力と目的変数との直接的な関連に比して、何千ものから成るのある行動とそのとして得られるとの間に遅延が伴うということである。 もう一つの問題は、のではのサンプルが独立していると仮定されるのに対して、の場合は通常、相関の高い状態のに遭遇するということである。 さらに言えば、では、が新しい行動をするに連れて、分布がする。 そして固定された基礎分布を仮定するでは、このが問題となるがある。 」 Mnih, V. , Kavukcuoglu, K. , Silver, D. , Graves, A. , Antonoglou, I. , Wierstra, D. 2013. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312. 5602. , p1. 尤も、のとしてのがを知るには、との接続をにしている工学を確認しなければならない。 Deep Q-Networkの特徴工学 2013年にDeepMind Technologiesによって紹介された最初期のは、Pong、Breakout、Space Invaders、Seaquest、Beam RiderなどのようなAtari 2600 Gamesをとして設計されている。 は、によって行列をする Deep Convolutional Neural Networks をとして搭載したである。 この行動は、の環境にを与えると共に、エミュレータの状態を更新する。 それに伴い、のスコアも計算される。 エミュレータの内的な状態は自身によってはされない。 これは現在のスクリーン上のをピクセル値でしたベクトルである。 この値は、スコアがすることで規定される。 的にスコアは、事前の行動とのに依存して規定するを持つ。 行動についてのは、数千単位のが実行された後にされる。 は現在の映像のみをする。 それ故にのは部分的にされることになる。 そして多くのエミュレータの状態は的に変換される。 の戦略はこのに依存する。 エミュレータにおける全てのは個ので終了すると想定される。 この化によって、いずれのも明確化された状態となる、巨大ではあるものののマルコフ過程 Markov decision process: MDP が得られる。 的に、単純に時刻tにおける状態として全を利用することにより、MDPにおいての標準的なのを適用することがになる。 の最終的な目標は、将来的なを最大化するで諸行動をすることでエミュレータと相互作用することである。 時刻tの将来的な割引された return は、次のようになる。 それはいずれの戦略に追従した場合でも到達な最大としてされる。 されたはを踏襲している。 これは次のような intuition を基礎としている。 しかし大の反復は実用に欠けるため、汎化 generalisation に基づく approximation が必要になる。 最適化されるべき損失関数 典型的なでは線形のが用いられてきたのに対して、では、による非線形のが採用される。 のは、便宜上それぞれtanhのを持つ3層のネットワークを想定するなら、次のようになる。 *はを表す。 Wとbで表記されているはそれぞれの層の行列とベクトルを表す。 注意しなければならないのは、目的変数はネットワークのに依存するということだ。 これはとは対照を成した質である。 と言うのもにおいては、この目的変数はが始まる前に固定されるためである。 はそうではない。 にとって、目的変数はである。 それはエンジニアやのようなシミュレーションをした者によって先験的に与えられる訳ではない。 外部から入力されるはずの「」は、のの内部に再導入 re-entry される。 全体でれば、目的変数は、に基づく的なによるによって、認識論的にされるのである。 の目的変数に対するは、のでは、外部に言及しているへの言及に他ならない。 をに関して微分すると、次のような勾配が得られる。 によってをすることは、計算効率上有用となる。 プロトタイプの開発:Deep Q-Networkの機能的等価物としての深層強化学習アルゴリズム 先述したライブラリの『 』では、のみならず、こののTemplate Methodも提供している。 しかし、としては、だけではない。 後述するように、のを記述するなら、様々なを想定できる。 このライブラリでは、をしているとを疎状態で設計することで、のな代替を担保している。 これによりこのライブラリは、なとの精度やのもにしている。 問題再設定:統計的機械学習問題の枠組み statistical machine learning 問題の枠組みでは、したそれぞれの点の出現に関する未知の generative model を入力された点のから推定する。 未知のからその分布に準じてする点が生成されているという発想は、ベイズにおいてもお馴染みの考え方だ。 者は当初、のを知らない。 最終的にはのとして化される。 この点、はまさにベイズでも言及される「 prior distribution 」に他ならない。 推定されるのとしてのは「 posterior distribution 」に対応する。 最大事後 Maximum a posteriori; MAP 推定を単に採用するだけでも、はベイズ的に推定することがになる。 問題解決策:グラフとノードの区別 「 Markov random field; MRF 」は、におけるの一つと見做されている。 この概念は、でも縁のある「 graph 」と「 node 」のを導入することで付けられている。 概念は、更に「 directed graph 」と「 undirected graph 」にされる。 誤解を招くことを恐れずに言えば、この二つの概念は、のにおける「関連」概念とよく似ている。 が関連の誘導を明示的に限定している関連であると喩えるなら、はその誘導を未規定にしてする。 同じようにで喩えるなら、はに対応すると言える。 また、関連付けることを「 link 」と呼ぶ。 有効ではないため、双方は同一の関連をする。 つまり関連の付けをしている。 はを最小限に抑えるべくされる。 このの出力値は常に低くなるように設計される。 言い換えれば、このはをより低く計算できるようにxをしていく。 問題解決策:マルコフ確率場としてのイジングモデル の最も単純な一例は「 Ising model 」として知られている。 はの Phase transition を分析するために設計されたである。 とは、磁石として物質をする。 そのはによって不にする。 臨界以上であれば、外部から磁場を外場として加えない限りは、磁化は生じない。 だが臨界以下では、外場をどれほど0に近付けても、磁化が弱まることが無い。 この微弱な磁化を特に「 spontaneous magnetization 」という。 という現象は、この磁化の作用のように、のパラメタが変化することで物質のなが変化することを指す。 Mezard, M. 2009. Information, physics, and computation. Oxford University Press. , p35より掲載。 はの要素となる・水準の「 spin 」と呼ばれる弱い磁石の質に着目したである。 というは、このの向きに対するなによってされる。 vベクトルは粒子のをする。 そしてBベクトルは、以下の「 Biot—Savart Law 」によって得られる ambient magnetic field である。 Iは電流 background electric current で、を生成する。 Cは電流経路をする。 rベクトルは経路上の点からの変位をする。 しかし、とりわけが非真空媒体において「 a magnetic dipole moment 」を発生させる場合、あるいは「 spin 」を生じさせる場合に、この関連は複合化する。 通常のは鉄やニッケルでされているが、がする必要が無いという点では特殊である。 の各は、互いにその隣接すると同一の方向を志向する。 が生じるのは、このが整序された場合である。 とはいえにおけるのは単されている。 それはある軸に準拠した格子状の量として記述されており、それぞれ平行を表す+1か反平行を表す-1のしか取り得ない。 だが隣接するは互いにを与え合う。 また、各は外場のも受容する。 こうしたは、ハミルトニアン Hamiltonian のにより、次のように定式化される。 ij は格子状で隣接する接格子点の対をする。 Jは隣接する対の相互作用を表すのに対して、hは外場の強さを表している。 Jが正の値であることが、に対応している。 的に言えば、保存則により、仕事が介在しない限り、物質はの低い状態を好む。 つまり、が最も下がるのは、全てのが+1になっている場合か、全てのが-1になっている場合となる。 ボルツマン分布 的に言えば、は上述したに準拠した「 Bolzmann distribution 」としても設定されている。 この分布はにおいて分布を与えるマクスウェル分布を汎化したとして位置付けできる。 Wは各の付けを表すパラメタとなる。 は以上のの変換を前提として設定される。 バイアスパラメタの機能 パラメタbは、諸要素に紐付けての高低を振り分けるを有している。 これは正負のを導入することで簡明となる。 ポップフィールド・ネットワークとしてのボルツマンマシン は、「ホップフィールド・ネットワーク Hopfield network 」を拡張した的として位置付けできる。 の各がにおける関連を表し、上の信号が上のを表す。 このはと同様のを持つ。 各iは0か1かのいずれかの値を持つ。 このを化したのがホップフィールド・ネットワークとなる。 この分布を特に「シグモイド sigmoid belief 」と呼ぶ。 全体の状態と非状態の同時分布は分布 equilibrium distribution を有する。 つまり、が経過しても過程の分布はしない。 分布は一貫してとなる。 問題解決策:ボルツマンマシンの学習方程式 のは、におけるとして。 観測した可視変数と潜在的な隠れ変数の差異 のは、 visible variable と hidden variable のを導入することで設計される。 は変数 observable variable とも呼ばれ、または潜在変数 latent variable とも呼ばれる。 はした点に直接的に関連付く一方で、潜在的なは必ずしも紐付かない。 誤解を恐れずに言えば、は型 functional language で言うところの「副作用 side effects 」を伴わせる内部のメンバ変数であると言えるだろう。 この変数は、することで入力された点とは別の内部的な関連から出力にを及ぼすのである。 のは大別してのみのとも含めたにされる。 のみのは全ての変数をした点との関連から計算する。 一方を含めたは更にこれよりも複合的な計算によって実現する。 「隠れ変数なし」のボルツマンマシンの学習方程式 をVと置く。 以下では、この点のを参照することでのを実行することを想定する。 を利用したは以下のように計算されるのであった。 のでは最尤推定が採用される。 上記のPはが点Dを生成するを表す。 で求められるは、点を参照することでを再現するに他ならない。 故にこの最尤推定の採用によってにされるのは、点Dを最も高いで生成することとなる。 このを満たすが、にされるとなると考えられる。 故に対数の最大値は次の連立方程式の解となる。 双方とも点を参照することで得られることから、まさにと言える。 一方、右辺はのとなる。 つまりこの連立方程式が言い表しているのは、点の平均にのをさせることに他ならない。 このを以って、はしたことになる。 一連の方程式は特に「 learning equation 」と呼ばれる。 「隠れ変数なし」のボルツマンマシンの組み合わせ爆発 のを解くことは解析的に困難とされる。 そのため勾配上昇 gradient ascent method で反復的に解析されることとなる。 しかしより重要な問題となるのはにおけるだ。 におけるの計算は全ての変数のな組み合わせの総和となる。 そのための計算量はnに比例して爆発的に増加する。 この計算量問題は、通り「 combinatiorial explosion 」の問題として設定される。 そのため、では計算それ自体もまたによって実施される。 だがただを求めれば良いという訳ではない。 これに加えて、勾配上昇で反復的に計算する以上、1回のスループットのも向上させられるような値計算が求められる。 「隠れ変数あり」のボルツマンマシンの学習方程式 何らかの理由から点の諸要素の一部が欠損して得られない場合や、そもそも収集が不十分である場合、「のみ」のではを実施することができない。 一部のがであることを前提としたが必要になる。 n個の諸要素でされた点がN個、したから独立に生成されたとする。 この時、は n + m 個の変数を持つと仮定する。 この場合、mはの個数に等しい。 つまりm個分の点がした点に対応しないということだ。 この対応しない変数がとなり、対応する変数がとなる。 では、これらのとがそれぞれ番号のとしてできる。 変数Xの1, 2, 3の番号がで、4, 5の番号がに対応するなら、Xは次のようにできる。 Xに対応するはVとHの同時分布に他ならない。 ここで、vはVの実現値で、hはHの実現値となる。 これもまたの一種であるため、以下の式と変わりは無い。 尤も、した点に対応していないがあるため、「」の場合とは異なるが必要になる。 「」の場合は、以下のように、において周辺化したのみの分布を利用する。 したがって「」の場合と同様に対数を記述することがになる。 問題解決策:カルバック-ライブラー・ダイバージェンス この最尤推定量は、「 Kullback-Leibler divergence; KL divergence 」を導入することで、の視点から再記述することができる。 経験分布を前提としたボルツマンマシンの学習方程式 これを前提に、点の分布となる empirical distribution を定義する。 点のDのは次のようになる。 「隠れ変数あり」のボルツマンマシンの組み合わせ爆発 「」ののでは、「」のに比して「」の問題が派生し易い。 「」、つまり「のみ」のの点では単純における平均とのを如何に近付けるのかが問われた。 これに対して、上述した「」ののでは、右辺がのであることに変わりは無いが、左辺は複合化している。 「」ののの左辺は、次のようなになっている。 したがってこのは「のみ」でされている別様のであると言える。 つまり上述した「」ののを計算するには、まず各点におけるの条件付き分布を計算することで、それに対応するを算出しておく必要がある。 この点ごとの算出の平均として計算したが、「」ののにおける左辺であるということになる。 したがって「」のの場合は、左辺でも右辺でも「」の問題が派生し得るということになる。 のはのを至難の極みにしてしまう。 の有無とは関係無しに、は「」問題をする「」のをしている。 問題解決策:マルコフ連鎖モンテカルロ法のギブスサンプラー は、「のみ」であれ「」であれ、問題を派生させる。 問題を回避するには、のを的に計算する必要がある。 ののとして導入できるの一つに、「 Markov chain Monte Carlo method; MCMC method 」の「 Gibbs sampler 」がある。 MCMCは、をとしただ。 MCMCはをはじめとした様々なの分野で利用されている。 このは、とりわけ計算に応用される傾向にある。 にあるのは、「 Markov chain 」と呼ばれる過程の収束に関する質だ。 はt + 1の時点における分布が時点tよりも前の過去の状態には依存しない過程である。 言い換えれば、の過程では、各状態は直前の状態にしか依存しない。 この質を特に「」と呼ぶ。 は、このを前提としたをする。 ギブスサンプリングはを応用することにより、の同時分布に従って変数に対応するサンプルを多数発生させることをにする。 はあるの状態が周囲のによるのみによって的に変化するという点で局所的なを有している。 そこでは、ギブスサンプリングによって、任意の初期状態 x, y から開始して、以下の計算を反復する。 xの新しい値を条件付き分布p x y からする。 yの新しい値を条件付き分布p y x からする。 ギブスサンプリングでは、xとyを交互に固定した上で、そこから条件付き分布を求めて点をしていく。 言い換えれば、ギブスサンプリングは条件付き分布に従って変数の値を的に逐次更新していくをする。 ここでNはi番目のとする全てののとなる。 つまり、i番目以外の全てのの状態を指定した条件付き分布は、Nののみを状態として指定した条件付き分布から導き出すことがだ。 各変数の条件付き分布の計算はこれにより一に効率化できるようになる。 問題解決策:コントラスティブ・ダイバージェンス法 よく指摘されるように、はが高い。 そのため、に見合うか否かは問題視される場合が多い。 高いを支払うだけの価値があるか否かは、において切迫した問題となる。 ジェフェリー・ヒントンも述べているように、ギブスサンプリングはに大きなを有する。 このは局地をする。 たとえ勾配がゼロになろうとも、高いの領域からパラメタを斥けてしまう。 そしてこの事態は、サンプリングがのパラメタに依存しているために、不確定要因として伴い得る。 「分布に由来するサンプルは的に非常に高いを有する。 何故なら、そうしたサンプルはの分布から所嫌わず得られているからだ。 」 Hinton, G. 2002. Training products of experts by minimizing contrastive divergence. Neural computation, 14 8 , 1771-1800. はp1774より。 ヒントンはこのにおいて、次のような砂と板の比喩でわかり易く解説している。 「この微妙なを理解するために、水平のブリキ板を想定してみよう。 その板は、一方が強く垂直に振動していて、他方が微動だにしていないといった具合に、共振状態にある。 たとえ的に勾配がいずれにせよゼロになるとしても、その板の上で散在している砂は、動きの無い領域に集積されていくだろう。 」 Hinton, G. 2002. Training products of experts by minimizing contrastive divergence. Neural computation, 14 8 , 1771-1800. はp1774より。 そこでヒントンは、代替案として、「 Contrastive Divergence; CD」を提案している。 このは正確で効率的にすることがなパラメタの導に関わる。 CDのは単純極まりない。 その上で同様にとのサンプリングをk回反復していく。 的にkは1で良いとされる。 では、こうしてされたvとhを利用することで、のに役立てる。 機能的拡張案:制限ボルツマンマシン との関連から言えば、「 Restricted Boltzmann Mathine; 」は、問題の回避策として有効に。 は「」のの一種だ。 同様、のが高まれば、それだけの能力も高まる。 的に言えば、の各は complete bipartite graph としてされている。 つまりの各は二層をしている。 一方の層はのみでされた「 visible layer 」で、他方の層はのみでされた「 hidden layer 」となる。 の全てのはの全てのとを結んでいる。 各のは双方向の無向エッジである。 だがの同士のやの同士のは一切されずに制限される。 の個数をn、の個数をmとするなら、はn個の諸要素を有した点のを参照することでしていくとなる。 とのそれぞれをVとHで表し、のをb、のをcと表すなら、のは次のようになる。 の場合、との関係がをする。 つまり、が固定された場合にはが、が固定された場合にはが、それぞれにより積ので計算になる。 このにより、事実上を固定した上でののサンプリングと、を固定した上でののサンプリングを交互に反復することで、ギブスサンプリングがになる。 制限ボルツマンマシンの学習方程式 は「」のの一種であるため、もこれに準拠している。 基本的には、まずを周辺化することでのみの分布を求めた上で、そこからの分布を求めていくという手順を踏む。 ただしの場合はを採用しているために、計算処理が単される。 Hについて周辺化したVの分布は次のようになる。 しかし、右辺の計算では依然として問題のを孕んでいる。 そのため、であっても、やはりは必要とする。 そのにはのみならずも採用される。 ここで用いられるはのを利用したとなる。 機能的拡張案:深層信念ネットワーク 的なは、このを何層にも積み上げたとして設計される。 それをに「 Deep Boltzmann Mathine; 」と呼ぶ。 尤も、はの研究史上初のとされる「 Deep Belief Network; 」を再設計したとしても位置付けられている。 そのため、まずはを確認しておいた方が良いだろう。 も、同様にを層状に配置する。 ただし、無向エッジなのは最上位層のみで、その他のは有向エッジとしてされる。 は上位層から階層へと一方通行のでされる。 それにより、最下層のの状態がされる。 に比して、が多数追加されているために、複合的なにも対応できるようになっている。 R個のを持つは次のようなでされる。 深層信念ネットワークの学習形式 のは、初めにネットワーク全体のを実行するのではなく、2層ごとに逐次していくという「 pre-learning 」のを採る。 Le Roux, N. 2008. Representational power of restricted Boltzmann machines and deep belief networks. Neural computation, 20 6 , 1631-1649. p7より。 では、まずと第一層目のにのみ着目して、その他の層は度外視することになる。 その上でにより計算を実行する。 そして次に、第一層目のと第二層目のの組み合わせに着目することで、今度はこれらののみのを計算していく。 この時、第一層目のは疑似的な点と見做される。 この疑似的な点は、本来の点とさせるために、「 feature point 」と呼ばれることもある。 その間の条件付き分布は次のようになる。 しかし、には間にがあると共に、層数も多い。 そのため、の条件付き分布はほど容易には計算できない。 そこで、同様に、隣接する層間の条件付き分布は次のようにされる。 だがそののはの拡張として捉えることができる。 深層ボルツマンマシンの事前学習 Salakhutdinov, R. , Hinton, G. 2009. Deep boltzmann machines. In International conference on artificial intelligence and statistics pp. 448-455. p451より。 のにおける基本的なは、のそれと大差は無い。 ただし上図のように、の場合はのに若干の修正が加えられる。 である最下層と最上層のの場合、はと同様ので進められる。 だがそれ以外の同士のでは、条件付き分布の計算が変更される。 と変わりは無い。 ただし、のはbと表し、のはcと表している。 この2倍の数値は、中間層rがr + 1の層とr-1の層の双方から入力を受け取ることを反映している。 は、こうして計算されたパラメタを初期値として設定する。 プロトタイプの開発:制限ボルツマンマシンと深層ボルツマンマシンのフレームワーク GitHubのに配置しているライブラリ:『』では、やをはじめとする様々なの、、を提供している。 このライブラリの主要なの一つは、先述したライブラリ:『 』と接続させることにより、の様々なを提供することにある。 先に示したように、においてとしてし得るのは、だけではない。 『』と『 』は、このの設計に伴うを明確化すると同時に、様々なの精度やに関するなをにする。 参考文献• Ackley, D. , Hinton, G. 1985. A learning algorithm for Boltzmann machines. Cognitive science, 9 1 , 147-169. Goodfellow, I. , Bengio, Y. 2016. Deep learning adaptive computation and machine learning series. Adaptive Computation and Machine Learning series, 800. Hinton, G. 2002. Training products of experts by minimizing contrastive divergence. Neural computation, 14 8 , 1771-1800. Le Roux, N. 2008. Representational power of restricted Boltzmann machines and deep belief networks. Neural computation, 20 6 , 1631-1649. Mezard, M. 2009. Information, physics, and computation. Oxford University Press. Mnih, V. , Kavukcuoglu, K. , Silver, D. , Graves, A. , Antonoglou, I. , Wierstra, D. 2013. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312. 5602. Salakhutdinov, R. 2009. Deep boltzmann machines. InInternational conference on artificial intelligence and statistics pp. 448-455. Kullback and R. Leibler. 1951. 22, No. 1 Mar. , 1951 , pp. 79-86. Wainwright, M. 2008. Graphical models, exponential families, and variational inference. Foundations and TrendsR in Machine Learning, 1 1-2 , 1-305. 99-121. 学会, 嶌敏弘(編)『』近代科学社、2015.

次の