Bittensor (TAO) 学術研究

Bittensor(ビットテンソル)
この記事は約17分で読めます。

インテリジェンスへのインセンティブ
Bittensor アプローチ

JACOB STEEVES / ALA SHAABANA / YUQIAN HU1 / FRANCOIS LUUS / SIN TAI LIU / JACQUELINE DAWN TASKER-STEEVES / OPENTENSOR FOUNDATION

00 / Abstract 要約

金融市場の効率性に着想を得て、我々は市場システムを使用してマシンインテリジェンスを効果的に生み出すことができることを提案する。この論文では、インターネットを介して他のインテリジェンス システムがピアツーピアでマシン インテリジェンスを評価するメカニズムを紹介する。ピアは、近隣のピアの価値を学習できるニューラル ネットワークをトレーニングすることで互いにランク付けし、スコアはデジタル台帳に蓄積される。上位のピアには、ネットワーク内での追加のウェイトが与えられる。さらに、このネットワークには、結託を阻止するように設計されたインセンティブ メカニズムが備わっている。その結果、共同で運営されるマシン・インテリジェンス市場が生まれ、継続的に新しくトレーニングされたモデルが生成され、システムに情報理論的価値を提供する参加者に報酬が支払われる。

01 / Introduction はじめに

マシンインテリジェンスの生成は、ほとんどベンチマークシステムに依存しており、そこではモデルのパフォーマンスは狭く定義され、監視付き問題に基づいてモデルのパフォーマンスが評価される。この方法はタスクに特化した問題には有効だが、監視付きの目的のみでマシンインテリジェンスを測定すると、この分野は弾力性のあるジェネラリストとは対照的に、狭いスペシャリストに収束してしまう。(Radford et al [2019])

2012年、AlexNetがImageNetコンペティションで最先端の性能を達成したとき、変曲点が生じた。(Krizhevsky et al [2017])これにより、高次元の表現に基づくアプローチで純粋な統計的手法を克服できる、新しいニューラルネットワーク・アプローチの開発が急激に加速した。それからわずか数年後、ヴァスワニらは次のように発表した。言語理解において監視付き学習体制を超える史上初の監視なし学習方法を導入した。(Vaswani et al. [2017]) これらのイノベーションは、研究者が以前の研究に一貫して少しずつ改善を加え、時間をかけて共通の研究基盤を継続的に追加することによって、最先端の成果を達成できることを実証している。

しかし、これらのモデルによって生み出されたインテリジェンスは常に失われるため、このアプローチは非常に非効率的である。ユーザーは、他のユーザーの仕事を再現したり改良したりするために、自分のシステムでモデルを再学習させなければならない。その結果、他のモデルがすでに学習したタスクを学習する際に、不必要な計算ロスが発生する。

さらに、モデルの評価という問題もある。現在、新しい研究は学術的なピアレビュープロセスを経て、品質と正確性を確保しながら研究を調査する必要がある。このプロセスには利点もあるが、拡張性がなく、人間のバイアス(偏見)に左右されるシステムを作り出してしまう。人工知能の研究を再現するのは難しいことで有名だ。[Gundersen and Kjensmo [2018]]AIモデルのパフォーマンスを評価する、より効率的で客観的な方法が必要である。

本論文では、分散型ピアツーピア機械学習プロトコルである Bittensor Network を紹介する。ネットワークでは、マシン インテリジェンスは、インターネット上で継続的かつ非同期的にピアツーピア(P2P)方式で他のインテリジェンス・システムによって測定される。モデルは、主観的なタスクやトレーニングに使用されたデータセットに関係なく、情報量の多さでランク付けされる。マシン インテリジェンスが評価される基準を変えることで、レガシーシステムや小規模で多様なシステムのユニークな価値を維持しながらも、より多くの目標に適用できるインテリジェンスに報酬を与えることができる。構築された市場は、デジタル台帳を使用してランクを記録し、研究者に報奨金を提供することで、マシン インテリジェンスの仕事を直接収益化することを可能にする。AIレイヤー と ブロックチェーンレイヤー の2層に分かれている(図1)

図1 / Bittensor Networkの概略図。

図1 / Bittensor Networkの概略図。

02 / Blockchain Layer ブロックチェーンレイヤー

ブロックチェーンレイヤーは、Polkadot Substrate(Wood[2016])をベースとしたレイヤー0のブロックチェーンで、コンセンサス・メカニズムの強制、ピアのIDの確認、ネットワーク・ピアのインセンティブを担当する。ブロックチェーンレイヤーはAIレイヤーの直下に存在し、2つのレイヤー間の通信はプロセス間通信によって実現される。参加しているすべてのピアに公平にインセンティブを分配するために、Bittensor ネットワークはコンセンサスを通じてステークされたウェイト トラストを活用している。ピアは互いにランク付けするインセンティブを与えられ、高ランクのピアは追加報酬を受け取る。ブロックチェーンは、ネットワーク上の個々のピアからのランキングを信頼するのではなく、参加しているすべてのピアからの総合的なランキングを信頼する。ランキングを送信するには、ピアはまず自分のウォレットと、各ピアに固有の暗号鍵のペアを登録する必要がある。チェーンへのすべてのトランザクションとピア間のすべての通信リクエストに署名するには、同じ鍵が必要になる。これらの暗号鍵は、ネットワーク上のピアの主な識別ツールとして機能する。

さらに、ブロックチェーンはシステムのインセンティブ・メカニズムを維持する。これは主にピアランキング・システムのために設計されたもので、ネットワークのごく一部が報酬を最大化する手段として利己的に協力することで発生する結託の問題を解決するためのものだ。

この問題を解決するために、我々は「信頼」されコンセンサスに達したネットワーク内のピアに報酬を与えることで、信頼に基づくインセンティブメカニズムを活用した。インセンティブメカニズムは、ステークベクトル S と、行がピア間のランキングであるウェイト W のセットを利用する。また、ウェイトからトラスト・マトリックス T を推論し、ピア ij の間にゼロでないエッジがある場合に限り、ti,j = 1とする。

「コンセンサス」に達したピアを、ネットワーク内の 50%以上のステーク(T > 0.5)から正のウェイトを設定したピアと定義する。したがって、50%以上のインセンティブがコンセンサス・ピアに支払われたとき、そのチェーンはコンセンサスに達したとみなすことができる。これは、コンセンサスに達したピアが著しく高い報酬を受け取るように、式2で定義されるシグモイド関数によってチェーン上で正規化される。事実上、しきい値的なシグモイドは、つながりのあるピアには報酬を与え、信頼できないピアにはペナルティを与える。

コンセンサスという用語を使って、元のランキングをスケールする。これにより、インセンティブがネットワークの大部分から信頼されているピアに分配されることが保証される。

これが実際にどのように機能するかの例を挙げるために、図4 のネットワーク上で結託した組織 C が形成されたシナリオを考えてみる。組織は、ネットワーク上の公正な H ピアには何の情報も提供しないまま、自分たちだけを高くランク付けすることで、積極的に自分たちのインフレを最大化しようと試みる。この切断されたネットワークでは、2つのサブグループは自グループのピアにのみ投票し、反対グループのピアにはほとんどウェイトを付けない(図4)。チェーンがコンセンサスに達したと仮定すると、公正な H のピアと組織 C のピアの争いは、各サブグループが含む初期のステークの割合で決定することができる。

図2 / 分裂したサブネットワーク: 組織のピア(左)は自分のグループ内でのみ投票し、ネットワーク上の大多数のピアやステークと相互作用しない。この結果、サブネットワークのコンセンサスCスコアが低くなり、インセンティブが低くなる。

図2 / 分裂したサブネットワーク: 組織のピア(左)は自分のグループ内でのみ投票し、ネットワーク上の大多数のピアやステークと相互作用しない。この結果、サブネットワークのコンセンサスCスコアが低くなり、インセンティブが低くなる。

公正なサブグラフのステークが組織よりも大きい場合( SH > SC )、公正なサブグループ内のピアだけがコンセンサスに達することができ、チェーンからインセンティブの大半を受け取ることになる。大多数のステークホルダー SH と不正なサブグラフの間の不一致は、ペナルティを課されたコンセンサスとなり、したがって C サブグラフに対するインセンティブとなる。そのため、SC SC + SHの比率は時間とともに減少し、組織はその地位を維持するために継続的にステークを追加しなければならない。これらの組織的な攻撃は、他のブロックチェーンに存在する51%攻撃に似ている(Sayeed and Marco-Gisbert [2019])しかし、我々のステーク・ベースのランキング・システムは、他のプルーフ・オブ・ステーク・システムと同様に、攻撃者にとっては自分のトークンの価値を危険にさらすという非常に高いリスクをもたらす。

さらに、我々のインセンティブ・メカニズムには、公正に検証するピアに追加のインセンティブを提供するボンディング・メカニズム(付録セクション9)が含まれている。従来の株式における市場ベースの投機と同様に、後に他者が評価するピアに債券を蓄積したピアは、自らインフレ率の上昇を達成する。

03 / AI Layer AIレイヤー

AIレイヤーは、推論とトレーニングに加えて、Bittensorカーネルを抽象化し、ノードのニューラルネットワークとネットワークの残りのピアとの入出力の互換性を確保する役割を担う。Bittensorプロトコルの各ノードには1つのニューラルネットワークが含まれている。今後、これらのノードをニューロンと呼ぶ。これは従来のニューラルネットワークの個々のニューロンと混同しないでいただきたい。

Bittensorプロトコルは、ピア・ツー・ピア方式で分散されたn個のパラメータ化された関数(またはニューロン)F = f0, …, fj ,…fn で構成される。各ニューロンは、デジタル台帳上に表現されたゼロ以上のネットワークウェイト S = [si](または「ステーク」)を保持している。我々の目標は、最も情報価値の高い貢献をしたピアに、インセンティブとしてステーク I を分配することである。

図2は、Bittensorネットワークで実行されるフォワードパスとバックワードパスのハイレベルな概要を示し、ニューロンがBittensorプロトコルで学習するプロセスを説明している。RyabininらによるHivemindの提案と同様に、ピアは他のピアにフォワードパスを要求することができ、その後、ワイヤーを介してバックワード方向に勾配を伝播することができる。Bittensor は、情報をクエリすることにより、ネットワーク上でサービスを提供するすべてのノードにわたる推論を提供する。これはBittensor独自のもので、機械学習の分散型トラストレス・スタイルを可能にし、リクエストはデジタル台帳を使って認証・検証される。ブロックチェーンレイヤーは、一意の暗号キーによって各ピアのIDを保証し、ネットワーク全体のインセンティブ分配とランキングの整合性を維持する。

Bittensor では、上位にランクされたピアが最も多くのインセンティブを受け取る。 ピアは、他のピアの出力 F(x) = [f0(x)…fn(x)] を自分自身への入力 f(F(x)) として使用し、一連のウェイト W = [wi,j ] を学習する。 i は、デジタル台帳のトランザクションを通じて i 番目の行を設定する責任があります。 ピアランキングについてはセクション 4 で詳しく説明する。

図3はBittensorネットワークの2つのニューロンの切断図である。シナプスはニューロン間の主要な伝送路として機能し、すべての伝送テンソルが Bittensor プロトコルに対応してフォーマットされていることを保証する。各シナプスは異なる ML タスクを指示するため、異なる圧縮と通信プロセスに従う。これは、Bittensor プロトコル上で転送されるすべてのロジットとエンベッディングがサニタイズされ、正しく、有用な情報に貢献することを保証する。もしニューロンが悪意を持って行動したり、不正なテンソルを送信したりした場合、シナプスはその結果として、ランキングと報酬にペナルティを与えることを保証する。現在、Bittensorネットワークは大規模な言語モデリングに焦点を当てており、テキスト関連のタスク(LastHiddenState, CausalLM, CausalLMNext, and Seq2Seq)のための4つの独立したシナプスを含んでいる。これまでの研究で、大規模な言語モデルは、下流のタスクのパフォーマンスを向上させるために継続的に微調整できることが示されている。(Scialom et al. [2022],Ouyang et al. [2022])Bittensorプロトコルは、ウェブ上で完全に分散されたトラストレスでありながら、同じ継続的な微調整プロセスを実現している。

図3 / Bittensorプロトコルで学習するニューロン。Bittensorプロトコルは、各リモートピアが単一のエキスパートとして動作するMoE(mixture-ofexperts)アーキテクチャを利用している。(Shazeer et al. [2017]; Ryabinin and Gusev [2020])。

図3 / Bittensorプロトコルで学習するニューロン。Bittensorプロトコルは、各リモートピアが単一のエキスパートとして動作するMoE(mixture-ofexperts)アーキテクチャを利用している。(Shazeer et al. [2017]; Ryabinin and Gusev [2020])。

図4 / Bittensorプロトコルで学習するニューロン。Bittensorプロトコルは、各リモートピアが単一のエキスパートとして動作する MoE(mixture-ofexperts)アーキテクチャを利用している。(Shazeer et al. [2017]; Ryabinin and Gusev [2020])

図4 / Bittensorプロトコルで学習するニューロン。Bittensorプロトコルは、各リモートピアが単一のエキスパートとして動作する MoE(mixture-ofexperts)アーキテクチャを利用している。(Shazeer et al. [2017]; Ryabinin and Gusev [2020])

04 / Game – Theoretic scoring ゲーム理論的採点

Bittensor プロトコルの重要な要素は、正確なランキング方法の作成である。 ピアは、グループ全体に対する情報の重要性に基づいてランク付けされ、ランク r = [ri ] で表される。スコア ri ∈ R は、ベンチマークに対する参加者の貢献度を表す。 これは、その Shapleyϕ (Shapley [1952]) を計算することによって行われる。これは、サブセットの可能なすべての組み合わせを並べ替えることによって、グループ内の各参加者の貢献度を公平に分配する方法である。

ここで、N と S はそれぞれピアの完全なセットと単一のセットを表す。 CE(S) は S セットのピアを与えた場合のクロスエントロピー損失であり、ϕi はピア i の Shapley 値を表す。

図5 / さまざまなサイズの大規模言語モデル (LLM) 間の Shapley スコアの比較 (GPT 2 — 117M、GPT-neo — 125M、GPT-J — 6B、GPT-neox — 30B) (Wang and Komatsuzaki [2021] 、Black et al. [2022]) 単一のバリデータによる。 スコアリングは Bittensor ネットワーク上で行われ、モデルは最後のトークン予測のパフォーマンスに基づいてスコアリングされる。より低い損失を達成できる大規模なモデルには、ピアからより高い Shapley スコアが与えられる。

図5 / さまざまなサイズの大規模言語モデル (LLM) 間の Shapley スコアの比較 (GPT 2 — 117M、GPT-neo — 125M、GPT-J — 6B、GPT-neox — 30B) (Wang and Komatsuzaki [2021] 、Black et al. [2022]) 単一のバリデータによる。 スコアリングは Bittensor ネットワーク上で行われ、モデルは最後のトークン予測のパフォーマンスに基づいてスコアリングされる。より低い損失を達成できる大規模なモデルには、ピアからより高い Shapley スコアが与えられる。

数千のピアの Shapley スコアを計算するために、ネットワークはスパース モンテカルロ推定法を利用する。AIレイヤーに関して言えば、これは、ネットワークの一部のみがある時間にクエリされるような、スパースにゲートされたmixture-of-experts(MoE)層(Shazeer et al. [2017], Fedus et al. [2021])に似ている。これは、計算ボトルネックに直面することなく、ネットワークを効率的に拡張できるようにするために実装された。

ここで、gj (x)はゲーティングネットワークの出力を表し、fj (x)はピアjからの応答を表す。ルーティングがアクティブ化するパラメータを決定する以前のMoEモデルとは異なり、我々のゲーティングレイヤーは、各例に対してクエリするネットワーク内の最適なピアを決定する。応答はその後、ローカルモデルの一部として入力として使用され、その貢献度が評価される。これにより、各例に対して少数のピアのサブセットのみにクエリを実行し、シャプレー計算で可能な順列の数を減らすことで、外側の帯域幅 5 を削減します。

ピアのまばらな組み合わせは、N 個のピアの完全なセット内の可能な順列のサブセットを効果的に表している。 十分なサンプルがあれば、完全な Shapley 値とネットワーク全体の協調ランキング r を回復できる。 現在、Bittensor ネットワーク上で実行されているいくつかの LLM のベンチマークを図 5 に示す。

05 / The current state of the Bittensor network. Bittensorネットワークの現状

Bittensorネットワークは2021年11月に正式にスタートした。この論文を書いている時点で、ネットワークには4096のピアが存在する。これらすべてのピアが言語モデルを実行し、ネットワーク上の他のピアに情報を問い合わせたり、他のピアからのリクエストに応じたりしている。4096のピア間で合計5,000億のパラメータが実行されているため、ネットワーク内のすべてのノードからクエリと推論を行うことが可能で、プロンプトが与えられると、ロジット、エンベッディング、またはプレーンテキストの応答の出力を受け取ることができる。各ピアは、カスタム言語モデル、またはHuggingFace API (Wolf et al. [2020])からダウンロードしたGPT-J (Wang and Komatsuzaki [2021])、GPT-Neo、(Black et al. [2021])、GPT-2 (Radford et al. [2019])のような事前にトレーニングされたモデルを実行している。

2022年、プロトコルはアルゴリズム、コンセンサス、インフラストラクチャをいくつか変更し、正確性とスケーラビリティを確保した。Bittensorチームは現在、より洗練されたモデルをBittensorプロトコルで直接トレーニングし、現在の最先端モデルに匹敵するパフォーマンスの達成に取り組んでいる。

06 / Conclusion まとめ

我々は、新しいランキング・ベンチマークを特徴とする、初のピアツーピア、トラストレス・インテリジェンス市場を導入した。このベンチマークは、他のインテリジェンス・システムを使って、その価値を決定するための表現知識生産としてパフォーマンスを測定する。その高解像度で高度に協調的な性質により、このベンチマークは機械学習のテストと評価におけるゴールドスタンダードとなる可能性を秘めている。

この論文は、抽象的に定義されたインテリジェンスモデルで構成されるP2Pネットワーク、Bittensor Protocolの定義から始まった。ピアは自分のモデルの入力となる情報埋め込みを直接クエリができる。その後、応答するピアにバックワード勾配を伝播させることによって、トレーニングを行うことができる。次に、このフレームワークによって、ネットワークにとっての情報価値に基づく各ピアのゲーム理論的なランキングを協調的に作成できることを示した。これらのスコアはデジタル台帳に渡され、そこで信頼に基づくインセンティブが分配される。大多数のステークホルダーから高いスコアを獲得したピアは、インセンティブの大半を受け取ることになる。次に、ピアの接続性に基づくこのインセンティブ・スキームが、参加者が不正なサブグラフを形成することを防止し、時間の経過とともに不正なサブグラフが無関係に崩壊することを実証した。

このような様々な斬新なメカニズムの結果として、システム内の新しい学習者のためにこの知識を共有することを可能にしながら、知識を生み出す参加者に報酬を与えるインテリジェンス市場が生まれる。金融市場や他のWeb3市場と同様に、インテリジェンス市場は参加者間のイノベーションを積極的に促進し、コミュニティにユニークな知識を提供できた参加者に報酬を与える。MLに関しては、Bittensorは、参加者がネットワーク上で一貫してモデルを改善し、微調整するインセンティブを提供する。このWeb3とMLの組み合わせは、マシンインテリジェンスの進歩に向け、分散化されたグローバルなコンピューティングの貢献ができる独自のネットワークを導入している。

 

この学術研究の原本(PDF)はこちら

Bittensor – Incentivizing Intelligence: The Bittensor Approach

こちらの記事もどうぞ

Bittensor (TAO) ホワイトペーパー
Bittneosr (TAO) ホワイトペーパー(日本語)|他のコモディティと同様に、市場はマシンインテリジェンスを効率的に生産するのに役立つ可能性がある。我々は、知能が他の知能システムに対してインターネットを介してピアツーピアで価格設定される市場を提案している。ピアは、隣接する知能の価値を学習するニューラルネットワークをトレーニングすることによって互いに評価する。
Bittensor(TAO:ビットテンソル)とは? 特徴・将来性・強み弱みなど解説
Bittensor(TAO:ビットテンソル)について、特徴・将来性・強み弱みなど詳しく解説しています。|Bittensorは、分散型人工知能(AI)のためのオープンソースプラットフォームで、ディープラーニングモデルのトレーニングと推論を実行するためのフレームワークです。Bittensorは、機械学習と分散システムを組み合わせ、ブロックチェーンの世界で機能するように設計されています。
タイトルとURLをコピーしました