この記事は、最新の AI研究.
GPT-3 のような大規模な言語モデルは、その機能の限界を測定することが難しくなるところまで進歩しました。 非常に大規模なニューラル ネットワークがある場合、 記事を生成する、 書きます ソフトウェアコード、およびについての会話に参加する 感覚と生命、人間と同じようにタスクについて推論し、計画できることを期待する必要がありますよね?
違う。 あ 勉強 アリゾナ州立大学テンピ校の研究者による研究では、体系的な計画と思考に関して、LLM のパフォーマンスは非常に低く、現在の深層学習システムで見られるのと同じ多くの失敗に悩まされていることが示されています。
興味深いことに、この研究は、非常に大きなLLMが好きである一方で、 GPT-3 およびPaLMは、推論機能と人工知能システムを評価することを目的とした多くのテストに合格しました。これらのベンチマークは単純すぎるか欠陥がありすぎて、統計的なトリックによって「だまされる」可能性があるためです。が上手。
LLM が日々新境地を開拓する中、著者は AI システムの計画および推論機能をテストするための新しいベンチマークを提案しています。 研究者たちは、彼らの発見が、一般に「システム2の考え方」タスク。
計画と推論の錯覚
「昨年、テキストの説明から計画を抽出する GPT-3 の能力を評価していました。このタスクは、以前に特別な目的の方法で試みられましたが、市販の GPT-3 が特別な目的の方法と比較して非常にうまく機能することがわかりました。 」とアリゾナ州立大学の教授であり、この研究の共著者である Subbarao Kambhampati 氏は TechTalks に語った。 「当然のことながら、GPT3 には最も単純な計画の問題 (おもちゃの領域で計画を生成するなど) を実行するための「創発的な機能」があるとすれば、どのような機能があるのか疑問に思いました。 逸話的なテストでは、GPT3 がかなりひどいことがすぐにわかりました。」
「それらの豊富さに興味をそそられます」#LLMの論文は Zero-shot
の論文であり、LLM が変更の計画と推論にどれほど優れているかを確認するために着手しました。 tldr; 既製品 #GPT3 これらはかなり苦手です..
(w/ @karthikv792 @sarath_ssreedh & @_aolmo_) 1/ pic.twitter.com/sWqvDlTv3W
— Subbarao Kambhampati (కంభంపాటి సుబ్బారావు) (@rao2z) 2022 年 6 月 22 日
ただし、興味深い事実の 1 つは、GPT-3 やその他の大規模な言語モデルが、これまで深層学習システムの立ち入り禁止と考えられていた常識的推論、論理的推論、倫理的推論のために設計されたベンチマークで非常に優れたパフォーマンスを発揮することです。 あ 以前の研究 アリゾナ州立大学のカンバンパティのグループによる、テキスト記述から計画を生成する際の大規模な言語モデルの有効性を示しています。 他の最近の研究には、LLMができることを示すものがあります ゼロショット推論 特別なトリガー フレーズが提供されている場合。
ただし、「推論」は、これらのベンチマークや研究で広く使用されることが多いとカンバンパティは考えています。 実際、LLM が行っていることは、パターン認識を通じて計画と推論の類似物を作成することです。
「ほとんどのベンチマークは、浅い (1 つまたは 2 つのステップ) タイプの推論、および実際のグラウンド トゥルースがない場合があるタスク (たとえば、LLM に倫理的ジレンマについて推論させる) に依存しています」と彼は言いました。 「推論機能を持たない純粋なパターン補完エンジンでも、そのようなベンチマークの一部で問題なく動作する可能性があります。 結局のところ、システム 2 の推論能力がシステム 1 にコンパイルされることもありますが、システム 1 の「推論能力」は、システムがトレーニング データで見たパターンからの反射的な応答であり、実際には推論に似たものを何も実行しない場合もあります。 」
システム1とシステム2の考え方
システム 1 とシステム 2 思考法は、心理学者のダニエル・カーネマンが著書『Thinking Fast and Slow』で広めました。 前者は、歩く、歯を磨く、靴を結ぶ、慣れ親しんだ場所で運転するなど、私たちがほとんどの時間行う、高速で反射的で自動化されたタイプの思考と行動です。 発話の大部分でさえ、システム 1 によって実行されます。
一方、システム 2 は、系統だった計画と分析が必要なタスクに使用する、より遅い思考モードです。 システム 2 を使用して、微積分方程式を解いたり、チェスをしたり、ソフトウェアを設計したり、旅行を計画したり、パズルを解いたりします。
しかし、システム 1 とシステム 2 の境界線は明確ではありません。 たとえば、運転を考えてみましょう。 運転を学んでいるときは、筋肉をどのように調整してギア、ハンドル、ペダルを制御するかに完全に集中する必要があります。 これは明らかにシステム 2 の動作です。 大量のエネルギーを消費し、十分な注意を払う必要があり、速度も遅いです。 しかし、徐々に手順を繰り返すうちに、何も考えずに実行できるようになります。 運転するタスクはシステム 1 に移行し、頭に負担をかけずに実行できるようになります。 システム 1 に統合されたタスクの基準の 1 つは、別のタスクに集中しながら無意識のうちにそれを行う能力です (たとえば、靴を結ぶと同時に話すことができる、歯を磨いて読む、運転する、話すことができるなど)。など)。
システム 2 の領域に残っている非常に複雑なタスクの多くでさえ、最終的には部分的にシステム 1 に統合されます。たとえば、プロのチェス プレーヤーは、意思決定プロセスを高速化するためにパターン認識に大きく依存しています。 数学やプログラミングでも同様の例を見ることができます。物事を何度も繰り返した後、以前は慎重に考える必要があったタスクの一部が自動的に実行されます。
非常に大規模なデータセットにさらされたディープ ラーニング システムでも、同様の現象が発生している可能性があります。 彼らは、複雑な推論タスクの単純なパターン認識フェーズを行うことを学んでいる可能性があります。
「計画の生成には、計画を立てるための一連の推論ステップが必要であり、正確さに関する確固たるグラウンド トゥルースを確立することができます」とカンバンパティ氏は述べています。
LLM におけるテスト計画の新しいベンチマーク
“与えられた 隠された/出現したプロパティに関する興奮 しかし、LLMのパフォーマンスをカスタマイズ/改善するための微調整やその他のアプローチを通じてLLMを改善する際のベンチマークとして役立つ、さまざまな計画/推論タスクを提供するベンチマークを開発する方がより建設的であると考えました。 . これが私たちがやったことです」とカンバンパティは言いました。
チームは、国際計画コンペティションで使用されたドメインに基づいてベンチマークを開発しました (IPC)。 このフレームワークは、推論のさまざまな側面を評価する複数のタスクで構成されています。 たとえば、LLM の能力を評価して特定の目標を達成するための有効な計画を作成するタスクもあれば、生成された計画が最適かどうかをテストするタスクもあります。 その他のテストには、計画の結果についての推論、異なるテキスト記述が同じ目標を参照しているかどうかの認識、ある計画の一部を別の計画で再利用すること、計画をシャッフルすることなどが含まれます。
テストを実行するために、チームは使用しました ブロックの世界、一連の異なるブロックを特定の順序で配置することを中心に展開する問題フレームワーク。 各問題には、初期条件、最終目標、および許可される一連のアクションがあります。
「ベンチマーク自体は拡張可能で、いくつかの IPC ドメインからのテストを行うことを意図しています」と Kambhampati 氏は述べています。 「さまざまなタスクを説明するために、ブロックの世界の例を使用しました。 これらの各タスク (たとえば、計画の生成、目標のシャッフルなど) は、他の IPC ドメインでも行うことができます。」
カンバンパティと彼の同僚が開発したベンチマークの用途 数ショット学習、機械学習モデルに与えられたプロンプトには、解決された例と解決する必要がある主な問題が含まれています。
他のベンチマークとは異なり、この新しいベンチマークの問題の説明は非常に長く詳細です。 それらを解決するには、集中力と整然とした計画が必要であり、パターン認識によってごまかすことはできません。 それらを解決したい人間でさえ、各問題について慎重に考え、メモを取り、場合によっては視覚化して、解決策を段階的に計画する必要があります。
「推論は一般的にシステム 2 のタスクです。 コミュニティの集合的な妄想は、おそらくシステム 1 へのコンパイルを介して処理できるような種類の推論ベンチマーク (たとえば、「パターン補完によるこの倫理的ジレンマへの答えはこれだ」) を、実際に推論を行うことに対して見ることでした。それは目前の仕事に必要です」とカンバンパティは言いました。
大規模な言語モデルは計画が苦手
研究者は、GPT-3 の最大バージョンである Davinci でフレームワークをテストしました。 彼らの実験によると、GPT-3 は一部のタイプの計画タスクでは平凡なパフォーマンスを示しますが、計画の再利用、計画の一般化、最適な計画、および再計画などの領域では非常に不十分です。
「私たちが見た初期の研究は基本的に、計画の生成、最適な計画の生成、計画の再利用または再計画など、計画タスクと見なされるすべてのタスクで LLM が特に悪いことを示しています」と Kambhampati 氏は述べています。 「彼らは、目標シャッフルなど、一連の推論を必要としない計画関連のタスクでうまく機能します。」
将来的には、研究者は他の IPC ドメインに基づくテスト ケースを追加し、同じベンチマークで人間を対象としたパフォーマンス ベースラインを提供する予定です。
「私たち自身も、LLM の他のバリアントがこれらのベンチマークでより優れているかどうかについて興味があります」と Kambhampati 氏は述べています。
Kambhampati 氏は、このプロジェクトの目標はベンチマークを公開し、現在のベースラインがどこにあるかを示すことだと強調しています。 研究者たちは、自分たちの研究が、現在の AI システムの計画能力と推論能力を開発するための新しい窓を開くことを望んでいます。 たとえば、彼らが提案する 1 つの方向性は、特定のドメインでの推論と計画のために LLM を微調整することの有効性を評価することです。 カンバンパティ氏によると、チームはすでに GPT-3 の命令に従うバリアントについて予備的な結果を出しているが、実際の計画生成タスクでは 5% 程度にとどまっているが、簡単なタスクではわずかに優れているように見える.
カンバンパティはまた、世界モデルの学習と獲得は、推論と計画が可能な AI システムにとって不可欠なステップになると考えています。 を含む他の科学者 ディープラーニングのパイオニア Yann LeCun、同様の提案をしました。
「推論が知能の一部であることに同意し、LLMがそれを行うと主張したいのであれば、計画生成のベンチマークが確かに必要です」とKambhampati氏は述べています。 「厳粛な否定的な立場を取るのではなく、ベンチマークを提供しているので、世界モデルやダイナミクスに関する推論などの特別なメカニズムがなくても、LLM から推論が生じる可能性があると信じている人々は、ベンチマークを使用して自分たちの主張をサポートできます。見る。”
この記事は、ベン ディクソンによって最初に公開されました。 テックトークは、テクノロジーのトレンド、それらが私たちの生活やビジネスのやり方にどのように影響するか、そしてテクノロジーが解決する問題を調査する出版物です。 しかし、テクノロジーの邪悪な側面、新しいテクノロジーの暗い意味、そして何に注意する必要があるかについても説明します. 元記事が読めます ここ.
The post 大規模な言語モデルは、派手なエッセイを書いても計画できません appeared first on Gamingsym Japan.