有名なAIが新しいトリックを学びました：化学を行う方法

人工知能は、研究者が現代の科学機器が生成する膨大な量のデータを分析できるようにすることで、科学のやり方を変えました。それは情報の百万の干し草の山の中から針を見つけることができ、ディープラーニング、データ自体から学ぶことができます。 AIは遺伝子ハンティング、薬、ドラッグデザインと有機化合物の作成。

ディープラーニングでは、アルゴリズム（多くの場合、大量のデータでトレーニングされたニューラルネットワーク）を使用して、新しいデータから情報を抽出します。ステップバイステップの説明がある従来のコンピューティングとは大きく異なります。むしろ、データから学習します。ディープラーニングは、従来のコンピュータープログラミングよりもはるかに透過性が低く、重要な質問が残ります。システムは何を学習し、何を知っているのでしょうか。

として化学教授私は、生徒の知識を広げて、さまざまなアイデアを組み合わせたり、新しいアイデアや概念を統合したりできるかどうかを確認する、少なくとも1つの難しい質問があるテストを設計するのが好きです。 AI支持者のポスターチャイルドであるAlphaFoldのために、このような質問を考案しました。タンパク質の折り畳みの問題。

タンパク質の折り畳み

ご挨拶、ヒューマノイド

今すぐニュースレターを購読して、受信トレイにあるお気に入りのAIストーリーを毎週まとめてください。

タンパク質はすべての生物に存在します。それらは細胞に構造を提供し、反応を触媒し、小分子を輸送し、食物を消化し、そしてはるかに多くのことをします。それらは、ストリング上のビーズのようなアミノ酸の長い鎖で構成されています。しかし、タンパク質が細胞内でその役割を果たすためには、タンパク質がねじれて曲がって複雑な三次元構造になる必要があります。これはタンパク質の折り畳みと呼ばれるプロセスです。誤って折りたたまれたタンパク質は病気につながる可能性があります。

1972年の彼の化学ノーベル受け入れスピーチでは、クリスチャン・アンフィンセンそれが可能であるはずであると仮定しました構成要素のシーケンスからタンパク質の3次元構造を計算します、アミノ酸。

この記事の文字の順序と間隔が意味とメッセージを与えるように、アミノ酸の順序がタンパク質のアイデンティティと形状を決定し、それがその機能をもたらします。

左側に糸のような線、右側にコイル状の構造を示す図 — リボソームからアミノ酸鎖（左）が出てから数ミリ秒以内に、タンパク質の機能に必要な最低エネルギーの3D形状（右）に折りたたまれます。
マーク・ジマー、 CC BY-ND

アミノ酸ビルディングブロックの固有の柔軟性のために、典型的なタンパク質は推定値を採用することができます 10の300の異なる形式の累乗。これは膨大な数であり、宇宙の原子数。しかし、ミリ秒以内に、生物のすべてのタンパク質は、それ自体の特定の形状に折りたたまれます。これは、タンパク質を構成するすべての化学結合の中で最も低いエネルギーの配置です。タンパク質に通常見られる数百のアミノ酸のうち1つのアミノ酸を変更すると、誤って折りたたまれて機能しなくなる可能性があります。

AlphaFold

50年間、コンピューター科学者はタンパク質の折り畳みの問題を解決しようと試みてきましたが、ほとんど成功していません。そして2016年に DeepMind、Googleの親会社であるAlphabetのAI子会社は、 AlphaFold プログラム。それは使用しましたタンパク質データバンクトレーニングセットとして、150,000を超えるタンパク質の実験的に決定された構造が含まれています。

5年足らずでAlphaFoldはタンパク質フォールディングの問題は打ち負かされます –少なくともその最も有用な部分、つまり、アミノ酸配列からタンパク質の構造を決定すること。 AlphaFoldは、タンパク質がどのように迅速かつ正確に折りたたまれるのかを説明していません。それはAIにとって大きな勝利でした。なぜなら、それは巨大な科学的名声を獲得しただけでなく、すべての人の生活に影響を与える可能性のある大きな科学的進歩でもあったからです。

今日、のようなプログラムのおかげで AlphaFold2 と RoseTTAFold、私のような研究者は、タンパク質を構成するアミノ酸の配列からタンパク質の3次元構造を、1〜2時間で無料で決定できます。 AlphaFold2の前は、タンパク質を結晶化し、以下を使用して構造を解く必要がありました。 X線結晶学、構造ごとに数か月かかり、数万ドルの費用がかかるプロセス。

これで、 AlphaFoldタンパク質構造データベース、Deepmindは、人間、マウス、その他20種以上に見られるほぼすべてのタンパク質の3D構造を堆積させました。現在までに、100万を超える構造物を解決し、今年だけでさらに1億の構造物を追加する予定です。タンパク質の知識は急上昇しています。すべての既知のタンパク質の半分の構造は、2022年の終わりまでに文書化される可能性が高く、その中には、新しい有用な機能に関連する多くの新しいユニークな構造があります。

化学者のように考える

AlphaFold2は、タンパク質が互いにどのように相互作用するかを予測するようには設計されていませんが、個々のタンパク質がどのように結合するかをモデル化することができました。複数のタンパク質で構成される大きな複雑なユニットを形成する。 AlphaFoldには難しい質問がありました。その構造トレーニングセットは、AlphaFoldに化学を教えてくれましたか？アミノ酸が互いに反応するかどうかを知ることができますか？まれですが重要な出来事です。

私はに興味のある計算化学者です蛍光タンパク質。これらはクラゲやサンゴのような何百もの海洋生物に見られるタンパク質です。彼らの輝きは使用することができます照らすと病気を研究する。

黒の背景に明るい線が入った2つの色とりどりのブロブ — 蛍光タンパク質を発現するニューロンは、2匹のミバエの幼虫の脳構造を明らかにします。
ウェン・ルーとウラジミール・I・ゲルファンド、ノースウェスタン大学ファインバーグ医学部

に578の蛍光タンパク質がありますタンパク質データバンク、そのうち10個は「壊れて」おり、蛍光を発しません。タンパク質が自分自身を攻撃することはめったになく、自己触媒的翻訳後修飾と呼ばれるプロセスであり、どのタンパク質が自分自身と反応し、どのタンパク質が反応しないかを予測することは非常に困難です。

かなりの量の蛍光タンパク質の知識を持っている化学者だけが、アミノ酸配列を使用して、それらを蛍光にするために必要な化学変換を受けるための正しいアミノ酸配列を持つ蛍光タンパク質を見つけることができます。 AlphaFold2に、タンパク質データバンクにない44個の蛍光タンパク質の配列を提示したとき、それは壊れたものとは異なって固定された蛍光タンパク質を折りたたんだ。

左側に電球、右側に電球の茎のみを示す図 — AlphaFold2は、蛍光タンパク質のアミノ酸配列（上部の文字）を取得し、それらの3Dバレル形状（中央）を予測できます。これは驚くべきことではありません。まったく予想外のことは、どの蛍光タンパク質が「壊れて」蛍光を発することができないかを予測できることです。
マーク・ジマー、 CC BY-ND

結果は私たちを驚かせました：AlphaFold2はいくつかの化学を学びました。それは、蛍光タンパク質のどのアミノ酸がそれらを光らせる化学作用をするのかを理解していました。タンパク質データバンクのトレーニングセットとマルチプルアラインメント AlphaFold2が化学者のように「考える」ことを可能にし、タンパク質を蛍光性にするために互いに反応するために必要なアミノ酸を探します。

トレーニングセットからいくつかの化学を学習する折りたたみプログラムも、より広い意味を持っています。適切な質問をすることで、他の深層学習アルゴリズムから他に何を得ることができますか？顔認識アルゴリズムは、病気の隠れたマーカーを見つけることができますか？消費者の支出パターンを予測するように設計されたアルゴリズムは、軽微な盗難や欺瞞の傾向も見つけることができますか？そして最も重要なのは、この機能です–そして能力の同様の飛躍他のAIシステムでは–望ましいですか？

この記事マーク・ジマー、化学教授、コネチカットカレッジ、から再発行されます会話クリエイティブコモンズライセンスの下で。読む原著。

The post 有名なAIが新しいトリックを学びました：化学を行う方法 appeared first on Gamingsym Japan.

Underground News