alphafoldを一から解説

Publish Date: 2021-08-11

ええ？なにこのポスト？

最近、Google社がタンパク質のフォールディングを計算できるAlphafoldをリリースした。AlphaFoldというと、2018年CASP13コンテストに参加したAlphaFold 1.0と2020年CASP14コンペティションんみ参加したAlphafold 2.0という二つのバージョンがある。Alphafold 1.0とAlphafold 2.0は、構造がまったく違っているので、このポスト両方を見てみるかと思う。

リソース

モチベーション

アミノ酸とは？

タンパク質は、アミノ酸のチェンです。また、ポリーぺプタイドとも呼ばれています。　人類の体の中、大体20種類のアミノ酸がある。

以下の点を注意しよう：

アミノ酸をフールネーム、三つのローマ字、また一つのローマ字で表すことができます（例：グリシン = Gly = G）。
チェンが始まった場所、NH2のある端末をN-terminusと呼ばれ、終わる場所、COOHのある端末をC-terminusと呼ばれます。つまり、方向性があります。。
NH2とCOOHの間に一つの炭素があり、この炭素についている分子グループをSidechain,またRグループと呼ばれ、基本的にアミノ酸の性質を決める。
Sidechain以外のグループをBackboneと呼ばれます。
真ん中の炭素原子をCαと呼ぶ

**ぺプタイドの構造（左はN-terminus。右はC-terminus）** ソース

アミノ酸からタンパク質まで

アミノ酸で作られたタンパク質が特定の三次元の構造が持っていて、全般的な構造に影響を与えるのは、一次構造、二次構造、三次構造、四次構造である。

一次構造

一次構造は、アミノ酸の配列です。アミノ酸の配列は、遺伝子から直接に推定できるので、現在、人間のほとんどのタンパク質の配列既に解明しています。

二次構造

Rグループ以外のグループが水素結合により構造ができている。その中、αヘリックス、βシートが一番重要。水素結合とは、電子の分布が不均一によりできている静電的な結合で、アイオン結合・共有結合より圧倒的に弱い結合である。

例として、実際の論文の中、このような図がよく見られる。

**赤い部分はαヘリックス、青い部分はβシート。構造が特にわからない場合は、細い柱で表される** ソース

三次構造

三次構造は、Backbone, Sidechainの間の相互作用でできているものである。最も有名なのは二つのシステインのRグループ間にS-Sの共有結合（Sは硫黄元素、Disulphide-Bridge。共有結合は水素結合、アイオン結合よりも強い。また、タンパク質のからの安定さ・性能を影響するので、アルツハイマー病、ハンチントン病のようは病気、薬のデザインなどに関わっている重要な問題になっている。

四次構造

四次構造は、複数の三次構造ができているアミノ酸のチェインの間の相互作用である。現在「一次構造がわかれば、三次構造は推定できる」という説が基本的に認めらている。しかし、「一次構造がわかれば、四次構造は推定できる」は争論中。

既存の構造解明手法

Alphafold 2.0で「タンパク質の構造を推定する」というと、一次構造からを三次構造することです。　

Alphafoldは計算手法であり、今、計算結果を実験からできた結果と比べないといけない。現時点では、存在がわかっている２億のタンパク質の中、構造が解明されているのは～１７万個。次、実験手法について紹介したいと思う。

X線結晶構造解析 (X-ray crystallography)

X線結晶構造解析は、結晶の原子および分子構造を決定する実験科学であり、結晶構造により入射するX線のビームが多くの特定の方向に回折する。これらの回折したビームの角度と強度を測定することにより、結晶学者は結晶内の電子密度の3次元画像を作成することができます。

**左上から来た波長はλである光線を右上まで反射すると、2dsin(θ) = n*λの時（nは整数）、強め合う干渉が発生する。** ソース

この手法は現時点でのGolden Standardと言える。しかし、タンパク質の結晶を手に入れるのは、実はものすごく難しいことです。その理由は若干があります：

水性溶液に過飽和までタンパク質を溶かす必要があります、しかし水に溶かしにくい膜タンパク質は、半分以上を薬のターゲットでありながら精製、結晶させるのは難しい。
タンパク質のサンプル量があるほど必要です。
温度、pH、溶液の成分など、様々なファクターが最後の結果に影響を与えますので、工夫がかかってしまいます。

タンパク質の核磁気共鳴分光法 (Protein Nuclear Magnetic Resonance (NMR) Spectroscopy)

これはMRIの同じ原理、核磁気共鳴を用いる手法です。おおざっぱにすると以下の流れになります：

外部静磁場B0による、サンプルの原子核のスピンが一直線にする
一直線を振動磁界で(RF)で破壊する
原子核スピンの特性を分析する

この手法にも欠点が若干あります：

装備は高いです(５０万～５億円まで。解像度が良いほど)。
割と高いサンプル量が必要です。
サンプルが大きな分子になると、ピークの数も増えてしまいますので、解明するのはも難しくなってしまう。

低温電子顕微鏡法 (Cryogenic electron microscopy, Cryo-EM)

Cryo-EMは透過型電子顕微鏡法の一種で、試料を低温（多くの場合液体窒素の温度）において解析する手法である。通常の電子顕微鏡での観察では、電子線による損傷と、高真空状態が生物試料に与える影響は大きかった。この手法では、氷の結晶が発生しないように一瞬でサンプルをフリーズして、電子でサンプルを調査できる

Cryo-EMは、以下の利点がある：

膜タンパク質構造でも解明できる
タンパク質が「結晶できるか結晶できないか」

現時点では、これはAlphafoldの一番強い競争相手じゃないかと思う。データの傾向によると、2024年以降、Cryo-EMでできたタンパク質の構造の数がX線結晶に超えてゆく。

計算手法でタンパク質の構造を解明する共通

Critical Assessment of Techniques for Protein Structure Prediction (CASP) とは？

CASPとは、二年ごとにタンパク質を計算手法で解明するコンテストである。実験手法で解明されたばっかりタンパク質を回答として使って、タンパク質の構造を予測する計算手法を評価できる。

完全なタンパク質を予測するだけでなく、ある巨大なタンパク質の中、特定の機能を満たすドメイン(Domain)を予測することもある。

計算手法というと、主にシムレーション系とバイオインフォマティクス系という二つのアプローチがある。

シムレーションVSバイオインフォマティクス一覧

手法	概要	利点	不便
シムレーション	アミノ酸のそれぞれの物理的な相互作用に注意する。熱力学・統計学・物理学に基づく手法	直接に構造を解くことができる	タンパク質のサイズが大きくなるほど予測は難しくなる
バイオインフォマティクス	タンパク質の遺伝子テンプレートを進化的な関係を調べる。バイオインフォマティクス・アルゴリズムに基づく手法	既に存在しているタンパク質データベース、遺伝子シーケンシングを効率的に利用できる。また、深層学習で相互関係を解析できる	進化的な関係のある分子がない場合特に難しい

Alphafoldがリリースされた前に、シムレーションでもバイオインフォマティクスでも満足できる予測を生成できなかった。

Alphafold1.0でも2.0でもバイオインフォマティクスのアプローチを利用している手法である。

CASPのカテゴリー

CASPは更にカテゴリーに分けている。毎回のカテゴリー少し調整されているけれど、基本的に以下のカテゴリーがある。

Template-based Modeling (TBM): 既に解明されている更に似っているタンパク質がある。
Free Modeling: 既に解明されている更に似っているタンパク質がない。

メトリックス

計算された構造を実験手法で手に入れた構造に比べると、以下のメトリックスを使う。

Angstrom Cα root-mean-square deviation at 95% residue coverage (Å r.m.s.d.₉₅)　原子位置の平均二乗偏差

名前通り、このメトリックスは、計算された構造のアミノ酸のCαの位置を実験手法で得られた構造に比べる。単位はÅ (Angstrom), 10^-10m（炭素の原子半径は0.7Å)。

また、95%とは、あるタンパク質の中、95%のアミノ酸のCαが揃えるために最低限の調整を意味している。

Local Distance Difference Test (LDDT)-Cα

原文によると、RMSDは複数の動きやすいドメインの評価において、大きいなドメインにバイアスが存在する。

（A）リンカーの部分だけのためドメインの相対的な位置が大きく変わるケース。人工的にタンパク質を切って、別々に評価するケース（B）。評価のスコアがそれほど変わらない。ソース

バイオインフォマティクス手法

Multiple Sequence Alignment (MSA) 多重整列

配列が似ているタンパク質・遺伝子・リボ核酸を揃えるアルゴリズムである。更に、MSAにおけるも深さ(Depth)という特徴量ある。これはニューラルネットワークの深さのことではなく、MSA行列における「一つの列における解明されているアミノ酸の数」の平均値である。

**アルゴリズムによる進化的な関係のシーケンスを揃えて、M*Nの行列が作れる。M=シーケンスの数、N=アミノ酸の数** ソース

要素和

Alphafold 2.0 CASP14 (2020)　詳細

ハイレベル一覧

訓練ハードウエア：128 TPUv3コア、約2週間
訓練セット：約17万公開されているタンパク質の構造
テストセット：
ロース：FAPE
結果：CASPドメインにおける0.96 Å r.m.s.d.₉₅ (95%確信間隔 = 0.85 - 1.16Å)、二番目良いは2.8Å
構造：ステージ二つ：
1. Evoformerニューラルネットワークブロック４８個
  - MSA行列(s*r, s=シーケンスの数、r=アミノ酸の数)：行：違う種類のし
  - ペア行列(r*r, r=アミノ酸の数):３次元空間でアミノ酸ペアの関係についての情報
2. Structureモジュール８個
  - 原子の三次元空間にある場所を推定する