熱力学モデルの着想

ゲノム情報がいかに物質としての存在になるのか、その最初の段階を熱力学で説明する

もちろんゲノムは遺伝する情報をコードする役割を負っている。
しかしながら、どのようにしてコード/デコードされているのかがわからない。

研究の歴史

遺伝する生命情報はゲノムにコードされている。ゲノムはDNAとタンパク質で構成されている。このうち、DNAの塩基配列がその情報をコードしていることは、1920年代のGriffithの肺炎球菌における発見とAveryが1940年代におこなった厳密な追試、そして1950年代のHersheyとChaseのファージの複製実験などから明らかになってきた。

分子生物学の明瞭期に書かれたSchrodingerのWhat is life? は、この情報がたとえばタンパク質に書かれているのではないかと想像している。DNAはずっと単純な構造をもつ高分子だが、実際のところ、塩基配列は情報をデジタルな形で記録するために優れたフォーマットである。タンパク質はここでDNA繊維をからまないように、そして核内に収納できるようにコンパクトに保持する役割を負っている。そしておそらく、後に述べるように、細胞の分化を司るような、どちらかというと静的な発現調節にも関わっている。

いくつものゲノムプロジェクトのおかげで、多くの生物種でゲノムの全塩基配列が測定されてきている。ちょうど筆者が大学院に進学するころ、ゲノムを「読む」ことが一種の流行のようになっていた。でも当時は何事も手作業でこの作業は行われていて、平均的なラボの光景はさながら職人が働く工房のようであった。率直なところ、全ゲノム配列を読み取るのは自分たちの世代では不可能かと思われた。しかしその後、大きなプロジェクトと、行程の自動化のおかげで、驚くほど早くゲノムは読み取られることになった。

これらプロジェクトの目標は、生物の設計図を手にすることだった。塩基配列が全て読まれたということは、この設計図が手に入ったということだ。ひとつ目論見が違ったことは、その設計図に何が書かれているのかがわからなかったことだ。少なくとも、簡単にはわかりそうにないことだ。それはちょうど、どんなデジタル情報も、フォーマットがわからなければ、それが何のプログラムなのか(あるいは文書や画像なのか)がわからないということと似ている。

現状

定性的な情報に関する

DNAの塩基配列がタンパク質の一次構造をコードしているとき、それがどんなアミノ酸配列であるのかは、初期の研究から明らかになっている(1960年代に行われた、Brenner, Crick, Nirenberg, Khoranaらの研究から)。塩基配列は塩基3ベースを使って、1アミノ酸残基を指定する。この塩基配列とアミノ酸配列の対応表はコドン表と呼ばれ、生物種間で(基本的には)同じであることがわかっている。コドン表を使って任意の塩基配列をアミノ酸に置き換えていくと、やがてストップコドンと呼ばれる、どのアミノ酸にも相当しない3ベースが現れる。ストップコドンが頻出する切れ切れの読み枠は、おそらくタンパク質をコードしていない。基本的にはこうして枠をずらしながら調べることで、DNAのどの部分の配列が何らかのタンパク質をコードしているのかどうかを推定することができる。多くの真核生物では、タンパクをコードしている部分はごく一部であり、DNAの大部分は、何をしているのかがわからない配列で埋められている。 しかし少なくとも、タンパクをコードしている部分の、その質的な情報は解読できる。問題は、量的な情報だ。

定量的な情報に関する

細胞の機能は、そこに含まれているタンパク質が集団として持つ機能で決定されるのだろう。それはとりもなおさず、細胞に含まれるmRNAのコンテンツで決まるはずだ(そこで多くの人がこのデータを調べている)。このコンテンツ(トランスクリプトーム)はゲノムという情報が初めて物質になり量を持つという段階である。そこで、最初に取り組むべきなのはこの段階であると考えた。どのようにしてmRNAの量的な情報はゲノムにコードされているのだろうか? しかも、トランスクリプトームはかなり多様である。この多様性の全てをコードできるだけの情報量はゲノムには保持されていないはずだ。これはどう説明できるだろう?

「ゲノムに書かれている量的な情報を、細胞がどうやって読み出しているのか」
を理論的に説明するために作られたのがこのモデルである。生化学的な知見を、
熱力学のフレームワークを使って統合することでつくられている。

現時点で複数の状況証拠によって支持されている(が直接証明はされていない)。
マイクロアレイデータのパラメトリックな解析のフレームワークの理論的な基盤になっている。

モデルを組むときにいつも問題になるのは、そのモデルがどの程度に妥当なものか、そしてその妥当性が検証可能であるかどうかだろう。 生化学的な知見をもとにして、熱力学を使ったモデリングを試るのは、生化学者が好んで使う方法論である。また、不必要にモデルを複雑にしないことを心がけている。複雑にするのは後からでもできるわけで、最初のモデルは可能な限りシンプルにしておきたかった。またこうしたシンプルさは、検証可能性を担保する上でも重要な性質である。
熱力学を基盤にしたのも、そのシンプルさと、リニアな性質による。生化学的な見地からいうと、多くの細胞内の現象は、熱力学で説明ができる。もちろん電子伝達などの現象には量子論が必要になるが、ほとんどの酵素反応を説明するのは熱力学が手頃で、実際によく使われている。そして、ゲノムからトランスクリプトームをつくりだしているのは酵素である。そこで、この細胞の働きは熱力学で説明ができるだろうと考えた。