もちろんゲノムは遺伝する情報をコードする役割を負っている。
しかしながら、どのようにしてコード/デコードされているのかがわからない。
研究の歴史
遺伝する生命情報はゲノムにコードされている。ゲノムはDNAとタンパク質で構成されている。このうち、DNAの塩基配列がその情報をコードしていることは、1920年代のGriffithの肺炎球菌における発見とAveryが1940年代におこなった厳密な追試、そして1950年代のHersheyとChaseのファージの複製実験などから明らかになってきた。
What is life?は、この情報がたとえばタンパク質に書かれているのではないかと想像している。DNAはずっと単純な構造をもつ高分子だが、実際のところ、塩基配列は情報をデジタルな形で記録するために優れたフォーマットである。タンパク質はここでDNA繊維をからまないように、そして核内に収納できるようにコンパクトに保持する役割を負っている。そしておそらく、後に述べるように、細胞の分化を司るような、どちらかというと静的な発現調節にも関わっている。
いくつものゲノムプロジェクトのおかげで、多くの生物種でゲノムの全塩基配列が測定されてきている。ちょうど筆者が大学院に進学するころ、ゲノムを「読む」ことが一種の流行のようになっていた。でも当時は何事も手作業でこの作業は行われていて、平均的なラボの光景はさながら職人が働く工房のようであった。率直なところ、全ゲノム配列を読み取るのは自分たちの世代では不可能かと思われた。しかしその後、大きなプロジェクトと、行程の自動化のおかげで、驚くほど早くゲノムは読み取られることになった。
これらプロジェクトの目標は、生物の設計図を手にすることだった。塩基配列が全て読まれたということは、この設計図が手に入ったということだ。ひとつ目論見が違ったことは、その設計図に何が書かれているのかがわからなかったことだ。少なくとも、簡単にはわかりそうにないことだ。それはちょうど、どんなデジタル情報も、フォーマットがわからなければ、それが何のプログラムなのか(あるいは文書や画像なのか)がわからないということと似ている。
現状
定性的な情報に関する
DNAの塩基配列がタンパク質の一次構造をコードしているとき、それがどんなアミノ酸配列であるのかは、初期の研究から明らかになっている(1960年代に行われた、Brenner, Crick, Nirenberg, Khoranaらの研究から)。塩基配列は塩基3ベースを使って、1アミノ酸残基を指定する。この塩基配列とアミノ酸配列の対応表はコドン表と呼ばれ、生物種間で(基本的には)同じであることがわかっている。コドン表を使って任意の塩基配列をアミノ酸に置き換えていくと、やがてストップコドンと呼ばれる、どのアミノ酸にも相当しない3ベースが現れる。ストップコドンが頻出する切れ切れの読み枠は、おそらくタンパク質をコードしていない。基本的にはこうして枠をずらしながら調べることで、DNAのどの部分の配列が何らかのタンパク質をコードしているのかどうかを推定することができる。多くの真核生物では、タンパクをコードしている部分はごく一部であり、DNAの大部分は、何をしているのかがわからない配列で埋められている。 しかし少なくとも、タンパクをコードしている部分の、その質的な情報は解読できる。問題は、量的な情報だ。
定量的な情報に関する
細胞の機能は、そこに含まれているタンパク質が集団として持つ機能で決定されるのだろう。それはとりもなおさず、細胞に含まれるmRNAのコンテンツで決まるはずだ(そこで多くの人がこのデータを調べている)。このコンテンツ(トランスクリプトーム)はゲノムという情報が初めて物質になり量を持つという段階である。そこで、最初に取り組むべきなのはこの段階であると考えた。どのようにしてmRNAの量的な情報はゲノムにコードされているのだろうか? しかも、トランスクリプトームはかなり多様である。この多様性の全てをコードできるだけの情報量はゲノムには保持されていないはずだ。これはどう説明できるだろう?