• Rを使って統計解析。ごりごりと。
  • メモ。
  • ある反復配列のスーパーファミリーの中に、十数個のサブファミリーがある。
  • それぞれのサブファミリーは含まれるメンバーの数や、メンバー同士の類似性、activeなコピーとinactiveなコピーの比率、などについてかなり異なっている。たくさんのメンバーを含むサブファミリー、少ししか含まないサブファミリー、配列がかなりバラエティに富むサブファミリー、かなり均一なサブファミリーなど。
  • そういう違いがあることは、自分の目と手を使って実際調べていれば直観的に明らかなのだけど、サイエンスにするためには、そのような性質をなにか客観的な指標にまとめてやらないといけない。
  • まずはその部分でだいぶ苦労したのだが、なんとか使えそうな指標をいくつか考案することができた。
  • このようは指標は、データベースから抜き出してきた配列を使って何らかのプログラムを書いてごりごり計算すると、ある実際の数値として導きだすことができる。いまのところ、15種類くらいの数値を使ってサブファミリーのおおよその性質を表現することができている。
  • このようなサブファミリーごとの性質の違いの背景には、なんらかの隠れた(望むらくは少数の)変数があって、それがサブファミリーの性質をうみだす要因となっているのだろうと考えているわけだ。
  • で、そのような説明モデルをああでもないこうでもないと考えている。基本的には、その反復配列がゲノムの中で過ごしてきた年月の長さ、反復配列の増幅能力の高低、変異率、選択圧(コピー数が増えたときのホストに対するメリット、デメリット)といったものに規定されているのだろうと思うのだが、それをどうモデル化すれば良いのかで悩んでいる。
  • ヒントを得るために、Rを使って上の指標の間の相関関係を調べたりしているのだが、なかなか結果は複雑で、頭がこんがらがってくる。
  • もともと発生屋の自分がなんの因果でこんなことをやっているのかと思う。まあ楽しいんだけど。
  • 気分転換に実験もしようと、昨日はプライマーを注文した。