■ - かえる研究日誌

ひきつづきTプロジェクトとGプロジェクトの解析を進める。ゲノムの中にある多コピーのトランスポゾンの中から、もっとも「元気そうな」、つまりよく動きそうなコピーを選び出したい。データベースから抽出したコピーのリストは手元にある。さてどうするか。実際のところはよく分からないのだが、もしも「よく動く」ということと「よくコピーを増やす」ということの間に正の相関があるとするなら、おそらく、よりたくさんあるコピー、より典型的なコピーが、よく動くコピーだろうと考えられる。そこでこのようなコピーを多数のコピーの中から見つけてやる。方法は単純な多数決で、アラインメントの一つのポジションについて同じ塩基をもつコピーが幾つあるかを数えてスコア化し、それを全ポジションについて足し合わせてやる。で、もっともスコアの高いものを最も典型的だとする。

で、そのためのスクリプトを書いて走らせたんだけど、むかし作ったPerlのフィルタの一つの動きがやけに遅い。処理数が数十コピーならたいした時間はかからないが、千コピーを超えると無茶苦茶に時間がかかる。で、そのフィルタのコードを調べてみたら、なんでこんなアルゴリズムを作ったんだろ？　という非効率な代物。書き直して走らせてみたら、ぐんとはやくなった。