高速BLASTについて

使い方についてはこちらをご参照ください。

BLASTを高速に計算
高速BLASTはNCBI BLASTをPCクラスタの複数サーバで並列して処理することで高速に計算します。 NCBI BLASTを1ノードで実行した場合と比較し、数倍以上の高速化を実現します。

データベース分割による効率の良い計算
NCBI BLASTでは、大規模なデータベースを参照する場合、メモリ使用量がサーバのメモリ容量を超えて極端に遅くなることがあります。 高速BLASTでは、サーバのメモリに格納されるようにデータベースを分割するため効率良く高速に計算します。

高速BLASTによる高速化の効果
以下のように計算時間が半分以下に短縮されます。ただし、計算時間は多数のジョブ投入による待ち時間を含みません。また、サーバの状態(データベースのキャッシュされているか否かなど)によっても変わります。
クエリ従来のBLASTの計算時間高速BLASTの計算時間
DNA配列長:36 bp(DDBJアクセッション番号:DM013333)約10分約2分
DNA配列長:660 bp(DDBJアクセッション番号:AB000001)約10分約3分
DNA配列長:3031 bp(DDBJアクセッション番号:AB489118)約10分約3分

高速BLASTの出力結果について (FAQ)
DB分割により、ヒットするエントリが重複する場合があるのではないか?
ヒットするエントリが重複することはありません。
高速BLASTでは、1つのDBから内容の異なる分割DBを作成し、検索を行っています。従って、クエリと分割DBの組合せはユニークであり、各ジョブから重複した結果を得ることはありません。
E値やスコアの違いはないか
E値やスコアが異なることはありません。
高速BLASTでは、各ジョブにおいて分割前のDBサイズを考慮した統計値を算出しており、NCBI BLASTのE値と同じ結果を得ることができます。
出力に記載される項目等、フォーマット等には違いが出るかどうか。
次に示します「並列化による出力結果の影響」はございますが、いずれも生物学的な相違ではありません。
並列化による出力結果の影響
並列化により出力結果に次の影響がございます。
  1. 統計値(E値やScore)が同一な結果の出力順序が入れ替わる場合があります。
  2. 結果末尾の統計値が異なる場合があります。
  3. 高速BLASTではNCBI BLASTの結果とSubjectの件数が一致しますが、スコアが低いSubjectでNCBI BLASTと結果が異なる場合があります。
  4. スコアが低いSubjectのアライメント部分でオリジナルBLASTと結果が異なる場合があります。
  5. アライメント出力形式オプション -m は、0(通常フォーマット、初期設定)、7(XML)、8, 9(タブ区切り形式)のみ対応します。

高速BLASTの出力結果例 (1)
統計値(E値やScore)が同一な結果の出力順序が入れ替わる場合があります。
高速BLASTでは、ジョブを分割して複数サーバで実行し、各サーバの実行結果をマージします。どのサーバが先に結果を返すかは不定であり、E値やscoreが同一である結果の出力はソーティングアルゴリズムに依存します。従って、E値やScoreの同一なヒット結果は下記のように出力順序が入れ替わる場合があります。


高速BLASTの出力結果例 (2)
結果末尾の統計値が異なる場合があります。
高速BLASTでは、分割したジョブで結果数の閾値を緩めて検索を行い、統合しています。このため以下のような結果末尾の統計値が異なる場合があります。
Matrix: blastn matrix:1 -3
Gap Penalties: Existence: 5, Extension: 2
Number of Sequences: 496339
Number of Hits to DB: 22,522,627
Number of extensions: 1164416
Number of successful extensions: 24344
Number of sequences better than 10.0: 16
Number of HSP's gapped: 24344
Number of HSP's successfully gapped: 16
Length of database: 4,058,190,930
X1: 11 (21.8 bits)
X2: 15 (29.7 bits)
X3: 50 (99.1 bits)
S1: 14 (28.2 bits)
S2: 19 (38.2 bits)

高速BLASTの出力結果例 (3)
高速BLASTではNCBI BLASTの結果とSubjectの件数が一致しますが、スコアが低いSubjectでNCBI BLASTと結果が異なる場合があります。
スコアが低い同スコアのsubjectで異なる場合があります。


高速BLASTの出力結果例 (4)
スコアが低いSubjectのアライメント部分でオリジナルBLASTと結果が異なる場合があります。
同じSubjectの複数領域にアライメントされる場合、2つ目のアライメントが表示されないことがあります。下記の例は、-b 10000 (アライメントを10000件表示)オプションを指定して実行した結果の一部で、4000番目以降のSubjectです。スコアが高いSubjectに対してはきちんと全てのアライメントが表示されます。


同じSubjectの複数領域にアライメントされる場合、2つ目のアライメントで異なることがあります。下記の例は、-b 10000 で実行した結果の一部で、3000番目以降のSubjectに対するアライメント結果です。