メインコンテンツまでスキップ
Waters Japan

Fasta ファイルのランダム化は何をしますか?検索結果にどのように影響しますか? - WKB1211

Article number: 1211To English version

環境

  • PLGS
  • Progenesis QI for Proteomics

回答

PLGS で MSe 検索を実行するとき、Fasta 配列データベースをランダム化して誤検知用のダミーエントリーを作成するための 2 つのオプションがあります。

A - データバンクライブラリーマネージャの Randomize(ランダム化)ボタンを使用して、事前にランダム化されたデータバンクを作成し、結果の Fasta データバンクをワークフローで使用します

B - ワークフローで元の Fasta データバンクを使用します。この場合、iadbs.exe は「その場で」ダミー配列を作成します。

Progeneis QI for Proteomics の Ion Accounting データベース検索はオプション B を使用します。ただし、PLGS を使用してランダム化された配列を含む Fasta ファイルを生成する場合、Progeneis QI for Proteomics の検索オプションでその Fasta データバンクを指定できます。

A と B を使用して生成された検索結果を比較すると、大きく異なることがあります。では、明白な疑問は、これらの結果がなぜ異なるか、どちらの結果が正しいかということです。

1 - PLGS データバンクライブラリーマネージャの Randomize(ランダム化)ボタンを押すと、元の Fasta ファイル内の各アミノ酸のパーセンテージが計算され、入力されたタンパク質と同じ長さおよび同じアミノ酸分布のランダムな配列が作成されます。次に、これらのランダムな配列が元のタンパク質のリストに追加され、新しい Fasta ファイルが保存されます。

2 - ランダム化されていない Fasta ファイルで検索を実行すると、実行可能な iadbs は、ファイルを保存しないことを除き、検索プロセス中に上記とまったく同じプロセスを使用して、ランダム化されたエントリーを作成します。

3 - 2 つのランダム化により、類似していても異なるランダムなタンパク質が作成されるため、異なる結果が得られる可能性があります。異なるランダム化されたタンパク質は、データ内の異なる精密質量保持時間 (AMRT) に一致することがあります。検索は一連の重複除去として機能するため、AMRT がランダム化されたエントリーにマッチすると、実際のタンパク質にマッチしなくなります。そのため、いずれかの検索で特定の検索が失敗したように見えることがあります。検索の最初のパスで検索が異なる実際のペプチドおよびタンパク質にマッチした場合、2 番目のパスで使用されるサブセットデータベースも異なります。その結果、影響が悪化し、検索した結果の差が大きくなることがあります

4 - 事前にランダム化された Fasta ファイルと「元の」ファイルでの検索の違いを最小限に抑えるには、誤検知率(False Discovery Rate)を 100% に増やします。ただし、これを行っても違いが表示されることがあります。

5 - 1 つの検索結果がもう一方の検索結果より適切であるとは限りません。1 つのアプローチを使用した場合の追加の検索結果は真の一致です。

 

 

追加情報

 

id1211, amino acid, library, retention time, SUPPLGS, リテンションタイム