Genome Sedueについて

Genome Sedueは、RefSeqなどの塩基配列、アミノ酸配列が含まれた文章の本文・配列情報両方の全文検索を可能にする検索エンジンです。遺伝子情報のテキスト・アミノ酸配列・塩基配列に対して高速に検索を行うことができます。

Genome Sedueは、Preferred Infrastructureが提供する全文検索システム「Sedue」をベースに、バイオサイエンス研究者に有用な機能を付け加えています。Sedue全文検索システムは、既存の多くの全文検索システムで利用されているアルゴリズムとは異なるアルゴリズムを採用しており、塩基配列などの非自然言語のテキストデータに対しても高速な検索を実現します。



Sedue 次世代検索エンジン

Preferred Labratoryでは、Genome Sedue Human RefSeq Searchを提供しています。Human RefSeq Searchでは、ヒトのRefSeqデータベース約500MBの検索サービスを提供しています。現在のヒトRefSeq検索は、2Gバイトのメモリを搭載した標準的なワークステーション1台を用いて提供されています。また、WebインターフェイスにはPreferred Infrastructureの開発した「AzaraC Webアプリケーションフレームワーク」を用い、高速・快適な検索インターフェイスを実現しています。

Genome Sedueは、Preferred Infrastructureが提供するサービスとして、Preferred Laboratoryにて自由に利用することができます。GenBankの全データ、各種ゲノム配列、出願済みの特許に含まれる配列などを検索可能な有料版Genome Sedueサービスも提供予定です。Genome Sedueを購入して、研究機関や企業内での塩基配列検索システムとして導入することも可能です。Genome Sedueご購入に関するお問い合わせは、info _AT_ preferred.jpまでお問い合わせ下さい(_AT_は@に変更してください)。

Genome Sedue Human RefSeq Search チュートリアル

基本的な使い方

Genome Sedueのトップページにアクセスすると、次のようなインターフェイスが表示されます。

検索ボックスに検索したいキーワード・配列を入力して「Search」ボタンをクリックすると、次のような検索画面が表示されます。

検索結果画面は、次のような構成要素から成り立っています。

  1. 検索キーワードにマッチしたRefSeqのアクセッション番号
  2. RefSeqのDefinition
  3. 遺伝子名(symbol)およびGene ID
  4. 検索キーワードにマッチした部分の周辺テキスト
  5. RefSeqオリジナルテキストへのリンク
  6. NCBIのRefSeqテキストへのリンク
  7. UCSC Genome Browserへのリンク

高度な使い方

複数キーワードによる検索

検索ボックスに複数キーワードを入力すると、それらのキーワードを含む文章を検索することができます。たとえば、atcgatcgという配列とEuarchontogliresというキーワードを含む文章を検索したい場合は、 atcgatcg Euarchontoglires と入力することにより検索することができます。

相補対の検索

検索ボックスで、comp:atcgatcgという形で、「comp:」というコマンドを配列の前につけて検索することにより、comp:で指定された配列の相補対配列で検索することが可能です。たとえば、

comp:atcgatcg

と検索することにより、実際にはその相補対となるcgatcgatという配列を検索することができます。

フレーズ検索

検索キーワードを二重引用符で囲むことにより、空白を含んだキーワードの検索ができます。たとえば、「[goid 0005624]」というキーワードを探したい場合は、

"[goid 0005624]"

と検索することにより、空白もふくめ、「[goid 0005624]」という文字列を含んだテキストを検索することができます。

遺伝子名での検索

遺伝子名で検索を行いたい時は、「symbol:」というコマンドを遺伝子名の前につけて検索することにより、シンボル名に一致する文章の検索を行います。たとえば、

symbol:PNPLA8

と入力することにより、PNPLA8という遺伝子名に対応したRefSeqを検索することができます。

利用データについて

Genome Sedue Human RefSeq Searchでは、RefSeq Release 19から
    SOURCE Homo sapiens (human)
のデータを利用しています。

サーバーについて

本サービスは、
    プロセッサ : Intel Pentium 4 3.6GHz
    HDD : 250GB
    メモリ : 2GB(実際に使用されているのは約400M)
のスペックのマシン1台を利用してサービスされています。

免責事項

Genome Sedue Human RefSeq Searchサービスの使用はユーザの自己責任でなされるものであり、本サービスを使用したことによって発生したいかなる損害に関しても、Preferred Infrastructureは一切の責任を負いません。

GenomeSedueトップに戻る