DDBJ BioProject調査

こんばんわ。今日から新しい動画作成に向けたネタ探しを行なっています。

チケット117番のPANTHER http://www.pantherdb.org/ とか面白そうです。

これの調査に入る前に…ちと何日か前にDDBJ版のBioProjectのtweetを見かけたので、そろそろ紹介時なのか?多分そんなことないだろうけど一応…wと思ってDDBJ版BioProjectの調査を先に行いました。

5ヶ月ほど前にチケットはあったのですが様子見しつつ作成を考えるとのことだったので、今日はその様子見をした結果をこの日記に残しておきます。

以下調査ログ(言葉遣いひどいとこ&認識不足であろうとこがありますがそこはスルーでお願いします)

DDBJ BioProject http://trace.ddbj.nig.ac.jp/bioproject/index.shtml

昨今、大型の研究プロジェクトが増えシークエンスデータなどの様々なデータを複数のデータベースに登録するようになっている。

そして、その大量のデータをどのプロジェクトが出したものなのかをまとめるDBが必要とされている。

BioProjectは研究プロジェクトが出した大量のデータをプロジェクト単位でリンクを貼り、まとめの役割を担うDBである。

BioProjectによってプロジェクトを通してデータをDB横断的に検索することができるようになる。

NCBIのbioproject http://www.ncbi.nlm.nih.gov/bioproject/
(NCBI版のBioProject紹介動画は→ http://togotv.dbcls.jp/20110805.html#p01 )
では提出先のデータベースがPubmed,Nucleotide(refseq)など豊富にあり横断検索ができる意義が大きい。

また、プロジェクト登録数も約18000あり、プロジェクト間の繋がりも把握でき、充実されてきている。

一方、DDBJのBioProjectはDDBJの塩基配列データベース、Sequence Read Archive、Trace Archive以上3つのデータベースに登録されたデータをまとめるものになっている。

プロジェクト登録数はまだ30ほどで、また以下に挙げる諸々の疑問点等があるので今はまだ紹介する段階には無いと思われる。

以下疑問点などを列挙していく。
・横断検索できるDB先(まとめる対象になるDB)がNCBI,EBI,DDBJ各々で異なるのにアクセッションを共有すると各BioProjectデータベースごとに中身がガラっと変わることになる。それだと様々なDBを構築し、まとめる対象になるDBが多いNCBI,EBIのほうが中身が充実することになる。アクセッションを共有するならば、どのBioProjectデータベースからもNCBI,EBI,DDBJがもつDBを横断検索できるようにリンクを貼る必要が出てくるのでは…?

・次世代シークエンサーを使うようなプロジェクトはBioProjectに登録するように義務化しないと、現段階(運用開始から3ヶ月)でDDBJのBioProjectにあるプロジェクト数が30ほどではまだ…せめてNCBI,EBIに登録されているプロジェクトも表示できるようにすればプロジェクト数的にはマシになるのでは…?

・そもそも登録するプロジェクトの中身について、登録項目が他のBioProjectデータベースと異なっているので、先ほど書いたことは不可能??

・DDBJ BIoProjectのページに書かれている概要を読むとNCBIのBioProjectの概要説明にもある通りプロジェクトの階層構造(Umbrellaとprimary project)等の説明もなされているが、現在登録されているプロジェクトを見るとプロジェクトが何に分類されているのか明記されていないなど、概要と中身が異なっていてDDBJのBioProjectはよくわからない。

・登録する人にBioProjectがどういったものか理解してもらい、登録すべき項目を確実に登録してもらう必要もあり??

・とにもかくにもモヤモヤ感…下位互換というか互換すらされてないというのが正しいのか…


調査ログは以上です。

まぁ今回の勤務はまだ紹介しなくていいものを紹介しなくていいというために調査したといった形になりました(´・ω・`)

NCBIのBioProjectは結構好きなだけに凹みました。

んー。いずれいいものになると信じて今回は見送ることにします。うん(;_;

次回の勤務からは紹介されたよさげなデータベースを調査し、動画作成に持っていきたいところです。

今日もお疲れ様でした。