動画構想作成中

久方ぶりの更新です。3月は家でゴタゴタあったりなどしてほとんど勤務できていませんでした。

身の振り方等々考える必要がありそうです。

まぁそれは置いといて久々の勤務ですが、今はPANTHERの動画構想を練っているところです。

まずはいつも通り動画構想のドキュメントをペタリ

https://docs.google.com/document/d/1HIbjX1B_5INM1EVqHb_cvHNPBvrdtmlJFB0kpcz57i0/edit

PANTHERの発現解析の機能を、過去に統合tvでupされているDAVID,GSEAと比較しながら解説する方針になっているのですが…

3つを比較するということで非常に内容が多くなりそうなのがアレです。

3つで比較しなければええやんって話ですが、PANTHERの2つの解析オプションの1つがDAVIDと、もう1つがGSEAと似てる部分があるため、比較しながらのほうが各々の長所、短所がハッキリわかるのではと思い、3つで比較することにしました。

そういうわけで比較する部分も動画に収めることは確定しているのですが、上のドキュメントにはまだ比較部分の構想が書かれていません(ぇ

なぜかっていうとそもそもPANTHERの機能が多かったり、Tutorial読んで説明しなければならない部分が多かったりとPANTHERそのものの説明に時間を要しています。

他にも、比較するためにデータセットを色々用意したりと面倒な準備が多くあるのが要因となっています。

そろそろ、1つの動画にかける私的な時間の目安の30時間に近づいているので、勤務中の作業スピードを増し増しにしたいところです。

とりあえずPANTHERとDAVIDとの比較はある程度できあがっているので、次はGSEAとの比較部分までを仕上げていきます。

変換完了

こんにちわ。今回の勤務でデータフォーマットの変換を終えました。

そして変換したデータをいろんな条件の元でPANTHERに投げ、表示された結果を条件間、ツール間(GSEAやDAVID)で比較しPANTHERはどういったところがいいかをまとめる作業を始めています。

以下は今回の勤務の作業ログです。

まずはデータセット変換について行ったことをメモしておきます。

PANTHERはマイクロアレイのプローブIDを受け付けないので、以下のデータセットの形は使えません。

また、全遺伝子で作業するのは動画的に面倒になるので500個に絞り込むことにしました。

GSEA発展編に掲載されているデータセット:gse1657.txt
http://togotv.dbcls.jp/movie/gse1657.txt

このデータセットから分化過程で発現増加した、上位500個の遺伝子を
GSM28484 GSM28485 GSM28486(分化後のサンプル)の平均から

GSM28475 GSM28476 GSM28477(分化前のサンプル)の平均を引くことで求め、

求められた500個の遺伝子のプローブIDをBioMartを用いてENSEMBL IDに変換しました。

変換の過程でIDは1:1対応で変換されないこともあるため、重複したものは1つに絞り、変換されなかったIDにかんしてはその遺伝子をリストから取り除くことで対応しました。

こうしてEnsembl gene IDに変換された遺伝子リストに、先ほどのリストから発現量のデータセットをmergeすることで、PANTHERに投げることのできるデータフォーマットになりました。

このデータセットは動画upの際に一緒に掲載する予定です。


次にこのデータセットPANTHERに投げる際のオプションについて。

以下のontologyに基づいて遺伝子の分類を行うことができる。

Pathways
GO Biological Process
GO Molecular Function
GO Cellular Component
PANTHER Protein Class

表示された結果の見方やツール間の比較については、次回勤務で動画の構想を練るとともにまとめてエントリーに載せることにします。

ようやく頭の中でぼんやりと動画の方向性が見えてきたので、それを早く形にして動画の作成に入っていきたいところです。

データフォーマット変換中

こんばんわ。

前回の勤務でうーうー悩んでいたのは、GSEAの解説動画発展編を見逃していたのが原因でした(オイ

そんなわけで見逃していたGSEA発展編をみて、ひとまずその通りに解析を実行してうまくいったので、その解析をPANTHERでも行う(昨日のブログの2つ目のオプションで)ことが今日の目標となりました。

PANTHERで解析を行うには遺伝子のIDと発現量の数値をセットにしたデータセットを用意しなければなりませんが、マイクロアレイのprobeIDは適用できません…

そんなわけでまずはIDの変換を行うことからはじまり、次にDAVIDで使われたリストのものに限定する作業(例として使われるデータをツール間で揃えるため)を行なっています。

ツールに応じて必要なデータやフォーマットが異なるのでそれを調整するのは結構面倒で時間を食ってしまっています。

次回勤務はまとまった時間を取って一気に調査を終えたいと思います。

次回ブログにはまとめたデータセット等もうpする予定です。

悪戦苦闘中

こんにちわ。前回に引き続いてPANTHERの調査を行なっています。

PANTHERの発現解析ツールとしての側面を調べる方向で、ひとまずすでに動画として紹介されているDAVIDとGSEAの使い方を勉強。

その後、そこで使ったデータセットPANTHERでも使ってみることにしました。

以下、調査ログコピペ

PANTHERの解析ツールには2つのオプションがあって、

1,Compare gene lists

遺伝子リストを投げることで、遺伝子機能ごとに分類したものを返す。

DAVIDで紹介された解析方法と近い。

2,Analyze a list of genes with expression values

遺伝子と発現量をセットにしたリストを投げることで、解析を行う。

GSEAで紹介された解析方法と近い。

1の機能は発現解析というよりは遺伝子の機能によるクラスタリングツールといったところ。

DAVIDの統合tv内で使われていた遺伝子リストのIDをconvertすることでPANTHERでも同様のことが可能であった。

2の機能が発現解析のためのツールのようだ。

使うためには遺伝子のIDリストと発現量の数値がセットになったリストを用意しなければならない。

だが、GSEAで用いられているファイルは独自の形式のものが使われておりそのまま適用できない。

PANTHERの解析に向いたデータセットを用意するか、PANTHERの解析で使えるようなデータセットをGSEAのサンプルデータから作り直す必要がある。

今現在作り直しの段階。

2つ目の機能について解説することが求められているような気がするのですが…まだ調査しきれていません。

んーなんか詰まってしまったような、もやもやしたような感じです。多分理解しきれてないのでしょう。

明日の勤務で再度考えなおして、どういった紹介をすればいいかを決めていこうと思います。

PANTHER調査

今回の勤務からPANTHERの調査を行いました。

調査ログをgoogle documentに残したので、以下貼り付け

PANTHER 調査ログ

正式名称 The PANTHER (Protein ANalysis THrough Evolutionary Relationships) Classification System http://www.pantherdb.org/

PANTHER is part of the Gene Ontology Reference Genome Project.
(注:Gene Ontology Reference Genome Projectとは12モデル生物の遺伝子全てにアノテーションを加え、他の生物の遺伝子に人の手ではなく自動でアノテーションできるようにすることを目的としたプロジェクト)

実験で得られたデータや進化学的関係性に基づいて遺伝子を機能で分類。

user manual http://www.pantherdb.org/help/PANTHER_user_manual.pdf
Tutorial http://www.pantherdb.org/help/PANTHER_Tutorial_2011.pdf

PANTHER7.0で新しくなったところ
・48生物種からのwhole genome sequence結果
系統樹作成
・秘伝(Hidden)マルコフモデル
・ortholog判別
・etc…

PANTHERでできること
・特定の遺伝子の情報を検索する
・特定のタンパク質のタンパク質ファミリー(機能によるPANTHER独自の分類)、GO、pathwayなどの検索
・(特定の機能クラス、ファミリー、ゲノム領域などに基づく)遺伝子リストの作成
・(機能に基づく)遺伝子解析、発現解析

PANTHERで用いられるツール
・機能、pathway、種などに基づき遺伝子一覧を表示できるbrowser
・48生物種のwhole genome sequenceから得られたタンパク質の系統樹browser
・新たな生物種のsequenceから遺伝子を機能に基づき分類するのに使うHMMを提供しscoreを表示するツール
・機能分類により明らかになったpathwayのbrowser?
PANTHER独自のontologyを加えたGO
・発現解析ツール
SNPsコーディングによる進化学的解析ツール


動画の方針は発現解析ツールとしてPANTHERがどのように使えるかとする。
発現解析にはDAVIDやGSEAがある。
DAVID http://togotv.dbcls.jp/20090925.html#p01
GSEA http://togotv.dbcls.jp/20100723.html#p01 http://togotv.dbcls.jp/20100830.html#p01
次回勤務では実データセットを各々に投げて比較を行なっていくことにする。

色々使える機能が多すぎてどこを紹介するか悩みましたが以上の方針で動画の作成を行なっていきます。
本日はここまでです。お疲れ様でした。

DDBJ BioProject調査

こんばんわ。今日から新しい動画作成に向けたネタ探しを行なっています。

チケット117番のPANTHER http://www.pantherdb.org/ とか面白そうです。

これの調査に入る前に…ちと何日か前にDDBJ版のBioProjectのtweetを見かけたので、そろそろ紹介時なのか?多分そんなことないだろうけど一応…wと思ってDDBJ版BioProjectの調査を先に行いました。

5ヶ月ほど前にチケットはあったのですが様子見しつつ作成を考えるとのことだったので、今日はその様子見をした結果をこの日記に残しておきます。

以下調査ログ(言葉遣いひどいとこ&認識不足であろうとこがありますがそこはスルーでお願いします)

DDBJ BioProject http://trace.ddbj.nig.ac.jp/bioproject/index.shtml

昨今、大型の研究プロジェクトが増えシークエンスデータなどの様々なデータを複数のデータベースに登録するようになっている。

そして、その大量のデータをどのプロジェクトが出したものなのかをまとめるDBが必要とされている。

BioProjectは研究プロジェクトが出した大量のデータをプロジェクト単位でリンクを貼り、まとめの役割を担うDBである。

BioProjectによってプロジェクトを通してデータをDB横断的に検索することができるようになる。

NCBIのbioproject http://www.ncbi.nlm.nih.gov/bioproject/
(NCBI版のBioProject紹介動画は→ http://togotv.dbcls.jp/20110805.html#p01 )
では提出先のデータベースがPubmed,Nucleotide(refseq)など豊富にあり横断検索ができる意義が大きい。

また、プロジェクト登録数も約18000あり、プロジェクト間の繋がりも把握でき、充実されてきている。

一方、DDBJのBioProjectはDDBJの塩基配列データベース、Sequence Read Archive、Trace Archive以上3つのデータベースに登録されたデータをまとめるものになっている。

プロジェクト登録数はまだ30ほどで、また以下に挙げる諸々の疑問点等があるので今はまだ紹介する段階には無いと思われる。

以下疑問点などを列挙していく。
・横断検索できるDB先(まとめる対象になるDB)がNCBI,EBI,DDBJ各々で異なるのにアクセッションを共有すると各BioProjectデータベースごとに中身がガラっと変わることになる。それだと様々なDBを構築し、まとめる対象になるDBが多いNCBI,EBIのほうが中身が充実することになる。アクセッションを共有するならば、どのBioProjectデータベースからもNCBI,EBI,DDBJがもつDBを横断検索できるようにリンクを貼る必要が出てくるのでは…?

・次世代シークエンサーを使うようなプロジェクトはBioProjectに登録するように義務化しないと、現段階(運用開始から3ヶ月)でDDBJのBioProjectにあるプロジェクト数が30ほどではまだ…せめてNCBI,EBIに登録されているプロジェクトも表示できるようにすればプロジェクト数的にはマシになるのでは…?

・そもそも登録するプロジェクトの中身について、登録項目が他のBioProjectデータベースと異なっているので、先ほど書いたことは不可能??

・DDBJ BIoProjectのページに書かれている概要を読むとNCBIのBioProjectの概要説明にもある通りプロジェクトの階層構造(Umbrellaとprimary project)等の説明もなされているが、現在登録されているプロジェクトを見るとプロジェクトが何に分類されているのか明記されていないなど、概要と中身が異なっていてDDBJのBioProjectはよくわからない。

・登録する人にBioProjectがどういったものか理解してもらい、登録すべき項目を確実に登録してもらう必要もあり??

・とにもかくにもモヤモヤ感…下位互換というか互換すらされてないというのが正しいのか…


調査ログは以上です。

まぁ今回の勤務はまだ紹介しなくていいものを紹介しなくていいというために調査したといった形になりました(´・ω・`)

NCBIのBioProjectは結構好きなだけに凹みました。

んー。いずれいいものになると信じて今回は見送ることにします。うん(;_;

次回の勤務からは紹介されたよさげなデータベースを調査し、動画作成に持っていきたいところです。

今日もお疲れ様でした。

BioMart v0.8の動画up完了

こんにちわ。今月3度目の勤務となりました。

先月、今月と勤務時間が短いですが、来月からはもうちょい勤務ペースを増やせるかと思います。

今日の勤務ではBioMart v0.8の動画のupを音声付きで行いました。(月末掃除もしたよ)

今まで音声が無かったので、音声をつけるとなんだか変な感じがしますね。

ムズムズするというか…笑ってしまうというか…w

まぁしばらくしたら慣れることでしょう。

ただ、音声を付けてupしたまではよかったのですが、音声をつけたことによるバグ?

みたいなものが発生して、動画のダイジェストからの再生ができなくなってしまっています。

原因はいまだ不明、調査が行われています。

バグが発生しているので、解決法が見つかるまでは本家には音無しverがupされています。

youtubeのほうは特に問題が無いので、音有りverがupされています。

解決法が見つかり次第差し替え予定です。

up動画はこちら↓ Biomart v0.8を使ってIDから遺伝子情報を取得する

http://togotv.dbcls.jp/20120127.html

この動画ではBioMartリニューアルに伴い、様々な変更点や追加点を簡単な動作を例にして説明しています。




次回の勤務からは新しい動画の作成を行います。

ネタはまだ担当してるgoogle site(&統合グルメ)をやりこむか、

そろそろ作ってもいいかなぁと思っているDDBJ版のBioProject紹介のいずれかです。

次回勤務でDDBJ版のサイトをチェックした上でどちらを来月以降行なっていくか判断することにします。

本日は以上です。お疲れ様でした。