fastq

fastqのトリミングがうまくいかず、学会から帰ってきた後苦悩していました。これぞ初心者の醍醐味。

何をしたかったのかというと、これまであまり考えずにやっていたfastqトリミング (CLC genomics workbench上でのマッピング用)を、いざ他のパッケージにインプットする前処理としてやろうと思うと、どうもうまく動かないのでどうしようかしらということ。

CLCはトリミングの後にfastq形式で保存できるんですが、このリードをそのままbowtie2に使おうするとクオリティと塩基の文字数が違うぞボケェとか言われたわけです。もちろん理由は不明。

・まず、fastqファイルを評価できるようにする
どうやらfastQCというのがスタンダードらしい
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

いつもの如くダウンロードした後、

$sudo mv fastqc_v0.10.1.zip /usr/local/src
$sudo unzip /usr/local/src/fastqc_v0.10.1.zip
$sudo chmod 775 /usr/local/src/FastQC/fastqc
$sudo ln -s /usr/local/src/FastQC/fastqc /usr/local/bin/fastqc
$fastqc

これでファイルを選択できるツールが開く。なんとなくWindowsによくあるツールっぽいので、とてもわかりやすい感じ。

fastqファイルをいろいろ操作するお役立ちツール
FASTX-Toolkit
http://hannonlab.cshl.edu/fastx_toolkit/index.html

同じくダウンロード後、
$sudo mv fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2 /usr/local/src
$sudo tar -xjf fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2

とすると、ディレクトリにbin/ができあがり、この中にたくさんツールが入っている。これを全部/usr/local/bin/に移すもよし、このディレクトリにパスを通すもよし、と。

それぞれできることが微妙に違う。正直、使いにくいっていうかめんどくさそうです。

smrtanalysisインストール 11

以前インストールしたときは息をしていなかったSMRTanalysisちゃんは少しだけ動きました。

替えた部分と言えば、さっぱりわからなかったJob management systemのところ(以前の状況はこちら)で、「None」としてスルーしていた部分を「PBS」とし、いかにもわかったふりをしただけだった(と思う)のですが、見事Adminisitratorの登録に成功、テストラン用のリードファイルもロード完了できました。

テストランについてはこれまた以前と同じインストレーションの説明文、Step6を参照↓
https://github.com/PacificBiosciences/SMRT-Analysis/wiki/SMRT-Analysis-Software-Installation-v2.1

14まではスムーズに行ったのですがここで速攻エラーをくらったので、やはりJobなんちゃらがわからないと無理だろうと思い、メーカーの方に教えを乞うたところ、ジョブエンジンを無効にすれば良いとのことでさっそく実行。

なんかキタ―――(゚∀゚)―――― !!

初期化後まとめ

1. DVDに焼いたCentOS6.5から立ち上げ→インストール開始。
参考にしている(というかマネしている)のは、遺伝研の講習会。
http://www.genome-sci.jp/seminar201311.html
Linuxサーバの構築」を丸パクリ。少し変えたのは、
・使用言語を英語にした。
Mysqlにチェックを入れた。(あとでSMRTanalysisで使うので)
・日本語サポートを加えた。(文字化けする気がしたので。日本語サイトが読めないとヒントが入手できなくなって死ぬ)

インストール後、
2. 自分のアカウントをsudoユーザーにする。
3. EPELインストール
4. yum -y update
5. httpd-develインストール(後のCPAN updateの時に怒られるので。これが何なのかはシラネ)
6. CPAN YAMLインストール(これが何なのかはシラネ)、その後update
7. ドメインネーム(etc/hosts)設定
8. yum install ntfs-3g (外付けHDDを認識してほしいので)
9. python2.7 altinstall
10. adduser smrtanalysis(後で使うので)

ちょー大変じゃないか。しかもこれで本当に大丈夫なのかどうかは自信無し。とりあえずこれまでインストールしたパッケージは(テストランでは)ちゃんと動いてるっぽい、としか言えません。今後さらに追加やら省略やら、いろいろ出てくるんだろうなという認識です。

初期化

これまでの経緯をノートにまとめ、OSを入れなおしました。これまでやったこと、半日でできた。これを進歩と捉えてよいのかどうかはわかりませんが。

次やりたいこと
・Pacbioデータを使いこなしたい
SMRTanalysisとSpraiのリベンジ。そろそろメーカーさんに問い合わせても許されるぐらい頑張ったと信じたい。

・バリエーション検出
最後の方でインストールを試しまくったツール系の実践。多分あちこち引っ掛かるんだろうな。あとPCのスペックがやばいかもしれない。

・本格的にRの勉強
とりあえず統計モデリングを使いこなせるようになりたいのでその勉強も兼ねて。難しいね。

SRA toolkit, BWA, SAMtools

まだまだ確認しておかなくてはいけないことがたくさん。なかなか初期化できません。

1. SRA toolkit
NGSデータはsra形式というものでデータベースに保管されているようなので、これを塩基配列(ふつうfastq形式)に変換するためにはこいつを使わなくてはいけない。

いつも通り、↓から/usr/local/src/にダウンロード、解凍。
http://eutils.ncbi.nih.gov/Traces/sra/?view=software

解凍されたディレクトリの中にはいろいろ入ってますが、とりあえず使いたいのはfastq-dumpだけです。これをコマンド的に使いたいところだけど、残念ながらパスが通っていないので、シンボリックリンクというのをパスの通っているディレクトリ(ここでは/usr/local/bin/)に作成。こうすると、/usr/local/bin/の中に新たにできたリンクを辿る形で大本のfastq-dumpが動くという寸法になるようです。

$ sudo ln -s /usr/local/src/sratoolkit.2.3.4-2-centos_linux64/bin/fastq-dump /usr/local/bin/fastq-dump
$ cd (sraファイルの入っているディレクトリ)
$ fastq-dump ***.sra

うまく動いていれば、***.fastqというファイルができあがる。ただ、ペアエンドの場合は1つのファイルに一纏めにされてしまうので、以下のようにする。

$ fastq-dump --split-files ***.sra

2. BWA
マッピングツールの定番。

いつも通り、↓から/usr/local/src/にダウンロード、解凍。
http://sourceforge.net/projects/bio-bwa/files/

解凍後、ディレクトリの中に入り、makeインストール。

$ cd /usr/local/src/bwa0.7.7
$ make

※後で使っていてわかったことですが、どうも0.7.5あたりから不安定っぽい。sampeを使ったときに変なエラーが出て止まります。0.6.2以前がいいかも。
↓参考
http://seqanswers.com/forums/showthread.php?t=31731

※さらに後でわかったことですが、どうもその前のバージョンでも同じようなエラーが出て止まることがあるらしい。これは元のリードファイルに依存するようだ。
↓参考
http://www.biostars.org/p/78452/

要はよくわからん\(^o^)/

bwaコマンドをさらっと使いたいので、同じくシンボリックリンクを作成。

$ sudo ln -s /usr/local/src/bwa0.7.7/bwa /usr/local/bin/bwa

これでどこからでもbwaをコマンド的に利用できます。

BWAの使い方(ペアエンド)
1. 準備するのはリファレンス配列(fasta形式)、リードファイル2つ(fastq)
2. リファレンス配列をインデックス化する

$ bwa index (リファレンス配列ファイル)

3. saiファイル作成

$ bwa aln (リファレンス配列ファイル) (リードファイル) > (テキトーな名前).sai

リードファイルが2つあるので、2回やらないといけません。
4. samファイル作成

$ bwa sampe (リファレンス配列ファイル) (テキトーな名前).sai (テキトーな名前2).sai (リードファイル) (リードファイル2) > (テキトー).sam

いやー大変。

3. SAMtools
出来上がったsamファイルは、多くの場合bamファイルに変換しなくてはいけないので、そのためのツールも必要。ただ、以前にbreseqをインストールした時に勝手にインストールされていたっぽいので、今回は必要なさそう。というか、バッティングを避けるためにも僕の場合は先にbreseqをインストールしてしまい、SAMtoolsについてはそれをそのまま使うことにします。もちろん、それがいいことなのかどうかはわからないのですが。

SAMtools
NGS Surfer's Wikiがわかりやすかった。
http://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=samtools
とりあえず、

・sam --> bam変換
$ samtools view -bS ***.sam > ***.bam
・bamのソート
$ samtools sort ***.bam ***
・BAM index作成
$ samtools index ***.bam

は覚えておく。

platanus試運転

おまけにもう一つ。

platanus Genome Assembler
http://platanus.bio.titech.ac.jp/

de novo assemblyをする機会が増えそうなので、動作確認。
サイトを見ると、binファイルでダウンロードできると書いてある。とりあえずダウンロードして、実行ファイルに変換後、binディレクトリに移動。

$ chmod 755 platanus
$ mv platanus /usr/local/bin

あとは実行するだけ。適当なNGSデータ(fastqファイル)を使ってランしてみた。

$ platanus assemble -f (fastq) 2>platanus_test


ファイルが4つ出てきた。
platanus_test
out_32merFrq.tsv
out_contigBubble.fa
out_contig.fa

中身はよくわかりませんが、それらしいものができている(気がする)ので良しとします。

さてそろそろ一旦初期化かなー。