bwa 를 이용한 pairing 에서 감당되지 않는 많은 시간이 소요되는 현상(4~5일 경과까지 지켜봄)이 나타납니다.
자세히 현상을 확인해본 결과
데이터 자체가 Pair-end 의 두 쌍의 데이터가 현저하게 떨어져 (insert size) 맵핑이 될때 문제가 발생되는 것으로 보입니다.
(아마 이것은 로우 데이터 자체에 문제가 있는 경우가 아닌가 생각됩니다.)
자세히 보면,
bwa 는 한쪽 end 가 unmapped 된 경우 이를 사용자가 넣은 max insert size 로 보정하는 단계가 있는 것으로 확인됩니다.
이로써 전체 데이터의 mapping rate, properly paired rate을 향상 시키고 잇는 것으로 확인됩니다.
간단하게 테스트 결과
read1, read2 에 각각 25만개의 리드가 있을 경우 chr22 레퍼런스에 맵핑하여 확인결과
1. max insert size 로 보정하는 단계를 스킵 (-A 옵션) 시킨경우
==> 198999 mapped (3.98%), 18295 properly paired (0.37%) 로 나타나지만,
2. max insert size (500) 로 보정할 경우
==> 207601 mapped (4.15%), 37214 properly paired (0.74%) 로 나타났습니다.
이 단계를 스킵하게 되면 전체적인 맵핑 통계수치가 낮게 나타나지만 속도 측면에서 큰 효과를 볼 수 있습니다.
특히 이 경우 처럼 Pair-end 의 두 쌍의 데이터가 현저하게 떨어져 맵핑이 된 상태의 데이터는 이 단계를 스킵으로 결과가 떨어지지만, 이 단계를 거치게 되면 일주일(?) 이상 소요됩니다.
'Bioinformatics > Biological data analysis' 카테고리의 다른 글
[trio analysis] compound heterozygous (0) | 2012.03.13 |
---|---|
[Picard MarkDuplicates]Value was put into PairIntoMap more than once (0) | 2012.02.21 |
[hotspotter] hotspotter-1.2.1 설치 (0) | 2011.12.13 |
[gatk] Invalid sequence number 24 (0) | 2011.12.09 |
[base quality] Base Quality in BAM (0) | 2011.08.23 |