Phylogenomics

phylogenetic tree : diagram showing inferred evolutionary relationship

chloroplast&mitochondria genome sequences are usually used to draw phylogenetic tree

It is because that they contain their own genome sequences and they are based on maternal inheritance

Moreover, their sequences are more short and simple than nuclear genome

<PRACTICE_draw phylogenetic tree using mitochondria genome>

1. NCBI에서 유전체를 genbank format으로 다운로드 받는다

2. 다운로드 받은 유전체에서 유전자들이 만들어내는 단백질 서열을 찾아 FASTA format으로 파일을 만든다

python2 Practice_41.py Are.gb > Are.fasta(각 genbank 파일을 가지고 12번 반복 작업)

12개의 각 유전체의 유전자가 만들어내는 단백질 서열 FASTA format 파일을 생성

3. Smi(query)의 단백질 서열을 기준으로 각 12개 FASTA format의 단백질서열을 pair-wise비교를 통해 best orthologous gene을 찾는다(blastp이용/ num_alignments 1/ outfmt 6/ evalue 1e-50)

12개 종의 단백질 서열을 blastp를 이용해서 pair-wise로 비교하고 결과를 blastp out으로 저장(11개의 파일생성)

>Smi.fasta.Are.fasta.blastp

4. Blastp output을 활용하여 모든 종에 보존되어 있는 유전자를 선발한다

python2 Practice_42.py >common_orthologous_gene.file

5. 비슷한 단백질 서열을 가지는 유전자들만 선별하여 각 유전자이름으로 FASTA파일을 작성한다

총 17개의 유전자 단백질 서열을 FASTA format으로 출력받는다

6. FASTA 파일들을 가져온 뒤, 각 파일별로 MEGA프로그램에 내장되어있는 MUSCLE alignment algorithm을 활용하여 mutiple sequence alignment를 수행한다

7. .fas로 확장자 변환 후 이어붙인 데이터를 가지고 MEGA프로그램의 UPGMA algorithm을 활용하여 phylogenetic tree를 작성한다

MEGA프로그램의 자세한 사용방법은 버전에 따라 다를 수 있기 때문에 적어두지 않았다.

필요한 때에 더 공부해서 자세한 사항도 적을 수 있도록.

note! 마지막 코딩부분에서 불러와야하는 두번째 파일이 무엇인지 잊어버렸다.... 큰일났다...봐도봐도 모르겠으니 우선 패스하고 다음에 수정하도록 하겠다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

쌓인 결과물