COMPARATIVE_ANNOTATION#

이 모듈은 메타게놈 어셈블 게놈(MAG)의 비교 유전체 분석 및 기능 주석을 위해 설계된 metaFun 파이프라인의 일부입니다.

개요#

COMPARATIVE_ANNOTATION 모듈은 게놈 기능의 포괄적인 분석과 서로 다른 샘플이나 조건 간의 비교를 제공합니다. 이 모듈은 팬게놈 분석, 유전자의 기능 주석을 수행하고, 비교 유전체학을 위한a 시각화를 생성합니다. 핵심, 보조 및 고유 유전자를 식별하고, KEGG, VFDB, CARD, CAZymes, eggNOG 등 다양한 기능 데이터베이스로 이들을 주석 처리합니다.

**이 모듈의 주요 출력물은 통합 시퀀스 데이터베이스(HDF5 형식)**으로, INTERACTIVE_COMPARATIVE 모듈에서 대화형 탐색의 기반이 됩니다. 이 데이터베이스는 모든 주석, 유전자 서열 및 메타데이터를 연결하여 강력한 온디맨드 분석 및 시각화를 가능하게 합니다.

모듈 실행#

# 주석만 포함한 기본 사용법(권장)
(metafun) metafun -module COMPARATIVE_ANNOTATION -i genomes/ -m metadata.csv --samplecol 1

# 시각화가 포함된 대사 경로 분석 포함(정적 플롯을 생성하려는 경우)
(metafun) metafun -module COMPARATIVE_ANNOTATION -i genomes/ -m metadata.csv --samplecol 1 --metacol 2

# 특정 분석을 위한 매개변수 사용자 지정
(metafun) metafun -module COMPARATIVE_ANNOTATION -i genomes/ -m metadata.csv --samplecol 1 --pan_identity 0.8 --pan_coverage 0.8

권장 워크플로우

더 나은 성능과 유연성을 위해 두 단계 접근 방식을 권장합니다:

  1. 먼저 주석만 포함한 COMPARATIVE_ANNOTATION 실행(–samplecol만 지정하고 –metacol은 지정하지 않음)

  2. 그런 다음 metafun -module INTERACTIVE_COMPARATIVE -i results/path를 사용하여 결과를 대화식으로 탐색

이 접근 방식은 유용하지 않을 수 있는 대량의 정적 플롯 생성을 방지하고, 대화형 모듈은 데이터의 더 동적인 탐색을 가능하게 합니다.

모듈 작동 순서#

이 모듈은 다음 단계를 수행합니다:

  1. 게놈 준비: 입력 게놈 및 메타데이터 처리

  2. 유전자 예측: Prokka를 사용하여 각 게놈의 유전자 예측

  3. 팬게놈 분석: PPanGGOLiN을 사용하여 핵심 및 보조 유전자 식별

  4. 기능 주석:

    • KofamScan을 사용한 KEGG 직교 주석

    • VFDB를 사용한 독성 인자 감지

    • CARD를 사용한 항생제 내성 유전자 식별

    • dbCAN을 사용한 탄수화물 활성 효소 주석

    • eggNOG-mapper를 사용한 단백질 기능 예측

  5. 비교 분석:

    • skani를 사용한 게놈 유사성 계산

    • dRep를 사용한 게놈 중복 제거

    • 유전자 존재/부재 클러스터링 및 시각화

  6. 시퀀스 데이터베이스 생성: 모든 주석, 시퀀스 및 메타데이터를 연결하는 통합 HDF5 데이터베이스 구축(INTERACTIVE_COMPARATIVE에 중요)

  7. 시각화: 모든 주석에 대한 대화형 플롯 및 히트맵 생성

  8. 통계 분석: Scoary2를 사용한 유전자-특성 연관성 분석

매개변수#

${launchDir}은 metaFun을 실행하는 디렉토리로, 출력 기본 디렉토리로 활용됩니다.

매개변수

설명

기본값

참고

-i, --inputDir

게놈 파일이 포함된 입력 디렉토리

${launchDir}/results/metagenome/BIN_ASSESSMENT/bins_quality_passed

genome_selector_result.csv 출력 게놈을 사용할 수도 있음

-m, --metadata

메타데이터 파일 경로

필수

샘플 정보가 있는 CSV 또는 TSV 파일

--samplecol

샘플 식별자가 있는 메타데이터의 열

필수

게놈 파일 이름의 샘플 ID와 일치

--metacol

통계 분석을 위한 메타데이터의 열

선택 사항

지정하지 않으면 주석만 수행됨

-p, --processors

사용할 CPU 수

40

시스템 능력에 따라 조정

--module_completeness

KEGG 모듈 완전성 임계값

0.5

모듈이 완전하다고 간주하는 데 필요한 KO의 분수

--pan_identity

PPanGGOLiN 동일성 임계값

0.8

유전자 클러스터링을 위한 시퀀스 동일성

--pan_coverage

PPanGGOLiN 커버리지 임계값

0.8

유전자 클러스터링을 위한 시퀀스 커버리지

--kingdom

주석을 위한 왕국

bacteria

옵션: bacteria, archaea

--kofamscan_eval

KEGG KO e-값 임계값

0.00001

KofamScan 일치 임계값

--VFDB_identity

VFDB 동일성 임계값

50

독성 인자의 백분율 동일성

--VFDB_coverage

VFDB 커버리지 임계값

80

독성 인자의 백분율 커버리지

--VFDB_e_value

VFDB e-값 임계값

1e-10

독성 인자의 E-값 임계값

--CAZyme_hmm_eval

CAZyme HMM e-값 임계값

1e-15

CAZyme 검출을 위한 E-값 임계값

--CAZyme_hmm_cov

CAZyme HMM 커버리지 임계값

0.35

CAZyme 검출을 위한 커버리지 임계값

--run_drep

dRep 실행 여부

true

중복 제거를 건너뛰려면 false로 설정

--drep_ani

dRep ANI 임계값

0.995

아종 수준 중복 제거를 위한 평균 뉴클레오타이드 동일성 임계값

--drep_cov

dRep 커버리지 임계값

0.3

게놈 커버리지 임계값

--drep_algorithm

dRep 알고리즘

skani

ANI 계산을 위한 알고리즘

입력 및 출력#

입력#

  • 게놈 FASTA 파일(BIN_ASSESSMENT의 출력 폴더)

  • 샘플 정보 및 조건이 있는 메타데이터 파일(CSV 또는 TSV 형식)(GENOME_SELECTOR로 선택된 게놈 메타데이터)

출력#

  • 각 게놈에 대한 주석이 달린 유전자

  • 팬게놈 분석 결과

  • 기능 주석(KEGG, VFDB, CARD, CAZymes, eggNOG)

  • 게놈 유사성 행렬 및 중복 제거 결과

  • 비교 시각화(정적 및 대화형)

  • 유전자-특성 연관성 결과

  • 통합 시퀀스 데이터베이스(HDF5) - INTERACTIVE_COMPARATIVE 모듈에 중요

출력 디렉토리 구조#

출력은 ${launchDir}/results/metagenome/COMPARATIVE_ANNOTATION/ 아래의 타임스탬프가 있는 디렉토리에 정리됩니다:

출력 디렉토리 구조#
${launchDir}/results/metagenome/COMPARATIVE_ANNOTATION/YYYYMMDDHHMMSS/
├── selected_genomes/                     # 처리된 입력 게놈
├── prokka/                               # Prokka 유전자 예측   ├── [genome1]/
│      ├── [genome1].ffn                 # 뉴클레오타이드 시퀀스      ├── [genome1].faa                 # 단백질 시퀀스      ├── [genome1].gff                 # 게놈 주석      └── ...
│   ├── [genome2]/
│   └── ...
├── ppanggolin_result/                    # 팬게놈 분석 결과   ├── pangenome.h5                      # 팬게놈 데이터베이스   ├── gene_presence_absence.Rtab        # 유전자 존재/부재 행렬   ├── gene_count_matrix.tsv             # 유전자 카운트 행렬   ├── gene_families.tsv                 # 유전자 패밀리 정보   └── ...
├── annotation_results/                   # 모든 도구의 주석 결과   ├── kofamscan/                        # KEGG 직교 주석      ├── ko_matrix.csv                 # KO 존재/부재 행렬      └── KO_definition_GeneID_countgenomes.csv # KO 정의   ├── VFDB/                             # 독성 인자 주석      ├── pangene_vfdb_result.txt       # 원시 VFDB 결과      ├── gene_PA_VFDB_added.csv        # 독성 인자 존재/부재      └── gene_count_VFDB_added.csv     # 독성 인자 카운트   ├── CARD/                             # 항생제 내성 주석      ├── pangene_rgi_CARD_result.txt   # 원시 RGI 결과      ├── gene_PA_CARD_added.csv        # ARG 존재/부재      └── gene_count_CARD_added.csv     # ARG 카운트   ├── dbCAN/                            # CAZyme 주석      ├── db_can_out/                   # 원시 dbCAN 결과      ├── dbcan_HMMER_count_gene_PA_matrix.csv    # CAZyme 존재/부재      ├── dbcan_HMMER_count_gene_count_matrix.csv # CAZyme 카운트      └── ...
│   ├── ani/                              # 게놈 유사성 분석      ├── skani_fullmatrix             # 게놈 유사성 행렬      └── skani_ANI_dist.tsv           # ANI 거리 행렬   └── eggNOG/                           # 단백질 기능 주석      ├── eggnog_mmseqs.emapper.annotations       # eggNOG 주석      └── ...
├── visualization_results/                # 생성된 플롯 및 그림   ├── kofamscan/                        # KEGG 시각화      ├── column_*/                     # 메타데이터 열별 시각화      ├── KEGG_module_visualization_shiny/  # 대화형 KEGG 시각화      └── KEGG_module_completeness.csv  # 모듈 완전성 데이터   ├── VFDB/                             # 독성 인자 시각화      ├── heatmap_VFDB_gene_PA_*.pdf    # 정적 VFDB 히트맵      └── VFDB_interactive_*/          # 대화형 VFDB 시각화   ├── CARD/                             # 항생제 내성 시각화      ├── heatmap_CARD_gene_PA_*.pdf    # 정적 CARD 히트맵      └── CARD_interactive_*/          # 대화형 CARD 시각화   ├── dbCAN/                            # CAZyme 시각화      ├── heatmap_dbCAN_gene_PA_*.pdf   # 정적 dbCAN 히트맵      └── dbCAN_interactive_*/         # 대화형 dbCAN 시각화   ├── defensefinder/                    # 방어 시스템 시각화      ├── heatmap_defensefinder_*.pdf   # 정적 방어 시스템 히트맵      └── defensefinder_interactive_*/  # 대화형 방어 시스템 시각화   ├── ani/                              # 게놈 유사성 시각화      ├── column_*/                     # 메타데이터 열별 시각화      ├── heatmap_skani.pdf             # 정적 skani 히트맵      └── skani_interactive/           # 대화형 skani 시각화   └── scoary2/                          # 유전자-특성 연관성 결과       └── scoary_out/                   # Scoary 출력 파일
├── genePA_cluster/                       # 유전자 존재/부재 클러스터링   └── pcoa_plot_interactive.html        # 유전자 존재/부재의 PCoA 플롯
├── drep/                                 # 게놈 중복 제거 결과   ├── drep_output/                      # dRep 출력 파일   ├── dereplicated_genomes/            # 중복 제거된 게놈 파일   └── subspecies_clusters.tsv          # 아종 클러스터 정보
└── sequence_db/                          # 시퀀스 데이터베이스
    └── sequences.h5                      # 시퀀스의 HDF5 데이터베이스

실행 예제 및 결과#

metaFun 명령줄 실행 예제#

metafun_pipeline

결과의 대화형 시각화

COMPARATIVE_ANNOTATION을 실행한 후, 다음을 사용하여 결과를 대화식으로 탐색할 수 있습니다:

metafun -module INTERACTIVE_COMPARATIVE -i ${launchDir}/results/metagenome/COMPARATIVE_ANNOTATION/YYYYMMDDHHMMSS

이는 주석 탐색, 게놈 비교 및 사용자 정의 시각화 생성을 위한 대화형 인터페이스를 실행합니다.

시각화 예제#

이 모듈은 다음과 같은 다양한 시각화를 생성합니다:

  • 기능 프로필의 PCA 플롯

  • 유전자 존재/부재의 히트맵

  • 게놈의 계층적 클러스터링

  • 기능 풍부도 플롯

  • 게놈 유사성 네트워크

COMPARATIVE_ANNOTATION 모듈의 주요 프로세스#

프로세스

목적

입력

출력

prepare_genomes

분석을 위한 게놈 준비

메타데이터 파일, 입력 게놈 디렉토리

선택된 게놈 파일

create_metadata_summary

메타데이터 정보 생성

메타데이터 파일

열 요약 파일

run_prokka

유전자 예측

게놈 FASTA 파일

예측된 유전자 및 단백질

run_ppanggolin

팬게놈 분석

Prokka 출력

핵심 및 보조 유전자

run_panaroo

대체 팬게놈 분석

Prokka 출력

팬게놈 결과

run_genePA_cluster

유전자 존재/부재 클러스터링

팬게놈, 메타데이터

PCoA 시각화

run_kofamscan_annotation

KEGG 주석

단백질 시퀀스

KO 주석

run_kofamscan_visualization

KEGG 시각화

KO 행렬, 메타데이터

대화형 KEGG 시각화

run_VFDB_annotation

독성 인자 주석

단백질 시퀀스

독성 인자 식별

run_VFDB_visualization

독성 인자 시각화

VFDB 결과, 메타데이터

VFDB 히트맵 및 대화형 플롯

run_rgi_CARD_annotation

항생제 내성 주석

단백질 시퀀스

내성 유전자 식별

run_rgi_CARD_visualization

내성 유전자 시각화

CARD 결과, 메타데이터

CARD 히트맵 및 대화형 플롯

run_defensefinder_annotation

방어 시스템 분석

단백질 시퀀스

방어 시스템 식별

run_defensefinder_visualization

방어 시스템 시각화

Defense finder 결과, 메타데이터

방어 시스템 히트맵

run_dbCAN_annotation

CAZyme 주석

단백질 시퀀스

탄수화물 활성 효소 주석

run_dbCAN_visualization

CAZyme 시각화

dbCAN 결과, 메타데이터

CAZyme 히트맵 및 대화형 플롯

run_skani_annotation

게놈 유사성 계산

게놈 FASTA 파일

ANI 유사성 행렬

run_skani_visualization

게놈 유사성 시각화

Skani 행렬, 메타데이터

ANI 히트맵

run_eggNOG

단백질 기능 예측

단백질 시퀀스

상세 기능 주석

run_scoary2

유전자-특성 연관성

유전자 행렬, 메타데이터

통계적으로 유의한 연관성

</rewritten_file>