메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole Genome Sequencing Somatic Variant Analysis Pipeline

Bio-Express Somatic WGS Pipeline은 전장 유전체 시퀀싱 데이터로부터 체세포 변이를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력 데이터로 사용하고, 종양-정상 쌍 분석을 기반으로 하는 포괄적인 체세포 변이 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, Cutadapt로 어댑터 제거 및 품질 트리밍을 수행하고, BWA-MEM2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 BAM 형식의 정렬 파일을 생성합니다. 이후 GATK 파이프라인을 통해 중복 제거, 매핑 품질 평가, 그리고 저품질 read에 대한 필터링을 수행하며 모든 페어 정보가 일치하는지 확인합니다. SAMtools를 활용한 좌표 기준 정렬과 GATK MarkDuplicates를 통한 PCR 중복 제거를 거쳐, GATK BaseRecalibrator와 ApplyBQSR을 사용하여 알려진 변이 사이트 정보를 공변량으로 활용한 염기 품질 점수 재보정을 수행합니다. 재보정이 완료된 BAM 파일에 대해 먼저 포괄적인 품질 관리 및 샘플 검증 단계를 수행합니다. Somalier를 통한 샘플 관계 검증, SNPmatch를 활용한 변이-SNP마커 통합 분석을 통한 샘플 정체성 확인, VerifyBamID2를 통한 샘플 오염도 평가, 그리고 Mosdepth를 사용한 커버리지 분석을 통해 시퀀싱 데이터의 품질과 신뢰성을 종합적으로 평가합니다. 이어서 종양-정상 쌍 분석 단계로 진입하며, Conpair를 통한 Normal-Tumor 페어 적합성 검증과 교차 개체 오염 수준 추정을 수행합니다. 그 다음 Strelka2와 Mutect2를 통한 단일 염기 변이 및 삽입/결손 변이 검출을 병행하여 체세포 변이의 민감도와 특이도를 극대화합니다. 마지막으로 TINC를 통한 종양 순도 분석과 Manta를 사용한 구조 변이 호출, Canvas를 이용한 복제수 변이 분석으로 포괄적인 체세포 유전체 변화를 정량화하여 암 유전체학 연구와 정밀 의학에 필수적인 정보를 제공합니다. > 기본 참조 게놈: hg38 [중요] 샘플 유형 식별 방법: - 종양 조직 샘플: FASTQ 파일명에 "_T" 포함 필수 - 정상 조직 샘플: FASTQ 파일명에 "_N" 포함 필수 (예시) patient001_T_R1.fastq.gz # 종양 샘플, Read 1 patient001_T_R2.fastq.gz # 종양 샘플, Read 2 patient001_N_R1.fastq.gz # 정상 샘플, Read 1 patient001_N_R2.fastq.gz # 정상 샘플, Read 2
#wgs
#whole-genome sequencing
#somatic mutation
#tumor-normal pair analysis
#cancer genomics
#precision medicine

Single-Cell-RNA-Sequencing-Pipeline

Whole Genome Sequencing Germline Variant Analysis Pipeline

Bio-Express Germline WGS Pipeline은 전장 유전체 시퀀싱 데이터로부터 생식세포 변이를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력으로 사용하고, 개체 유전체 분석을 기반으로 허눈 포괄적인 생식세포 변이 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, Cutadapt로 어댑터 제거 및 품질 트리밍을 수행하고, BWA-MEM2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 BAM 형식의 정렬 파일을 생성합니다. 이후 GATK 파이프라인을 통해 중복 제거, 매핑 품질 평가, 그리고 저품질 read 필터링을 수행하며 모든 페어 정보가 일치하는지 확인합니다. SAMtools를 활용한 좌표 기준 정렬과 GATK MarkDuplicates를 통한 PCR 중복 제거를 거쳐, GATK BaseRecalibrator와 ApplyBQSR을 사용하여 알려진 변이 사이트 정보를 공변량으로 활용한 염기 품질 점수 재보정을 수행합니다. 재보정이 완료된 BAM 파일에 대해 먼저 포괄적인 품질 관리 및 샘플 검증 단계를 수행합니다. Somalier를 통한 샘플 관계 검증, VerifyBamID2를 통한 샘플 오염도 평가, 그리고 Mosdepth를 사용한 커버리지 분석을 통해 시퀀싱 데이터의 품질과 신뢰성을 종합적으로 평가합니다. 이어서 GATK HaplotypeCaller를 이용한 GVCF 파일 생성 및 GenotypeGVCFs를 활용한 표준 VCF 형태의 생식세포 SNV/Indel 변이 탐지를 실행합니다. 후속적으로 BCFtools를 적용한 종합적인 변이 통계 해석을 진행하며, Manta 도구를 통해 구조적 변이를 검출합니다. > 기본 참조 게놈: hg38
#wgs
#whole-genome sequencing
#germline mutation
#individual genomic analysis

Single-Cell-RNA-Sequencing-Pipeline

ChIP-seq Analysis Pipeline

Bio-Express ChIP-seq Analysis Pipeline은 크로마틴 면역침전 시퀀싱(Chromatin Immunoprecipitation Sequencing) 데이터로부터 단백질-DNA 결합 부위를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력으로 사용하고, 전사인자 결합 사이트, 히스톤 변형 영역, 크로마틴 구조 분석을 기반으로 하는 포괄적인 후성유전학적 결합 부위 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, FASTX-Toolkit을 사용하여 저품질 염기 필터링을 진행하고, Bowtie2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 SAM 형식의 정렬 파일을 생성합니다. 이후 전처리가 완료된 정렬 파일을 활용하여 후성유전학적 신호 분석 단계로 진입합니다. MACS2(Model-based Analysis of ChIP-Seq)를 통한 통계적으로 유의한 피크 호출을 수행하여 단백질-DNA 결합 부위를 정확히 식별하고, narrowPeak 형식으로 고해상도 결합 영역을 제공합니다. 최종적으로 Homer를 활용한 포괄적인 후속 분석 단계를 수행합니다. annotatePeaks 기능을 통해 검출된 피크의 게놈 위치 주석과 주변 유전자 정보를 제공하고, makeUCSCfile을 사용하여 UCSC 게놈 브라우저와 호환되는 bedGraph 형식의 시각화 파일을 생성하여 크로마틴 면역침전 신호의 게놈 전체 분포 패턴을 직관적으로 확인할 수 있습니다. > 기본 참조 게놈: hg38 [중요] 샘플 유형 식별 방법: - 컨트롤 파일: "CONTROL_"로 시작 필수 (자동 식별을 위한 필수 접두사) - 처리/ChIP 파일: 특별한 파일명 규칙 없음 (예시) CONTROL_input_R1.fastq.gz # 유효한 컨트롤, Read 1 CONTROL_input_R2.fastq.gz # 유효한 컨트롤, Read 2 ChIP_H3K4me3_R1.fastq.gz # 유효한 처리군, Read 1 ChIP_H3K4me3_R2.fastq.gz # 유효한 처리군, Read 2
#chip-seq
#protein-dna binding
#epigenomics
#tfbs
#transcription factor binding sites
#histone modification
#chromatin structure
KOBICian's Story
이 글이 공개될 월요일 무렵이면 저는 한국으로 돌아오기 위해 짐을 꾸리고 있을 것입니다. 저는 여행을 그렇게 즐기는 사람은 아닙니다. 무슨 일이든 계획대로 풀리지 않으면 스트레스를 많이 받는 성격 때문입니다. 이번 여행은 추석 연휴 동안 미국에서 직장생활을 하는 딸을 일 년 만에 만나서 같이 시간을 보내기 위해 며칠간의 연차 휴가를 덧붙인 특별한 여행이었습니다. 최근 환율도 너무 올랐고 외국에 대하여 우호적이지 않은 트럼프 행정부의 태도 때문에 입국 심사 과정에 혹시 차질은 없을지 걱정이 되었습니다. 설상가상으로 출국 직전까지 서울과 고양, 그리고 제주도를 오가면서 바쁜 업무를 소화하느라 혹시 비행기를 못 타는 일이 벌어지지는 않을지 많은 걱정을 하였습니다.다행스럽게도 모든 여정이 끝나가는 지금까지 별다른 사건은 벌어지지 않았습니다. 아직 귀국 비행기를 타기 전이라서 안전하게 여행을 다 마쳤다고 결론을 내리기는 어렵지만, ‘모든 걱정의 95%는 할 필요가 없다’는 말을 실감하였습니다. 우리가 걱정하는 일은 대부분 일어날 가능성이 거의 없거나, 이미 과거에 일어난 일이거나, 또는 어찌할 수 없는 영역에 있는 일이라서 걱정을 해 봐야 소용이 없기 때문입니다. 여행이란 어찌 보면 통제할 수 없는 알약 하나를 삶에 풀어 넣고 들이키면서 이를 즐기거나 심지어 성장의 동력으로 삼는 기회라고 말해도 크게 틀리지는 않을 것입니다. 날씨가 완벽하고, 공항 수속에서는 아무런 문제가 없으며, 숙소는 청결하고, 모든 것이 한 점 흐트러짐 없이 계획대로 흘러가는 경험만 한다면 그만큼 재미없는 여행이 또 어디에 있겠습니까? 저도 이번 뉴욕 여행에서 구글맵에 의존하여 현대미술관(MoMA)을 찾아가다가 잠시 길을 잘못 접어들었을 때, ‘파파라치 도그맨과 래빗걸’(Paparazzi Dogman & Paparazzi Rabbitgirl)이라는 공공미술 조각 작품을 우연히 만나는 행운을 누리기도 하였습니다. 우연이 가져다주는 뜻밖의 의미를 찾게 되는 것이지요. 영어 소통은 여행에서 접하는 여전히 어려운 문제입니다. 언어란 원칙적으로 통제 가능하지만 능통해지는 데에는 많은 시간과 노력이 들기 때문이지요. 브롱크스행 지하철이 갑작스러운 사정으로 다른 노선으로 우회한다는 안내 방송을 가까스로 알아듣고, 작년에 뉴욕을 방문하여 지하철에서 겪었던 얄팍한 경험―엄청나게 고생했다는 뜻임―을 동원하여 분기점 역에서 성공적으로 내린 뒤 그곳으로부터 목적지를 가기 위해 원래 계획에 없었던 센트럴파크를 서에서 동으로 가로지르며 정말 아름다운 경관을 감상하였습니다. 그러나 식당이나 카페에 가서 의사소통 문제로 좌절감을 느끼는 현실은 여행이 끝날 때까지 별로 바뀌지 않았습니다.인생이라는 잘 설계된 짐꾸러미에 내가 원하지 않으니 ‘우연’을 넣지 않을 수 있을까요? 아마 불가능할 것이고, 일부러라도 넣어야 한다는 것이 이번 글의 주제입니다. 생물학적 언어로 말하자면 우연은 변이와 같은 것이라고 생각합니다. 변이는 혁신의 원동력이자 피할 수 있는 생명의 속성입니다. 변이체는 지금 당면한 현실에 가장 적합한 형태가 아닐지도 모르지만, 다양한 변이를 시도할 때 변화하는 환경에 언젠가 적응하여 세상의 주류가 되는 날이 오게 됩니다. 종종 이방인이나 소외자가 세상에 혁명적 변화를 일으키는 일이 일어나는 것처럼요. 그렇기 때문에 인생이 너무 단조롭고 원하는 대로 술술 잘 풀린다는 생각이 든다면, 우연이라는 난수 발생기를 일부러라도 한번 돌려보아야 합니다. 이를 위해서 여행은 아주 좋은 선택이 됩니다.여행은 문화와 역사에 대한 시각을 넓히는 좋은 기회가 됩니다. 예를 들어 뉴욕시에는 화재 탈출용 철제 사다리(fire escape)를 외부에 갖춘 고풍스러운 주거용 건물이 아직도 많이 있는데, 이는 당시 법 규정을 준수하기 위해 설치된 것으로서 건물이 지어진 지 최소한 90년이 넘었음을 증명합니다. 원주민과 주류 이민자 및 사회적 약자를 포함하여 뉴욕이라는 도시를 형성하는 다양한 구성원의 권리와 문화를 존중하고 포용하려는 운동과 전시를 도시 곳곳에서 볼 수 있었습니다. 여행을 떠나기로 결심했다면 본인의 경제적 형편에도 잘 맞아야 하고, 세계와도 조화를 이루어야 합니다. 저개발국가의 싼 물가를 이용하여 호사를 누리는 여행을 생각해 봅시다. 우리가 그곳을 방문하여 돈을 쓰기 때문에 그들이 고용 상태를 유지하고 그 나라의 경제가 돌아가게 한다는 다분히 소비자적이면서 우월한 생각을 가질 수도 있습니다. 그러나 과도한 여행은 그 나라의 고유한 문화나 자연환경을 해치고, 그들을 저임금 관광 산업 종사자로 얽어매는 원인이 될 수 있습니다. 뉴욕시 지하철에 붙은 질서 유지 안내문에서 부주의하거나 무관심한 방문자(inattentive visitors)는 되지 말아 달라는 글을 보고 많은 생각을 하게 되었습니다. ‘관광객이니까 아무리 실수를 해도 용서가 되겠지’라는 안이한 생각은 잠시 접어두고, 전 세계에서 밀려드는 관광객을 상대하면서 무한한 인내심을 발휘하는 현지인에게 감사하는 마음을 가져야 할 것입니다. K-문화 신드롬 때문에 이제 한국을 찾는 외국 관광객도 급증하였습니다. 그들에 대하여 지나치게 배타적인 생각을 갖지 말고, 우리가 외국에 나가서 잘 대우받기를 기대하듯이 역지사지의 마음으로 한국을 찾은 외국인들을 대해야 합니다. ‘항구에 있는 배는 안전하지만, 그것이 배가 만들어진 이유는 아니다.’라는 멋진 말이 있습니다. 이 말은 인생에도 그대로 적용할 수 있습니다. 우연은 모험과 성장의 씨앗이 됩니다. 인생이라는 긴 항해에서 우연은 늘 예기치 못한 바람처럼 불어옵니다. 그 바람이 때로는 우리를 불안하게 하지만, 바로 그 순간이 새로운 방향을 제시해 줍니다. 항구를 떠나야 비로소 바다의 넓이를 알 수 있듯이, 익숙한 일상에서 벗어나야 세상의 다양함과 인간의 너그러움을 배울 수 있습니다. 이번 여행이 제게 가르쳐 준 것은, 안전함보다 더 소중한 것은 우연이 열어주는 성장의 가능성이라는 사실이었습니다. 그리고 십여 편의 유튜브 쇼츠가 추억으로 남았고, 이를 만드느라 동영상 편집 기술도 많이 늘었답니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,583

사용자

1,129

워크스페이스

91,339

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,343

    바이오프로젝트
  • 154,607

    바이오샘플
  • 2,387,126

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr