메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier
KOBICian's Story
친구 같은 AI를 표방하며 개발되어 많은 인기를 끌었던 대화형 챗봇 '이루다'가 무분별하고 정제되지 않은 편향된 데이터를 수집하고 학습하여 사용자에게 잘못된 내용을 제공하는 바람에 논란이 되어 결국 서비스를 중단한 사건이 있었습니다. 이 사례는 데이터의 수집도 중요하지만, 수집된 데이터를 품질관리하여 사용자에게 양질의 정보를 제공하는 것이 더욱 중요하다는 점을 보여줍니다.데이터 품질관리는 수집된 데이터의 정합성과 신뢰성 등을 높이기 위해 행하는 데이터 관리, 개선 활동을 말합니다. 데이터 품질의 목표를 설정하고, 그에 맞게 데이터 품질을 진단·개선하여 고품질 데이터를 유지하고 관리하는 일련의 과정입니다. 예를 들어 데이터를 식재료라고 한다면, 사용자가 이 데이터를 활용하는 것을 요리로 비유할 수 있습니다. 신선도가 떨어지거나 상한 재료를 활용하여 요리를 하면 맛있는 요리가 나올 수 없을 것입니다. 마찬가지로 정크 데이터를 수집하여 제공한다면 사용자는 제대로 활용할 수 없을 것이며, 그 시스템을 앞으로는 신뢰하지 않을 것입니다.데이터의 품질관리는 일회성으로 이루어지지 않기 때문에 지속적으로 관리할 수 있는 프로세스를 마련해야 합니다. 사전에 데이터 유형을 체계적으로 정의하여 그에 부합하는 데이터가 입력되었는지 점검하고, 내용에 일관성이 있는지, 모순된 데이터는 없는지, 중복된 데이터가 있지는 않는지 등을 전반적으로 판단할 수 있어야 합니다. 이처럼 데이터의 품질관리는 데이터의 생애주기 전반에서 데이터를 정확하고 신뢰할 수 있게 만드는 핵심 과정이라고 볼 수 있습니다.특히 바이오 분야의 데이터 품질관리는 그 데이터가 우리의 생명에 직접적으로 영향을 미칠 수 있어 중요도가 매우 높다고 할 수 있습니다. 낮은 품질의 유전자 시퀀싱 데이터를 사용한다면 오류가 있는 질병 모델을 생성할 수도 있으며, 이에 그치지 않고 후속 연구나 실용적 응용에도 영향을 미칠 수 있습니다. 그러므로 데이터 품질관리는 단순히 데이터를 관리하는 과정이 아니라, 연구과 응용의 성공 여부를 결정짓는 핵심 요소라고 할 수 있겠습니다.국가생명연구자원정보센터(KOBIC)에서는 국가 바이오 R&D 사업을 통해 생산된 바이오 데이터를 통합 수집·제공하기 위한 범부처 바이오 연구데이터 통합 플랫폼인 국가바이오데이터스테이션(K-BDS)를 운영하고 있습니다. K-BDS에 등록되는 연구데이터의 품질관리와 큐레이션을 위해 주요 바이오 빅데이터 분야인 단백체, 대사체, 화합물, 바이오 이미지 분야의 전문가 집단으로 구성된 데이터 품질선도센터를 운영하고 있으며 유전체와 나머지 분야는 KOBIC에서 수행하고 있습니다.K-BDS의 품질관리는 등록자가 입력 과정에서 시료 정보 또는 실험 내용이 형식에 알맞게 작성하였는지, 필수 입력 항목에 값을 모두 입력하였는지, 결과 파일 업로드는 하였는지 등을 시스템에서 자동으로 validation check를 하는 것으로 시작합니다. 이 과정을 통과하여 등록자가 데이터를 제출 완료한 후에는 품질관리자가 메타 데이터와 실 데이터 간의 내용이 일치하는지 직접적으로 확인하고 자체 개발한 데이터 품질 검증 파이프라인을 사용하여 파일의 오류 검사, 적정성 검사 등을 합니다. 마지막으로 동일한 데이터가 여러 번 중복적인 내용으로 작성되진 않았는지 확인하여 품질 검증을 완료하게 됩니다. 등록 완료 이후에도 데이터의 최신화와 보안 유지 등의 과정으로 제3의 연구자가 이 데이터를 신뢰하여 연구에 활용할 수 있도록 제공하고 있습니다.KOBIC은 이상의 과정에서 효율성을 높이기 위해 점진적으로 자동화와 인력 재배치를 실시하고 있으며, 매년 사이트 고도화를 통해 품질관리에 소요되는 시간을 줄임으로써 등록자에게 더 나은 서비스를 제공하려 노력하고 있습니다. 하지만 과제 종료 기한에 임박하여 데이터 등록이 몰리는 경향이 있어 운영에 어려움이 있기도 합니다. K-BDS에서는 최대 7일 안에는 품질관리를 완료하는 것을 원칙으로 하고 있습니다. 그러나 품질관리 과정에서 메타 데이터 또는 실 데이터에 수정 사항 또는 오류가 있다고 판단할 경우, 명확한 사유와 함께 등록자에게 반려하며 수정 후 재 등록을 요청하게 됩니다. 이처럼 예기치 않게 처리 기간이 길어질 수 있으므로 등록자는 시간의 여유를 갖고 등록을 진행해 주셨으면 좋겠습니다.품질관리 선도센터와 저희 KOBIC은 매년 표준등록양식의 개정, 홈페이지 개편, 품질관리 프로세스의 고도화 등을 통하여 데이터를 쉽고 편하게 등록하고 등록된 데이터를 믿고 사용할 수 있도록 부단히 노력하고 있습니다. 많은 연구자들이 미국 NCBI에서 제공하는 데이터를 사용하는 이유는 데이터의 품질을 믿을 수 있기 때문일 것입니다. K-BDS도 세계적인 데이터 저장소의 역할을 할 수 있도록 앞으로도 계속 노력할 것을 약속드립니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

5,644

사용자

990

워크스페이스

86,474

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 1,060

    바이오프로젝트
  • 90,128

    바이오샘플
  • 1,229,675

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8548
  • sangok@kribb.re.kr
TOP