메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
여러분은 소프트웨어 개발이라고 하면 어떤 모습이 떠오르시나요? 청바지에 체크무늬 셔츠를 입은 개발자가 어두운 사무실에서 컴퓨터 앞에 앉아 카페인 음료와 담배에 의존해 밤을 지새우는 모습을 떠올리는 분들도 있을 것입니다. 정보화사업에서는 이러한 이미지에 가까운 분야가 바로 시스템 통합(SI, System Integration)이며, 이렇게 구축된 시스템을 유지·보수하고 관리하는 것이 시스템 관리(SM, System Management)입니다. 두 영역 모두 개발자가 중심이 되는 사업이지요. 앞서 「KOBICian’s Story 24호」에서는 IT 컨설팅을 다룬 바 있습니다. IT 컨설팅이 경영 중심으로 ICT 도입 방안을 제시하는 단계라면, SI는 그 방안을 실제 전산시스템으로 구현하는 과정입니다. 사전적으로 SI는 ‘사용자의 요구에 맞춰 소프트웨어·하드웨어·네트워크 같은 유형의 제품과 컨설팅·설계·유지보수 같은 무형 서비스를 통합하여 종합 전산 솔루션을 제공하는 사업’을 뜻합니다. 이는 다양한 자산들을 소프트웨어로 연결해 기업이나 기관의 환경에 맞는 시스템을 만들어내는 과정으로, 완성된 시스템은 전산 인프라로 활용됩니다. 이러한 전산시스템은 건물을 짓거나 다리를 놓는 것과 같이 대규모 인프라 구축으로 취급합니다. 따라서 예비타당성 조사를 거쳐 사업이 추진되며, 완성 후에는 감리를 통해 제대로 구축되었는지를 점검받습니다. 수억에서 수천억 원 규모로 진행되는 프로젝트도 흔하고, 수십에서 수천 명의 개발자가 짧은 기간에 동시에 투입되기도 합니다. 효율적인 진행을 위해 PM(Project Manager), PL(Project Leader)과 운영지원, QA(Quality Assurance) 인력 등을 배치하며 규모에 따라 PMO(Project Management Office)까지 구성해 표준화된 방법론과 개발프레임워크를 활용합니다. SI 사업에서 중요한 개념 중 하나가 ‘기능(function)’입니다. 특정 비즈니스 요소별로 정의된 기능의 개수와 난이도에 따라 사업비가 산정되며, 이를 FP(Function Point) 방식이라고 부릅니다. 따라서 개발자들은 제안요청서의 기능 요구사항과 비기능 요구사항을 구분하여 개발 범위를 예측합니다. 기능은 소프트웨어 개발과 직접 관련된 부분을 의미하고, 비기능은 그 외의 요구사항을 포함합니다. 단기간에 대규모 인력이 필요하다 보니 프리랜서 개발자도 많이 투입됩니다. 10억짜리 프로젝트에 20명이 필요한데 사업자가 회사 내 가용 인원이 15명 밖에 없다면 5명은 프리랜서 개발자를 고용합니다. 또한 사업 단계별로는 반드시 상세한 산출물 문서를 작성해야 하고, 최종 감리 단계에서는 이 산출물들이 꼼꼼히 검토됩니다. 대부분의 SI 사업은 고객사 내부 또는 근처에 마련된 대규모 임시작업장에서 합숙과 비슷한 형태로 수행됩니다. 그러나 많은 인력이 좁은 공간에서 장시간 작업하다 보니 근무 환경이 열악해 호흡기 질환에 시달리는 경우도 적지 않습니다. 이렇게 완성된 시스템은 이후 운영 단계로 넘어가며, 이 과정이 바로 SM 사업입니다. SM은 구축이 끝난 전산시스템을 장기간 유지·관리하는 사업으로, SI가 단기간의 과업이라면 SM은 중장기 과업이라 할 수 있습니다. 사업비 산정은 투입 인력 대비 기간(man/month) 기준으로 이뤄지며, 운영이 끊기지 않도록 공백 없이 이어지는 것이 특징입니다. SM에서는 새로운 기능을 추가하거나, 보안 패치를 수행하고, 장애가 발생하면 복구하며, 업무 환경의 변화에 맞춰 시스템을 수정하기도 합니다. 때로는 신규 게시판을 만드는 등 소규모 요구사항까지 대응합니다. 개발자들은 고객사에 상주하며 시스템을 직접 운영하는 경우가 많아, A사 소속이지만 B사로 출근해 B사의 업무만 하는 상황이 발생하기도 합니다. 이런 형태가 10년 이상 이어지는 경우도 있으며, 프로젝트 종료 후 곧바로 다른 고객사로 재배치됩니다. 이런 이유로 일부 기관에서는 SI는 외주로 맡기더라도 SM은 내부 인력으로 운영하기도 합니다. 조달청의 「2023 공공조달 통계연보」에 따르면, 국가·공공기관의 2023년 전체 정보화사업 사업비는 6조 7,431억 원 규모이며 이 중 SI는 약 1조 8,050억 원, SM은 약 2조 9,784억 원으로 SI와 SM 사업이 전체 정보화사업 규모의 약 71%를 차지합니다. 정부는 중소기업 지원 정책과 개발자 처우 개선 등을 통해 지속적으로 사업환경을 개선하고 있으며, 이에 전자정부 시스템의 수출도 꾸준히 증가하고 있습니다. 행정안전부와 한국지능정보사회진흥원에 따르면 2022년 전자정부 수출액은 약 5억 2,381만 달러로, 5년 연속 성장세를 이어가고 있습니다. 이는 국내 정보화사업의 경쟁력이 높아지고 있음을 보여줍니다. SI와 SM은 정보화사업의 양대 축이자 ICT 생태계를 움직이는 핵심 분야입니다. 대중적으로는 잘 알려지지 않았지만, 공공과 민간 모두에서 디지털 혁신을 뒷받침하는 기반 역할을 하고 있습니다. 앞으로도 개발자들의 전문성과 기업들의 역량이 높아져 세계 시장에서도 한국의 정보화사업이 더욱 빛을 발하기를 기대합니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,393

사용자

1,128

워크스페이스

91,314

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,175

    바이오프로젝트
  • 111,768

    바이오샘플
  • 2,373,611

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP