바이오 익스프레스
바이오 익스프레스(Bio-Express)는 더 나은 대용량 유전체 데이터의 분석을 위한
전산인프라 및 분석기술을 제공하는 클라우드 서비스입니다.
Bio-Express는 대용량 바이오 데이터의 저장·분석을 위한 전산 인프라 및 분석 기술을 보유하지 못한 국내 생명정보 관련 연구자들에게 무료로 제공되고 있습니다.
- 분석서버를 포함한 고성능 하드웨어, 미리 정의된 분석 프로그램·파이프라인을 클라우드 서비스 형태로 제공
- 서비스 개시('16.11) 이후, 150여 개 기관에서 3,160회 분석 서비스 사용
Bio-Express는 웹 기반의 사용자 친화적이고 직관적인 인터페이스를 구축하여 사용하기 편리합니다.
- 대용량 바이오 데이터의 효율적인 저장·관리·활용을 위한 하둡(Hadoop) 기반의 클라우드 컴퓨팅 빅데이터 플랫폼 자체 개발(특허 출원) 및 활용
- 대용량 데이터의 고속 업로드·다운로드를 위한 고속전송 솔루션(GBox) 개발 및 활용
왜 바이오 익스프레스인가
유전체 분석에 필요한 분석 기술을 이해하고 워크플로우와 프로그램에 대한 재사용이 가능하도록 공유 공개하는 정책을 지원함으로써, 모든 사람들이 자유롭게 Bio-Express 내 구성요소 및 자원들을 자유롭게 접근하고 활용하여 협업 및 분석 콘텐츠 재생산이 가능하도록 돕습니다.
Bio-Express 통합 분석 플랫폼
Bio-Express 고성능 인프라 시스템
바이오 익스프레스 유전체 빅데이터 분석환경
유전체 빅데이터 분석 및 생성을 위해 Bio-Express 에서 제공하는 모든 프로그램 도구 및 서비스를 자유롭게 이용 할 수 있습니다. 대용량 데이터를 신속하고 자유롭게 업로드하고 접근할 수 있으며, 직관적이고 시각적인 워크플로우 환경에서 개인의 데이터 및 다양한 공개 데이터 분석 소스들을 활용하여 고속 분석 실행 할 수 있습니다.
정교한 분석, 직관적인 인터페이스
사용하기 쉬운 컴포넌트 프로그래밍 인터페이스를 통해 사용자는 분석 병목 현상이나 리소스 제약에 관계없이 분석 파이프라인 모델을 디자인하고 분석 작업을 자동화할 수 있습니다. 공개 분석 파이프라인과 프로그램 제공은 유전체 빅데이터 분석에 대한 장벽을 낮추어 효과적이고 효율적으로 데이터를 분석 할 수 있습니다. 또한 빅 데이터 세트에 적용할 수 있는 알고리즘을 제공함으로써 빅데이터 분석에 대한 접근성을 향상시켰으며, Python, Bash, R의 내장 된 개발 환경을 통해 원하는 사용자 지정 알고리즘을 개발 할 수 있는 유연성을 지원하고 있습니다.
공개파이프라인/프로그램 접근방식
빠르게 진화하고 다변화되는 기술을 따라잡기 위해 새로운 기술들을 공개하고 공유함으로써, 최첨단 유전체 데이터 분석 기술을 유지시키고, 능동적인 연구자들과 소통을 지원하고, 유전체 데이터 분석 분야의 협업 환경 및 분석기술에 대한 접근성을 극대화 시킵니다.
Bio-Express 시스템은
Bio-Express (클라우드 기반 개방형 통합 분석 시스템)
WORKBENCH와 GBOX, GBOX-CLI 공개 분석 소프트웨어 플랫폼을 제공함으로써, 대용량 유전체 데이터 분석에 대한 자동화 및 관리 관제의 효율성을 극대화하고, 유전체 데이터 분석 개발과 유지관리의 편의성을 향상시켰습니다. 또한, 열악한 컴퓨팅환경에서도 워크플로우 개발과 유전체 데이터 분석 활동을 지원하기 위해 Bio-Express 웹 서비스에서도 대용량 유전체 데이터를 업로드하고 분석 파이프라인을 설계하고 실행할 수 있도록 웹 서비스 파이프라인 모델 디자인 서비스를 통해 접근성을 향상시키고 분석연구 생산활동을 개선하였습니다.
자동화된 플랫폼 활용 서비스는 과학 및 기술 분야의 빅데이터 분석을 위한 통합 분석 파이프라인의 자동화된 처리 기술을 개발함으로써 제공됩니다. 바이오 익스프레스는 최신 빅데이터 플랫폼을 기반으로 실행 중인 환경을 제공하여 빠른 데이터 처리 및 머신러닝 등 다양한 빅데이터 분석에 최적의 분석 환경을 제공합니다.
워크벤치는 클라우드 환경에서 실행되는 확장성이 높고 자유로운 워크플로우 개발 환경을 제공하며, 분석 작업 흐름 파이프 라인 서비스 과학화에 큰 데이터를 사용하고 배우고 자동화 기계를 제공합니다. 제공되는 다양한 분석 알고리즘을 사용하여 자동화된 분석 워크플로우를 개발할 수 있으며, 빅데이터 분석 기술을 사용하여 고성능 하이브리드 분석 파이프라인 개발 및 실행 환경을 제공합니다.
고성능 인프라 기반 과학 분야 빅데이터 분석 서비스검증된 분석 파이프라인을 기반으로 빅데이터 수집, 세분화, 분석 및 가시성과 같은 효율적인 데이터 분석이 가능합니다. 데이터 분석은 기존의 복잡한 코딩 기반 예측 시스템이 아닌 세분화된 분석 파이프라인을 통해 쉽고 간단하게 수행할 수 있습니다.
파일 크기, 형식, 전송 거리 또는 네트워크 상태에 관계없이 빅데이터 전송을 지원합니다. 수백만 개의 개별 파일 또는 대규모 데이터셋으로 구성된 빅데이터의 빠른 백업 및 자동 복제 기능을 제공합니다. 고속 전송을 위한 고품질 보안 기술을 사용하여 데이터 전송을 위한 보안 계층을 제공합니다.
대용량 빅데이터 분석을 지원하는 바이오익스프레스 인프라
Classification | Resource(total) | Specifications |
---|---|---|
Compute Nodes | CPU : 1,188cores |
|
Nodes : 33EA | ||
MEM : 12.4 TB | ||
STORAGE | Capacity : 2PiB | Large Capacity High-Speed Storage - File System : Lustre |
Interconnect Network | InfiniBand Mellanox ConnectX-6 200Gbps |
- 분석 작업 시 CPU : 6core
- Memory: 64GB 사용 가능
작업 별 자원 최대 활용 시
동시 200 건 분석 가능