국가생명연구자원정보센터(KOBIC)

KOBICian’s Story

[제41호] K-BDS 품질관리의 최전선: 헬프데스크 담당자의 이야기

작성자 최진혁 (KOBIC 연구기사)
작성일2024-12-23 08:40:50
조회수29

친구 같은 AI를 표방하며 개발되어 많은 인기를 끌었던 대화형 챗봇 '이루다'가 무분별하고 정제되지 않은 편향된 데이터를 수집하고 학습하여 사용자에게 잘못된 내용을 제공하는 바람에 논란이 되어 결국 서비스를 중단한 사건이 있었습니다. 이 사례는 데이터의 수집도 중요하지만, 수집된 데이터를 품질관리하여 사용자에게 양질의 정보를 제공하는 것이 더욱 중요하다는 점을 보여줍니다.

데이터 품질관리는 수집된 데이터의 정합성과 신뢰성 등을 높이기 위해 행하는 데이터 관리, 개선 활동을 말합니다. 데이터 품질의 목표를 설정하고, 그에 맞게 데이터 품질을 진단·개선하여 고품질 데이터를 유지하고 관리하는 일련의 과정입니다. 예를 들어 데이터를 식재료라고 한다면, 사용자가 이 데이터를 활용하는 것을 요리로 비유할 수 있습니다. 신선도가 떨어지거나 상한 재료를 활용하여 요리를 하면 맛있는 요리가 나올 수 없을 것입니다. 마찬가지로 정크 데이터를 수집하여 제공한다면 사용자는 제대로 활용할 수 없을 것이며, 그 시스템을 앞으로는 신뢰하지 않을 것입니다.

데이터의 품질관리는 일회성으로 이루어지지 않기 때문에 지속적으로 관리할 수 있는 프로세스를 마련해야 합니다. 사전에 데이터 유형을 체계적으로 정의하여 그에 부합하는 데이터가 입력되었는지 점검하고, 내용에 일관성이 있는지, 모순된 데이터는 없는지, 중복된 데이터가 있지는 않는지 등을 전반적으로 판단할 수 있어야 합니다. 이처럼 데이터의 품질관리는 데이터의 생애주기 전반에서 데이터를 정확하고 신뢰할 수 있게 만드는 핵심 과정이라고 볼 수 있습니다.

특히 바이오 분야의 데이터 품질관리는 그 데이터가 우리의 생명에 직접적으로 영향을 미칠 수 있어 중요도가 매우 높다고 할 수 있습니다. 낮은 품질의 유전자 시퀀싱 데이터를 사용한다면 오류가 있는 질병 모델을 생성할 수도 있으며, 이에 그치지 않고 후속 연구나 실용적 응용에도 영향을 미칠 수 있습니다. 그러므로 데이터 품질관리는 단순히 데이터를 관리하는 과정이 아니라, 연구과 응용의 성공 여부를 결정짓는 핵심 요소라고 할 수 있겠습니다.

국가생명연구자원정보센터(KOBIC)에서는 국가 바이오 R&D 사업을 통해 생산된 바이오 데이터를 통합 수집·제공하기 위한 범부처 바이오 연구데이터 통합 플랫폼인 국가바이오데이터스테이션(K-BDS)를 운영하고 있습니다. K-BDS에 등록되는 연구데이터의 품질관리와 큐레이션을 위해 주요 바이오 빅데이터 분야인 단백체, 대사체, 화합물, 바이오 이미지 분야의 전문가 집단으로 구성된 데이터 품질선도센터를 운영하고 있으며 유전체와 나머지 분야는 KOBIC에서 수행하고 있습니다.

K-BDS의 품질관리는 등록자가 입력 과정에서 시료 정보 또는 실험 내용이 형식에 알맞게 작성하였는지, 필수 입력 항목에 값을 모두 입력하였는지, 결과 파일 업로드는 하였는지 등을 시스템에서 자동으로 validation check를 하는 것으로 시작합니다. 이 과정을 통과하여 등록자가 데이터를 제출 완료한 후에는 품질관리자가 메타 데이터와 실 데이터 간의 내용이 일치하는지 직접적으로 확인하고 자체 개발한 데이터 품질 검증 파이프라인을 사용하여 파일의 오류 검사, 적정성 검사 등을 합니다. 마지막으로 동일한 데이터가 여러 번 중복적인 내용으로 작성되진 않았는지 확인하여 품질 검증을 완료하게 됩니다. 등록 완료 이후에도 데이터의 최신화와 보안 유지 등의 과정으로 제3의 연구자가 이 데이터를 신뢰하여 연구에 활용할 수 있도록 제공하고 있습니다.

KOBIC은 이상의 과정에서 효율성을 높이기 위해 점진적으로 자동화와 인력 재배치를 실시하고 있으며, 매년 사이트 고도화를 통해 품질관리에 소요되는 시간을 줄임으로써 등록자에게 더 나은 서비스를 제공하려 노력하고 있습니다. 하지만 과제 종료 기한에 임박하여 데이터 등록이 몰리는 경향이 있어 운영에 어려움이 있기도 합니다. K-BDS에서는 최대 7일 안에는 품질관리를 완료하는 것을 원칙으로 하고 있습니다. 그러나 품질관리 과정에서 메타 데이터 또는 실 데이터에 수정 사항 또는 오류가 있다고 판단할 경우, 명확한 사유와 함께 등록자에게 반려하며 수정 후 재 등록을 요청하게 됩니다. 이처럼 예기치 않게 처리 기간이 길어질 수 있으므로 등록자는 시간의 여유를 갖고 등록을 진행해 주셨으면 좋겠습니다.

품질관리 선도센터와 저희 KOBIC은 매년 표준등록양식의 개정, 홈페이지 개편, 품질관리 프로세스의 고도화 등을 통하여 데이터를 쉽고 편하게 등록하고 등록된 데이터를 믿고 사용할 수 있도록 부단히 노력하고 있습니다. 많은 연구자들이 미국 NCBI에서 제공하는 데이터를 사용하는 이유는 데이터의 품질을 믿을 수 있기 때문일 것입니다. K-BDS도 세계적인 데이터 저장소의 역할을 할 수 있도록 앞으로도 계속 노력할 것을 약속드립니다.

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

[40호] 어둠 속에서 빛을 만나: 나의 잊을 수 없는 야간 다이빙 이야기

파도가 2~3미터까지 치는 거친 바다, 멀미로 뒤틀리는 속과 어지러운 머리를 부여잡고 있던 그날이 아직도 생생합니다. 2006년 여수 거문도에서의 첫 스쿠버다이빙 오픈워터 해양실습은 그렇게 시작되었죠. 출렁이는 배 위에서는 괴로웠지만, 역설적으로 바닷속으로 들어가자 오히려 평온함이 찾아왔습니다. 푸른 물속에서 느낀 그 고요함과 평화로움은, 마치 오랫동안 찾아 헤매던 무언가를 마주한 것 같은 특별한 감동으로 다가왔습니다.

다이빙을 시작한 초반 몇 년간은 멀미와의 싸움이었습니다. 다이빙 전날이면 어김없이 귀밑에 “키미테”라는 패치형 멀미약을 붙이고 잠들곤 했죠. 그래도 파도가 높은 날이면 배 위에서 진땀을 빼기 일쑤였습니다. 하지만 신기하게도 몇 해가 지나면서 자연스럽게 멀미가 사라졌습니다. 어쩌면 바다가 내 몸을 받아들여 준 걸지도 모르겠습니다.

스쿠버다이빙을 시작하게 된 계기는 아버지의 영향이 컸습니다. 제가 중학생 무렵부터 즐기시던 취미였기에, 아버지가 다이빙을 다녀오실 때마다 들려주시던 바다 이야기는 항상 신비롭고 궁금했습니다. 군대를 전역하고 아버지께서 “한번 배워볼래?”라고 물으셨을 때, 망설임 없이 고개를 끄덕였습니다. 아버지와 같은 취미를 공유한다는 것, 그것만으로도 충분히 의미가 있었으니까요.

저와 비슷한 시기에 아버지의 오랜 친구 분도 스쿠버다이빙을 배우셨습니다. 스쿠버다이빙은 기본적으로 2인 1조 버디 시스템으로 진행되는데, 한번은 셋이 함께 함께 입수했습니다. 수중에서 이동하던 중 아버지와 아저씨의 방향이 나뉘는 상황이 발생했고, 저는 순간적으로 고민이 되었습니다. 둘 중 누구를 따라가야 할지 망설이던 찰나, 저와 경험이 비슷한 아저씨 곁으로 가야겠다고 판단했죠. 둘 다 경험이 많지 않은 상태라 아저씨가 혼자가 된 것을 인지하는 순간 당황할 수 있을 것이라 생각했고, 그저 옆에 누가 있는 것만으로 안정되지 않을까 하였습니다. 다행히도 제 선택은 올바른 것이었습니다. 가족끼리도 자주 식사하는 자리를 갖곤 했는데, 앞선 일화를 이야기했을 때 아주머니께서도 고마워하셨던 기억이 납니다. 그때 저는 다이빙이 단순한 레저 활동이 아닌, 서로의 안전을 책임지는 진지한 활동이라는 것을 다시 한번 깨달았습니다. 그리고 가끔 느낍니다. 많을 일을 같이 하고 있는 고건환, 김재희 연구원이 저에겐 그때 아저씨 곁을 지키던 저와 같이 안정감을 주는 존재라는 것을...! 묵묵히 앞에서 끌어주고 뒤에서 밀어주며, KOBICian 으로서 한걸음 나아갈 수 있도록 말이죠.

단체별로 차이는 있지만 상급 라이선스를 취득하려면 필수로 이수해야 하는 스페셜티(특별 프로그램)가 있습니다. 앞서 거문도 해양 실습을 포함하여 몇 회의 다이빙을 통해 오픈워터 다이버 라이선스(태권도로 비유를 하자면 노란띠 정도??)를 취득했으며, 그다음 라이선스를 목표로 여수 학림도의 야간 다이빙을 경험했습니다. 이 야간 다이빙은 제 다이빙 여정 중에서도 있어 특별히 기억에 남는 경험 중 하나입니다(초급 강사 라이선스까지 취득).

수면 위로는 별들이 총총 떠있고, 수면 아래로는 우리의 수중랜턴 불빛만이 유일한 빛이었던 그날의 기억은 지금도 생생합니다. 배에서 입수할 때의 긴장감은 평소보다 몇 배는 더 컸습니다. 칠흑같이 어두운 바다로 뛰어드는 것은 새로운 도전이었으니까요. 사실 일몰 전에 시작해서 칠흑까지는 아니었지만 저에겐 그렇게 느껴졌답니다.

하지만 그 어둠 속에서 만난 바다는 낮과는 전혀 다른 모습이었습니다. 수중랜턴이 비추는 좁은 시야 안에서만 펼쳐지는 세상은 마치 우주를 탐험하는 듯한 착각을 불러일으켰습니다. 무중력 상태에서 떠다니는 듯한 느낌, 어둠 속에서 더욱 강조되는 고요함, 그리고 랜턴 빛에 반사되어 반짝이는 작은 플랑크톤들의 군무까지, 낮에는 전혀 보이지 않던 생물들이 밤이 되어서야 모습을 드러낸 것도 신기했습니다.

특히 인상적이었던 것은 랜턴을 끄고 잠시 멈춰 있을 때였습니다. 완벽한 어둠 속에서 느껴지는 고요함과 평화로움은 말로 표현하기 힘들 정도였습니다. 마치 이 세상과 완전히 단절된 듯한, 그러면서도 이상하게 편안함을 느꼈습니다. 때때로 멀리서 비치는 다른 다이버의 랜턴 불빛이 마치 먼 우주에서 반짝이는 별처럼 보였고, 그 순간만큼은 정말 우주 유영을 하는 듯한 착각이 들었습니다.

수심에 따라 차이가 크지만 보통 공기통(산소통이 아닙니다) 한 개로 40분 정도 다이빙이 가능한데 그날만큼은 시간이 더욱 특별하게 느껴졌습니다. 매 순간이 새로웠고, 모든 것이 신비롭게 다가왔으니까요.

그날의 특별함은 수중에서 끝나지 않았습니다. 숙소로 돌아와 나눈 대화는 더욱 즐거웠죠. 그날 갓 잡아 올린 싱싱한 생선으로 썰어둔 회와 구이, 제철 해산물에 소주 한 잔이 곁들여지니 이보다 더 완벽할 순 없었습니다. 낮과는 전혀 다른 바다를 경험한 감동이 채 가시기도 전에, 바다가 주는 또 다른 선물을 맛보는 기분이었달까요?

누군가 다이빙의 매력을 묻는다면, 저는 주저 없이 그날 밤의 이야기를 들려줄 것입니다. 어둠 속에서 느낀 고요함, 그 속에서 발견한 특별한 반짝임, 그리고 그 모든 순간을 함께 나눌 수 있었던 동료들과의 따뜻했던 그날 밤을......

작성자송왕호
작성일2024-12-15
조회수95

[39호] 슈퍼컴퓨터 이야기

슈퍼컴퓨터(Supercomputer)는 "현존하는 가장 빠르고 고성능의 컴퓨터 시스템"으로 정의합니다(출처: Oxford Languages). 이 용어는 1960년대 초반부터 사용되기 시작되었으며, 과학 연구, 기후 모델링, 군사 시뮬레이션 등 복잡한 계산 작업에 사용되면서 더욱 대중화되었습니다. 현재 "슈퍼컴퓨터"란 용어는 그 시대의 최첨단 기술을 적용한 컴퓨터 시스템을 의미하며, 성능 기준은 시간이 지나면서 계속 변화하고 있습니다.

최초의 슈퍼컴퓨터는 Stretch라는 별칭으로도 잘 알려진 IBM 7030(1960년)으로 성능은 약 1 MFlop/s(초당 메가플롭)입니다. 1 MFlop/s는 이론 성능이며, 1초 동안 1,000,000번의 부동소수점 계산을 할 수 있는 성능을 의미합니다. 여기서 이론 성능은 "(코어) × (클럭 속도) × (부동소수점 연산 개수)"로 계산됩니다. 1989년 발표되어 PC에서 널리 쓰인 인텔 80486 프로세서의 성능이 이미 1 MFlop/s를 넘겼고, 2010년 출시된 삼성 갤럭시 S 스마트폰에 쓰인 허밍버드 S5PC110이 200 MFlop/s의 연산 속도를 달성할 수준이 되었으니 기술의 발전 속도는 정말 빠릅니다.

2024년 11월 기준 현재 가장 빠른 슈퍼컴퓨터는 2,746.38 PFlop/s(초당 페타플롭)로 최초 슈퍼컴퓨터보다 3조 배 이상 빨라졌습니다. 이러한 급격한 성능 향상은 CPU 제조 기술 발전, 병렬처리 기술도입, 복합 프로세서(FPGA, GPU 등) 사용 등 다양한 기술 발전의 결과입니다.

전 세계 슈퍼컴퓨터 성능 순위는 매년 두 차례 발표됩니다. 첫 번째는 매년 6월 독일에서 개최되는 ISC(International Supercomputer Conference)이고, 두 번째는 11월 미국에서 개최되는 SC(Supercomputing Conference)입니다. 이때 이론 성능(Rpeak)뿐만 아니라 실측 성능(Rmax)도 같이 포함됩니다. 실측 성능은 LINPACK 벤치마크 프로그램을 사용하여 측정합니다. LINPACK이란 컴퓨터에서 수치 선형 대수를 처리하기 위한 소프트웨어 라이브러리(포트란으로 작성)로서 1970~1980년대에 만들어졌습니다. LINPACK 수행 시 파라미터 값(문제 크기(N), 블록 크기(NB), 프로세스 수(P,Q) 등)에 따라 성능이 달라지기에 최적의 값을 찾아 수행해야 합니다. 실측 성능은 이론 성능의 약 50% ~ 80% 수준이며, CPU가 아닌 복합 프로세서(FPGA, GPU 등)가 많이 장착된 시스템일수록 이론대비 실측 성능도 낮아집니다. 또한 메모리 대역폭, 네트워크 속도, LINPACK 벤치마크 최적화 등으로 실측 성능값은 달라질 수 있습니다.

슈퍼컴퓨터의 공식 순위는 TOP500 사이트(https://top500.org/)에서 확인할 수 있으며, 올해 우리나라에서는 13개의 시스템이 리스트에 등재되었습니다. 11월 발표된 리스트에 의하면 세종(네이버, 40위), 카카오클라우드(카카오, 41위 및 87위), SSC-21(삼성전자, 48위), 타이탄(SK텔레콤, 63위), 구루와 마루(기상청, 73위 및 74위), 누리온(KISTI, 91위) 등입니다.

TOP500 사이트에는 LINPACK 벤치마크로 수행한 성능 측정 리스트뿐만 아니라, HPCG(High-Performance Conjugate-Gradient) 벤치마크로 수행한 리스트도 존재합니다. LINPACK 벤치마크의 경우 슈퍼컴퓨터의 부동소수점 연산 성능을 측정하는데 적합하여 1993년도부터 널리 사용되어 왔습니다. 그러나 과학 및 공학 응용 프로그램에서는 희소 행렬과 메모리 대역폭, 데이터 접근 패턴 분석이 더 중요한 경우가 많고, 그에 적합한 슈퍼컴퓨터를 구축하였을 것입니다.

LINPACK과는 달리 HPCG 벤치마크는 메모리 대역폭, 데이터 접근 패턴, 통신 성능 등 실질적인 HPC(Hardware Performance Computing) 문제를 평가하는 방식을 사용하기 때문에 LINPACK 벤치마크 한계를 보완하고 있습니다. 또한 HPCG 벤치마크를 수행하여 나온 성능 측정값을 2017년도부터 TOP500에 별도로 발표하고 있습니다. 이에 따르면 2024년 11월 현재 KISTI의 누리온(38위) 한국 슈퍼컴퓨터 중에서는 가장 빠릅니다. 향후 TOP500 성능 측정 기준이 LINPACK 벤치마크에서 HPCG 벤치마크로 변경 가능성이 있습니다.

KOBIC에서 보유하고 있는 시스템은 어느 정도 성능을 가지고 있는지 알아보겠습니다. 2015년에 측정 했을 때 이론 성능 65TFlop/s, 실측 성능 48TFlop/s이 나왔습니다. 참고로 2015년 TOP 500에 500위 시스템은 160TFlop/s이며, 당시 우리나라가 보유한 9개의 시스템이 등록되었습니다. 2024년에는 이론성능 113TFlop/s, 실측 성능 85TFlop/s 이라는 값을 얻었습니다. 이는 2015년 대비 약 1.73배 향상된 수치입니다.

KOBIC에 슈퍼컴퓨터와 스토리지는 ISC(International Supercomputer Conference)와 SC(Supercomputing Conference)에서 발표된 시스템을 참고하여 시스템 성능과 안정성을 향상시키고 있으며, 기회가 된다면 슈퍼컴퓨터 순위 TOP500(https://top500.org/) 또는 스토리지 성능 순위 IO500(https://io500.org)에 등재하도록 노력하겠습니다.

작성자윤종철
작성일2024-12-09
조회수292

[제38호] 달러 패권의 주요 사건과 시사점(2) - 무역수지와 엔화

1편에서는 달러가 어떻게 전 세계 사람들 손에 쥐어졌는지, 화폐전쟁에서 달러 패권을 확보하기 위해 미국은 어떤 노력을 했는지 역사적 맥락에서 살펴보았습니다. 그렇다면 다른 나라들은 미국이 원하는 대로 시스템을 설계하도록 가만히 두었을까요? 당연히 그렇지 않습니다. 1편에서 말씀드렸듯이 동아시아의 두 나라가 미국 패권에 도전했습니다. 바로 일본과 중국입니다. 두 나라의 도전 방식은 서로 조금 달랐습니다. 일본은 2차 세계대전 이후 1960년대부터 전자·자동차 산업에서의 기술 경쟁력을 기반으로 달러 패권에 도전했으며, 중국은 일본의 실패 사례를 학습해 다양한 방법을 시도해 왔습니다.

먼저 일본입니다. 필자는 일본의 버블경제를 경험하지 못했습니다. 직접경험을 포함해 뉴스를 통해서도 접하지 못한 세대인데요. 독자 여러분들은 어떠신가요.

위 이미지는 1989년과 2024년의 전 세계 기업 시가총액 Top 10을 보여줍니다. 무려 6개의 기업이 일본 기업이고, 1위부터 4위까지는 은행임을 알 수 있습니다. 어떻게 이런 일이 벌어지게 된 것일까요? 1편에서 말씀드렸던 브레턴우즈 체제가 끝나고, 전 세계는 국가 신용에 기반한 화폐발행(변동환율제)을 실시합니다. 미국은 달러의 발행을 급격히 늘렸고, 이는 인플레이션(화폐가치 하락=물가 상승)을 유발합니다. 1981년 미국 중앙은행은 높은 물가 잡기를 위해 기준금리를 19%까지 올리며 경제를 의도적으로 망가뜨리는 선택을 합니다. 대출 이자를 갚지 못한 미국 중소기업들은 파산하기 시작했고, 높은 이자율의 미국채를 사기 위해 전세계 달러 수요가 폭발했습니다. 달러의 초강세는 미국의 수입 물가를 낮추게 됩니다.

이 틈을 전자·자동차 산업에서 기술적 우위에 있던 일본과 서독이 침투하게 됩니다. 상상해 보시죠. 만약 우리나라에서 벤츠 E클래스와 렉서스 ES300h가 3천만 원 밖에 하지 않는다면? 현대자동차는 파산을 할 것입니다. 일본과 서독은 기술적 우위와 환율을 등에 업고 엄청난 대미 무역흑자를 기록하게 됩니다. 미국은 오랜 시간 공들여 만들어놓은 시스템을 지속적으로 운영하기 위해 무역적자를 두고 볼 수만은 없었습니다. 이에 1985년 미국은 서독과 일본을 불러내서는 합의라 쓰고 협박이라고 읽는 그 유명한 ‘플라자 합의’를 이끌어 냅니다. 본 합의의 주요 내용은 ‘엔화 절상’입니다. 이 합의 이후, 1985년 250정도였던 달러-엔 환율이 1988년까지 약 120까지 떨어집니다. 이렇게 되면 위에서 3천만 원짜리 벤츠와 렉서스가 6천만 원이 됩니다. 일본 제품은 가격 경쟁력을 잃으며 소비자의 선택을 덜 받게 되고, 이는 미국의 무역적자 완화로 이어집니다. 일본은 수출의 많은 부분을 담당하던 미국의 수요를 잃게 되고, 경제성장의 전략을 내수 부양으로 전환합니다. 사실 내수 부양 요구도 미국의 1987년 루브르 합의를 통해서 반강제로 시행하게 됩니다. 미국은 일본에게 엔강세(낮은 수입 물가)와 낮은 금리(대출부담 완화)를 통해 미국에서 줄어든 만큼의 전 세계 수요를 일정부분 분담해 주길 원했기 때문입니다.

일본은 1987년부터 루브르 합의에서 약속한 내수 부양을 위해 금리를 낮추고 부동산 대출 규제를 완화하기 시작합니다. 엔화의 강세 속에서 수입 물가 또한 낮아졌기 때문에 사람들은 뒤돌아보지 않고 소비하기 시작합니다. 낮은 이자비용으로 조달한 엔화로 사람들은 일본 주식과 부동산을 사들이기 시작했습니다. 자산가치의 상승으로 인해 일본 기업의 주가는 계속해서 오르게 되었고, 그 결과 위에서 보신대로 전 세계 시가총액 Top 10에 일본 기업이 6개나 포진하게 되는 결과를 가져오게 됩니다. 거품은 어느 순간이 되면 터지기 마련입니다. 일본의 자산 거품은 1990년 12월 일본 은행이 기준금리를 6%(1988년 9월 2.5%)까지 올리게 되면서 꺼지게 됩니다. 너무 급격한 자산가치의 하락은 일본 국민에게 큰 상처와 트라우마로 남았습니다. 소위 일본의 ‘잃어버린 30년’이라는 표현은 이때부터 시작됩니다.

무역수지를 통한 일본경제의 팽창과 엔화의 도전은 이렇게 마무리됩니다. 지금 돌이켜 보면 미국의 노골적이고 반강제적인 합의 요청이 받아들여졌다는 게 신기하기도 하면서, 이면으로 대중에게 알려지지 않은 어떤 거래가 있지는 않았을까라는 생각이 듭니다. 그만큼 일본으로서는 받아들이기 어려운 요청이었으니까요. 글을 쓰다 보니 길어집니다. 3편에서는 중국의 도전을 말씀드리며 달러 패권 이야기를 마무리하겠습니다.

작성자박강민
작성일2024-12-02
조회수106