(급하신 분들은 노란색 하이라이트만 읽으셔도 됩니다.)
2024년, AI가 '단백질 구조 예측'의 혁신 공로를 인정받아 노벨상을 휩쓸면서, 세간의 주목을 받음.
- 2024년 10월 9일, 노벨위원회는 노벨 화학상 수상자로 데이비드 베이커 미국 워싱턴대 교수, 알파고 개발으로 유명한 구글 딥마인드(Deepmind)의 데미스 허사비스 CEO, 존 점퍼 디렉터를 선정
- 베이커 교수는 AI를 활용한 단백질 설계 모델 'RoseTTAFold'를 만든 공로를, 구글 딥마인드 팀은 AI로 수년이 걸리던 단백질 구조 예측을 몇 시간으로 줄여 지각변동을 일으킨 ‘AlphaFold’ 개발 공로를 인정 받음
- 위원회는 “베이커는 완전히 새로운 종류의 단백질을 설계하는 거의 불가능한 일에 성공했고, 허사비스와 점퍼는 단백질의 복잡한 구조를 예측하는 난제를 해결하는 인공지능(AI) 알파폴드 모델을 개발해 2억 개의 단백질 구조를 예측할 수 있게 됐다”고 덧붙임
https://www.donga.com/news/Economy/article/all/20241010/130186441/2
AI에 의한 단백질 구조 예측은 바이오/제약 산업에 혁신을 가져다 줄것으로 예상되는데, 이에 신약 개발 및 단백질의 설계에 AI가 어떻게 도입되고 있는지 살펴보고자 함.
신약 개발은 질병을 일으키는 특정 단백질을 타겟으로 하여 그 기능을 조절하는 약물을 설계하고 검증하는 과정임.
이 때 타겟에 약물이 작용하기 위해서는 타겟 단백질의 3D 구조 정보를 파악해야 약물이 결합할 수 있는 최적의 형태를 설계할 수 있음.
이는 마치 자물쇠(목표 단백질)에 맞는 열쇠(리간드)를 설계하는 것과 같으며, 약물이 단백질의 활성 부위에 정확히 결합할 수 있도록 함. 자물쇠를 열쇠로 열고 약물이 작용하도록 해야함
신약 개발을 위한 단백질 디자인 과정은 다음과 같음
- 목표 단백질 설정: 특정 질병과 연관된 단백질 선정 및 타겟 검증
- 단백질 구조 분석: 목표 단백질의 아미노산 서열 획득 및 3D 구조 예측
- 리간드 및 약물 설계, 스크리닝: 특정 단백질에 결합할 가능성이 있는 펩타이드나 단백질을 설계하기 위해 아미노산 서열을 생성
- 최적화 및 합성: 신약 설계 최적화 및 합성 경로 계획
- 전임상 및 임상 시험
신약을 개발하기 위해서는, 특정 질병과 연관된 목표 단백질을 설정한 이후 해당 단백질의 구조를 분석해야함
2. 단백질 구조 분석
단백질은 아미노산 서열이 물리적, 화학적 상호작용을 하며 가장 안정적인 구조를 찾아 3D 구조로 접히면서(folding) 형성됨
- 1차 구조 (Primary Structure): 아미노산 서열. 단백질은 아미노산이라는 작은 분자들이 긴 사슬 형태로 연결된 폴리펩타이드로 구성되며 이 아미노산 서열 자체가 단백질의 1차 구조임.
- 2차 구조 (Secondary Structure): 알파 나선(α-helix)과 베타 병풍(β-sheet). 아미노산 사슬이 수소 결합을 통해 형성하는 국소적인 구조. 이러한 구조는 폴리펩타이드 사슬이 부분적으로 접히거나 꼬이는 방식으로 형성됨.
- 3차 구조 (Tertiary Structure): 전체 입체 구조. 단백질의 전체적인 3D 형태로, 다양한 비공유 결합(예: 소수성 상호작용, 이온 결합, 반데르발스 힘)과 공유 결합(예: 이황화 결합)에 의해 안정화. 이는 단백질의 기능적 형태로, 각 단백질의 고유한 생물학적 기능을 수행하는 데 필수적임
단백질 구조의 분석은 (1) 먼저 목표 단백질의 아미노산 서열을 분석한 후 (2) 아미노산 서열을 바탕으로 단백질의 3차원 구조를 분석하는 과정임
단백질의 3차원 구조를 분석해야하는 이유는, 단백질의 생물학적은 기능은 아미노산이 특정 방식으로 접히면서 형성한 3차원 구조에 의해 결정되며, 신약을 개발하기 위해서는 질병을 일으키는 '목표 단백질'의 3D 구조(자물쇠)를 바탕으로 이와 결합할 수 있는 최적의 형태(열쇠)를 설계해야 하기 때문.
단백질 구조 분석의 첫번째 단계인 단백질의 아미노산 서열 분석은 기존의 실험적 방법을 통해서 규명 가능하며, 상대적으로 난이도가 낮았음. (몇주 ~ 몇달 소요)
- 목표 단백질의 아미노산 서열 획득은 유전자 서열 데이터페이스나, 실험적 방법을 통해 얻을 수 있으며 이 과정은 상대적으로 난이도가 낮음 (몇주~몇달 소요)
- 이 단계는 주로 생물학적 연구와 데이터 분석에 의존하므로, AlphaFold 등 AI의 직접적인 영향을 받지는 않는 영역임.
다만 문제는 아미노산 서열을 획득한 이후 3차원 구조를 분석하는 과정인데, 아미노산 서열이 어떠한 원리에 의해 3D로 접히는지는 너무 복잡해서 예측이 어려웠고, 실험적 방법(X선 결정학, 핵자기공명(NMR) 분광법 등)을 통해 아미노산 서열이 어떤 3D 모양으로 접혔는지 알아내는 데 (하나의 단백질 구조를 분석하는데)에는 1년 이상의 시간이 걸렸으며, 신약 개발의 큰 병목이 되었음.
그런데 AI의 발전에 의해 이러한 병목을 단숨에 해결하는 엄청난 기술이 등장함. 바로 2024년 노벨상을 수상한 Deepmind에서 개발한 AlphaFold, 또는 David Baker 교수(미국 워싱턴대, 2024년 노벨화학상 수상) 연구진의 RoseTTAFold.
- AlphaFold가 단백질 구조 예측에 사용한 방법은 다중서열 정렬(MSA) 방식으로, 동일 혹은 유사한 기능을 하는 다른 구조의 단백질들의 진화적 상관관계를 통해 아미노산의 상호작용을 학습하는 방식임
- RoseTTAFold는 3트랙 네트워크라는 신경망 아키텍쳐를 사용하며, 아미노산간 서열, 구조, 거리 정보를 학습하여 단백질의 구조를 예측함
- 정확도 측면에서는 AlphaFold > RoseTTAFold > 기존 방법론으로 측정됨 (CASP14 대회)
이 두가지 기술의 등장으로 인해 연구실이 1년이상 걸리던 단백질 구조 분석을 빠르면 몇초~몇분만에 더 높은 정확도로 수행할 수 있게되었으며, 이 공로를 인정받아 2024년 노벨상을 수상하게 된 것임.
3. 리간드, 약물 설계 및 스크리닝
목표 단백질의 3D 구조를 분석한 이후, 해당 단백질(자물쇠)과 잘 결합할 수 있는 리간드(열쇠) 및 약물을 설계해야함.
리간드 설계는 특정 단백질에 결합할 가능성이 있는 펩타이드나 단백질을 설계하기 위해 아미노산 서열을 생성하는 과정임.
기존에 주로 사용되던 약물 설계방식은 리간드 기반 약물설계(Ligand Based Drug Design, LBDD) 방식임.
- LBDD(Ligand Based Drug Design)는 기존의 리간드(즉, 이미 알려진 활성 화합물)의 정보를 바탕으로 새로운 약물을 설계하고 최적화하는 데 중점.
- 화합물의 생물학적 활성, 물리화학적 특성 등을 분석하여 유사한 새로운 화합물을 설계함
- 주로 QSAR(정량적 구조-활성 관계) 모델링을 통해 수행됨.
리간드의 설계에도 AI 기술이 도입되며 혁신을 일으킴. 리간드 설계에 도입된 기술은 'Diffusion Model' 임
- Diffusion Model은 Generative Model의 일종으로, 데이터로부터 점진적으로 노이즈를 추가하는 과정(Diffusion Process)과 이를 다시 복원하는 과정(Reverse Process)을 통해 새로운 데이터를 생성하는 모델임
- Diffusion Model은 최근 비지도 학습에 많이 사용되며, 특히 이미지 생성 task에서 높은 성능을 보이는 것이 드러남
즉, 그림에 노이즈를 추가했다가 이를 복원하는 것처럼, Diffusion Model을 통해 단백질의 3D 구조로부터 이와 잘 결합할 수 있는 리간드 구조를 복원하는 것을 학습시키고, 이를 바탕으로 목표 단백질의 분석된 3D 구조에 결합할 수 있는 리간드 구조를 설계하도록 하는 것임.
- Diffusion 모델은 de novo 설계(신규 단백질 설계)를 위한 강력한 도구로, 복잡하고 제약 조건이 많은 디자인 작업에 적합함
이와 같이 Diffusion Model을 통해 구조를 기반으로 약물을 설계하는 방식을 구조 기반 약물 설계(Sturcture Based Drug Design, SBDD)라고 함
- SBDD(Sturcture Based Drug Design)는 목표 단백질의 3D 구조를 활용하여, 해당 단백질과 높은 친화력으로 결합할 수 있는 리간드를 설계하는 데 중점.
- 단백질의 구조적 데이터를 사용하여 결합 부위를 분석하고, 그에 맞는 소분자를 설계하거나 기존 화합물을 최적화함.
- 딥러닝이나 Diffusion모델과 같은 AI 기술이 SBDD에 적용되어, 단백질 포켓에 조건화된 새로운 리간드를 생성하는 데 사용되는 추세.
- SE(3) invariant diffusion models는 새로운 단백질 백본을 생성하는 데 사용되며, 이는 자연에서 관찰되지 않은 새로운 기능성 단백질 구조를 설계하는 데 사용됨
Diffusion Model 외에도 GAN, VAE 같은 생성모델이 특정 기능을 가진 단백질 서열이나 구조를 데이터 기반으로 생성하는데 사용됨.
- GAN: 생성기와 판별기가 경쟁하며 고품질 데이터를 생성.
- VAE: 잠재 공간(latent space)을 학습하여 새로운 서열이나 구조를 샘플링.
이후 이처럼 약물을 설계하며, 가상 스크리닝을 통해 다양한 화합물을 테스트하여 가장 효과적인 리간드를 선별하게 되며, AI 도입으로 오랜 시간이 소요되던 리간드 설계 및 대규모 화합물 라이브러리를 스크리닝 과정을 대폭 축소할수 있게 됨.
- AlphaFold와 같은 AI 모델의 발전은 가상 스크리닝 과정도 가속화시킬 수 있게 되었으며. 이는 단백질-리간드 상호작용을 보다 정확하게 예측할 수 있게 되었기 때문
4. 최적화 및 합성
이후 선별된 리간드를 기반으로 화학적 변형을 통해 결합력과 특이성을 높이는 최적화 과정을 수행함.
이 과정에서 사용되는 AI 기술은 Protein MPNN (Message Passing Neural Networks) 기술임.
Protein MPNN은 특히 주어진 단백질 구조에서 최적화된 아미노산 서열을 설계하는 데 특화되어 있으며 계산 효율성이 뛰어남. 특정 영역(단백질 단량체 등)에서는 AlphaFold, RoseTTAFold보다 뛰어난 성능을 보임.
- ProteinMPNN은 단백질의 3D 구조(백본 구조)를 입력으로 받아 해당 구조에 적합한 아미노산 서열을 예측하고 최적화하는데 사용됨
- 이 모델은 그래프 신경망을 사용하여 단백질 구조의 복잡한 공간적 관계를 학습함.
- 화합물의 물리화학적 특성과 ADMET 특성을 예측하여 리간드 최적화를 지원함
- MPNN 기술은 단백질을 그래프로 표현하여 노드(아미노산)와 엣지(구조적 관계) 간의 상호작용을 학습하고, Message Passing 과정을 통해 최적화된 서열을 산출.
이처럼 신약 설계 최적화 과정도 몇개월 ~ 1년 이상 소요되던 과정을, AI를 통해 몇달 정도로 단축할 수 있게됨.
이후 임상 전 마지막 단계로서, 화합물의 합성을 위한 최적의 경로를 계획하고 실제로 합성하는 과정도 AI에 의해 몇달 → 몇주로 단축됨
5. 전임상 및 임상 시험
이 단계는 여전히 가장 시간이 오래 걸리는 부분으로 남아 있으며, 5년에서 10년 이상이 소요될 수 있음.
그러나 AI 기반 모델은 전임상 시험에서 약물 후보의 독성과 효능을 더 빠르게 예측하여 일부 과정을 가속화할 수 있음.
6. 마치며
결과적으로 이와 같은 AI 기술은 특히 단백질 구조 분석과 리간드 설계 및 스크리닝 단계에서 혁신을 가져와 신약 개발의 초기 단계를 크게 단축시키고 있음.
- AlphaFold와 RoseTTAFold는 주로 구조 예측에 중점을 두며, 이를 통해 다른 AI 접근법들이 활용할 수 있는 기초 데이터를 제공
- Diffusion 모델은 de novo 설계를 위한 강력한 도구로, 복잡하고 제약 조건이 많은 디자인 작업에 적합
- Protein MPNN은 주어진 백본 구조에서 최적화된 아미노산 서열을 설계하는 데 특화되어 있으며 계산 효율성이 뛰어남
- GAN과 VAE 같은 생성 모델은 창의적이고 기능적으로 유용한 새로운 단백질 서열이나 구조를 설계하는 데 강점을 보임
- 각 접근법은 목적과 응용 분야에 따라 선택적으로 사용되며, 종종 서로 보완적으로 결합되어 더 강력한 단백질 디자인 도구로 활용됨
앞으로 점점 더 빨리 점점 더 많은 블록버스터급 약물들이 속속 등장하게 될 것이며, 그동안 해결되지 않았던 의학적 난제들의 해결이 가속화 될것이 자명해보임.
이러한 과정에서 글로벌 빅파마들이 AI를 어떻게 활용하는지, 바이오/제약 산업의 패권이 글로벌 빅테크와 빅파마 사이에서 어떻게 재편될지를 눈여겨 볼 필요가 있음
'Tech.' 카테고리의 다른 글
HER2, EGFR 개요 및 TKI를 통한 항암제 개발 현황 (0) | 2024.11.24 |
---|