신약개발을 위한 생성형 AI, 히츠의 분자 그래프 생성 모델

실제 신약개발 연구에서 활발히 활용되고 있는 히츠의 스캐폴드 기반 분자 생성 모델과 활용 사례를 소개합니다.
Jan 08, 2024
신약개발을 위한 생성형 AI, 히츠의 분자 그래프 생성 모델
💡
본격적인 인공지능(AI) 시대가 다가오고 있습니다. 이제 AI는 단순히 데이터를 분류하거나, 판별하는 것을 넘어 이미지, 음악 등 새로운 것을 창조하기도 합니다. 인간 고유의 영역이라 여겨지던 창조의 세계에 발을 뻗은 것입니다. 그럼 신약개발 분야에서의 생성형 AI는 어떤 것을 창조해 낼까요? 바로 분자(Molecule)입니다. 인간이 상상하지 못했던 분자 구조를 디자인하고 제안하는 AI가 탄생했습니다. 실제 신약개발 연구에서 활발히 활용되고 있는 히츠의 스캐폴드 기반 분자 생성 모델(Scaffold-based molecular generative model)을 소개합니다.

신약개발 분야 생성형 AI: 스캐폴드 기반 분자 생성 모델에 주목한 배경

분자 생성 모델은 딥러닝 기술을 이용하여 원하는 분자를 디자인하는 AI 기술입니다. 분자 생성 모델의 태동기에는 분자 구조에 대한 사전 정보 없이 원하는 분자를 한 번에 생성하기 위한 모델들이 주로 연구되었습니다.
이상적인 접근 방법이지만, 신약개발과 같이 매우 복잡한 과제에서 단 한 번의 시도로 분자를 디자인하는 것은 거의 불가능합니다. 무엇보다 약물 후보 물질을 디자인할 때 물성에 있어 핵심적인 역할을 하는 스캐폴드는 고정한 채 주위 분자 구조를 점진적으로 바꿔가는 방식이 효과적입니다.
이 단계에 생성형 AI를 활용하기 위해서는 생성된 분자의 물성과 분자 구조를 동시에 조절할 수 있는 분자 생성 모델이 필요합니다. 이에 히츠팀은 스캐폴드 기반 분자 생성 모델이라는 개념을 논문에서 발표하였고, 실제 연구 과제에 적용해 보며 기술의 실효성을 검증하기도 했습니다.
그림1. 골격기반 분자 그래프 생성모델 개념도 (reference: Chem. Sci., 2020,11, 1153-1164)
그림1. 골격기반 분자 그래프 생성모델 개념도 (reference: Chem. Sci., 2020,11, 1153-1164)
(논문을 발표할 당시만 해도 스캐폴드 기반 분자 생성 모델이라는 개념이 일반적이지 않았는데요. 저희 연구 이후로 이러한 개념이 보편화되어 널리 사용되고 있고, 다양한 후속 모델들도 제시되고 있습니다^^)

신약개발 분야 생성형 AI: 분자의 스캐폴드를 조절하기 위한 방법

선행 연구들의 경우 대개 생성된 분자와 기준 분자 간의 '유사도' 조절을 목적으로 합니다. 하지만 유사한 분자를 만드는 것과 원하는 스캐폴드를 갖는 분자를 만드는 것은 다릅니다. 분자 구조를 직접적으로 조절해야 하므로 후자의 난이도가 더 높습니다.
기존에는 latent space 상에서 기준 분자와 생성 분자의 거리를 조절하는 방식으로 유사도를 조절했지만, 생성된 분자의 scaffold를 고정할 수는 없다는 한계가 존재했습니다. 이 문제를 해결하고자 히츠팀은 스캐폴드에 원자와 화학결합을 추가하여 분자를 디자인하는 방식을 고안하였습니다. 이 방식에 따르면 생성된 분자는 항상 처음에 주어진 스캐폴드를 하위 구조로 포함하게 됩니다.
여기서 또 하나의 기술적 어려움을 극복해야 합니다. 이 아이디어는 Smiles 기반의 분자 생성 모델과 결합하기 어렵습니다. Smiles에서는 스캐폴드에 해당하는 부분이 반드시 연속되어 나오지 않기 때문입니다. 저희는 이 문제를 분자 그래프 생성 모델을 도입해 해결했습니다. 분자 그래프는 2차원이기 때문에 1차원인 Smiles와 달리 기존 구조에 새로운 부분들을 추가하면서 분자를 디자인하는 것이 가능합니다.

신약개발 분야 생성형 AI: 모델 구조 및 알고리즘

이 모델은 스캐폴드 그래프를 Input으로 받고, 주어진 스캐폴드를 포함하는 분자 그래프를 output으로 생성합니다. 생성된 분자 그래프는 쉽게 다른 표현형 (smiles, sdf, mol2)으로 변경할 수 있습니다. 세부 과정은 아래와 같습니다. (그림2 참조)
그림2. 골격기반 분자 그래프 생성모델의 분자 생성과정 모식도
그림2. 골격기반 분자 그래프 생성모델의 분자 생성과정 모식도
 
 
모델은 '원본 분자-스캐폴드'가 매칭되어 있는 데이터를 학습하여 스캐폴드로부터 원본 분자를 복원하는 방법을 배우게 됩니다. 이러한 학습 과정을 통해 모델은 주어진 스캐폴드를 하위 구조로 포함하여 유효한 분자를 만드는 법을 배웁니다.
만일 생성된 분자의 물성도 조절하고 싶을 경우 학습 과정에서 스캐폴드뿐만 아니라 분자의 물리적 성질도 Input으로 받게 됩니다. '(스캐폴드, 물성) → 분자' 이 관계를 학습하게 되는 것이죠.

신약개발 분야 생성형 AI: 활용 사례 및 결과

저희는 이 모델을 EGFR 저해제 개발 프로젝트에 활용했습니다. 먼저 ChEMBL에서 EGFR 관련 활성 데이터를 얻었습니다. EGFR은 수천 개의 보고된 활성 데이터가 있어서 데이터의 양이 많은 타겟에 속하지만, 수천 개의 데이터만으로 딥러닝 모델의 최적 성능을 얻기는 어려운데요. 저희는 준지도 학습(semi-supervised learning)을 이용해서 이 문제를 보완하였습니다.
준지도 학습은 라벨이 없는 대규모 데이터 (분자구조만 사용)를 사용하여 라벨 데이터 부족 문제를 보완해줄 수 있습니다. 다시 말해 라벨이 없는 대규모 데이터를 이용하여 분자를 디자인하기 위한 화학 규칙을 배우고 라벨된 데이터를 이용해서 EGFR에 대한 활성값을 조절한다고 이해할 수 있습니다.
모델을 학습시킨 후 실제로 분자를 생성하고 생성된 분자의 활성을 예측하여 모델의 성능을 평가하였습니다. 학습에 사용되지 않은 데이터 중 활성값이 1uM 이하 (pIC50<6)인 분자들의 scaffold를 추출하였고, 이 분자들을 input으로 하여 새로운 분자를 디자인하였습니다. 그 결과 생성된 분자들 중 상당수가 IC50 기준 수십 nM 정도의 활성을 가질 것으로 예측되었습니다.
그림3. 생성된 EGFR 저해제 예측 활성도 (reference: Chem. Sci., 2020,11, 1153-1164)
그림3. 생성된 EGFR 저해제 예측 활성도 (reference: Chem. Sci., 2020,11, 1153-1164)
추가적으로 생성된 분자의 여러 물성을 동시에 조절할 수 있는지도 테스트해봤습니다. 이를 위해 MW, TPSA, LogP를 조절할 수 있는 모델을 새로 학습시켰습니다. 놀랍게도 스캐폴드가 고정되어 있어 분자를 디자인하는데 큰 제약이 따름에도 불구하고 생성된 분자의 여러 물성을 동시에 조절할 수 있었습니다. 
[그림 4]를 보시면 지정해준 물성에 따라 점들이 모여있는 것을 확인할 수 있는데요. 이는 생성된 분자들의 물성이 지정해준 물성과 유사하다는 의미입니다. 신약개발에서는 활성, ADME/T, solubility, permeability 등 동시에 여러 물성을 만족하는 분자를 찾는 것이 중요하죠. AI 모델이 여러 물성을 동시에 조절할 수 있다는 것은 신약개발에 있어 큰 잠재력을 가지고 있음을 보여줍니다.
그림4. 여러 물성 동시 조절문제에서 생성된 분자의 물성 분포 (reference: Chem. Sci., 2020,11, 1153-1164)
그림4. 여러 물성 동시 조절문제에서 생성된 분자의 물성 분포 (reference: Chem. Sci., 2020,11, 1153-1164)
지금까지 신약개발 분야 생성형 AI를 대표하는 히츠의 골격기반 분자 그래프 생성모델(scaffold-based molecular generative model)을 소개해 드렸습니다. 이 모델을 이용해 LG화학과의 공동연구를 성공적으로 수행할 수 있었죠. 이처럼 히츠는 실제 신약개발 프로젝트에 적용하여 실질적 도움을 줄 수 있는 딥러닝 모델을 개발하고 있습니다. 이런 연구에 관심 있으시다면 히츠에 합류하세요!
 

참고 문헌

 
🖊️
Written by
  • 임재창, 히츠 공동 창업자
  • 카이스트 화학과 박사
  • 세상을 바꾸고 삶을 풍요롭게 할 수 있는 기술들에 관심이 많습니다. AI를 통한 신약개발 혁신을 통해 세상에 기여하고 싶습니다.
 
Share article

히츠 팀블로그ㅣAI 신약개발 스타트업