1000만개 가상데이터 대신 수천 개 실험데이터 활용
KAIST는 김우연 화학과 교수 연구팀이 단백질과 약물 분자 사이의 상호작용을 고려해 활성 데이터 없이 타깃 단백질에 적합한 '약물 설계 생성형 AI'를 개발했다고 18일 밝혔다.
자연어나 이미지, 동영상, 음악 등 다양한 분야에서 주목받는 생성형 AI가 신약 설계에 쓰이면서 기존 신규성 문제를 극복하고 새로운 혁신 신약 개발에 기여할 것으로 기대를 모으고 있다. 우선 신약 약물을 발굴하려면 질병의 원인인 타깃 단백질에 특이적으로 결합하는 분자를 찾아야 한다.
하지만 기존 약물 설계 생성형 AI는 이미 알려진 특정 단백질의 데이터를 학습해 활용하기 때문에 기존 약물과 유사한 약물을 설계하는 경향이 있어 신규성이 떨어진다. 또한 최초 타깃 단백질에 대한 실험 데이터가 매우 적거나 전무해 생성형 AI에 활용하는 데 한계가 있다.
연구팀은 이런 데이터 의존성 문제를 해결하기 위해 단백질 구조 정보만으로 약물 분자를 설계하는 기술에 주목했다. 타깃 단백질의 약물 결합 부위에 딱 맞는 3차원 구조 정보를 기반으로 약물 분자를 주조하듯 설계하는 방식이다.
또한 설계한 약물 분자가 단백질과 안정적으로 결합하도록 단백질과 분자 간 상호작용 패턴을 생성형 AI가 학습하도록 해 약물 분자 설계에 활용했다. 이를 통해 기존 단백질 구조 기반 생성형 AI 모델이 부족한 학습 데이터를 보완하기 위해 10만∼1000만 개의 가상 데이터를 활용하는 반면, 이번 연구에서는 수천 개의 실제 실험 구조만 학습해도 월등히 높은 성능을 발휘할 수 있다고 연구팀은 설명했다.
연구팀은 이렇게 개발한 생성형 AI를 비소세포폐암 환자에게 주로 나타나는 상피 성장인자 수용체(EGFR)를 표적으로 한 신약후보물질을 개발하는 데 성공했다. 생성형 AI를 통해 돌연변이가 일어난 EGFR 아미노산 분자에서 일어나는 특이적인 상호패턴을 유도해 분자를 설계했고, 그 결과 생성된 분자의 23%가 이론상으로 100배 이상 결합력이 높은 것으로 예측됐다.
제1저자인 정원호 KAIST 박사과정생은 "이번 연구에서 사용한 분자 간 상호작용 정보는 약물 분자뿐 아니라 다양한 생체분자를 다루는 바이오 분야에도 유용할 것"이라고 말했다.
이 연구결과는 국제 학술지 '네이처 커뮤니케이션즈(3월)'에 실렸다.