TAPTALK

데이터 3천800만건으로 국내 최초 한국형 의료 거대언어모델 개발

(서울=연합뉴스) 성서호 기자 = 서울대병원은 국내 최초로 '한국형 의료 거대언어모델'(LLM)'을 개발했다고 21일 밝혔다.

서울대병원은 기존 의료 거대언어모델이 주로 서구권의 의료 지식에 최적화해 한국어 의료 데이터를 이해하지 못하는 한계가 있다는 점에 착안해 지난해 3월부터 개발에 착수했다.

서울대병원은 병원 내 입원 초진, 외래 기록, 수술·처방·간호 기록 등 임상 텍스트 3천800만 건을 활용해 '한국어 의료 말뭉치'를 구축하고, 이를 가명화·비식별화했다.

올해 들어서는 국내 의료 관련법, 국문 논문 초록, 학회 진료 지침 등을 통합하고, 의학 용어 약어 사전과 용어 표준화 작업을 진행했다.

서울대병원이 이 의료 거대언어모델로 하여금 최근 3년간 한국의사국가고시(국시)를 치게 한 결과, 정답률은 86.2%를 기록했다. 여태 공개된 모델 중에서는 처음으로 실제 의사들의 평균 정답률(79.9%)을 뛰어넘은 결과다.

서울대병원은 향후 이 거대언어모델의 성능을 고도화해 실제 진료 현장에서 활용한다는 방침이다.

이번 언어모델 개발을 주도한 이형철 교수(헬스케어AI연구원 부원장)는 "거대언어모델 기술은 의사들의 업무를 돕는 중요한 도구가 됨으로써 의료 서비스의 질을 한층 향상할 수 있을 것"이라고 말했다.

soho@yna.co.kr