카카오가 안전하고 신뢰할 수 있는 생성형 인공지능(AI) 기술 환경 및 생태계 조성을 위해 자체 개발한 AI 가드레일 모델 '카나나 세이프가드(Kanana Safeguard)' 3종을 국내 기업 최초로 오픈소스로 공개한다고 밝혔다. 이는 최근 생성형 AI 서비스가 빠르게 확산되면서 불거지는 유해 콘텐츠 생성 및 확산 위험성에 대한 사회적 우려에 대응하기 위한 기술적 안전장치 마련의 일환이다.

최근 다양한 생성형 AI 서비스가 등장하며 그 유용성을 인정받고 있지만, 동시에 유해 콘텐츠 생성, 개인정보 침해, 저작권 문제 등 잠재적 위험에 대한 사회적 경각심도 높아지고 있다. 이에 카카오는 AI 서비스의 안전성과 신뢰성을 담보하기 위한 기술적·제도적 장치인 AI 가드레일 시스템의 필요성을 인식하고 이번 모델 개발에 나섰다고 설명했다. 주요 글로벌 빅테크 기업들 역시 생성형 AI로 인해 발생할 수 있는 다양한 위험 요소를 감지하고 제어하는 데 특화된 모델을 운영하며 AI 안전성 확보에 주력하고 있다.

'카나나 세이프가드'는 카카오가 자체 개발한 언어모델 '카나나(Kanana)'를 기반 기술로 활용했다. 특히 한국어 및 한국 문화를 심도 있게 반영한 자체 구축 데이터셋을 학습에 사용해 한국어 환경에서의 유해성 탐지 및 위험 요소 방지에 특화된 성능을 자랑한다. 실제로 AI 모델의 정밀도와 재현율을 종합적으로 평가하는 지표인 F1 스코어(F1-Score)를 기준으로 평가한 결과, 한국어 성능에서 일부 글로벌 기업들의 모델을 상회하는 우수한 성과를 기록하기도 했다.

이번에 오픈소스로 공개된 모델은 총 3가지로, 각각의 모델은 특정 리스크 유형에 따라 유해성 및 위험성을 효과적으로 탐지하도록 설계되었다.

사진=카카오
사진=카카오

첫 번째 모델인 '카나나 세이프가드'는 사용자의 발화 또는 AI의 답변 내용에서 증오 발언, 괴롭힘, 성적 콘텐츠 등 사회적으로 용납되기 어려운 유해성을 탐지한다.

두 번째 '카나나 세이프가드-사이렌(Siren)'은 개인 정보나 지식재산권 등 법적·윤리적 측면에서 민감하거나 주의가 필요한 요청을 식별해낸다.
세 번째 '카나나 세이프가드-프롬프트(Prompt)'는 AI 서비스를 악의적으로 이용하려는 사용자의 특정 공격 패턴이나 의도를 탐지하는 데 초점을 맞췄다.

이들 모델은 모두 글로벌 오픈소스 커뮤니티인 허깅페이스(Hugging Face)를 통해 누구나 손쉽게 내려받을 수 있으며, 상업적 이용은 물론 수정 및 재배포 등이 자유롭게 가능한 아파치 2.0(Apache 2.0) 라이선스가 적용됐다.

카카오는 앞으로도 지속적인 업데이트를 통해 '카나나 세이프가드' 모델을 더욱 고도화해 나갈 예정이다.

김경훈 카카오 AI Safety 리더는 "생성형 AI의 등장 이래, 기술의 발전과 더불어 AI 윤리와 안전성에 대한 중요성이 국내외에서 점차 부각되고 있다"며 "카카오는 책임감 있는 AI 구축에 대한 사회적 인식을 널리 확산시키고, 인간 중심의 사회적 가치를 고려한 기술 개발이 지속될 수 있도록 선제적인 대응과 노력을 이어갈 계획"이라고 말했다.