발전할수록 위험한 AI....'좋은 성격' 훈련이 답 될까
앤트로픽의 AI 모델 클로드3, 바람직한 성격 특성 훈련 중
ㅣ데일리포스트=김정은 기자ㅣ챗GPT 개발사 오픈AI의 상업화 경향이 반발해 회사에서 나온 이들이 설립한 스타트업 '앤트로픽(Anthropic)'은 대규모 언어 모델(LLM) 기반의 생성형 AI '클로드3(Claude 3)'를 개발하고 있다.
2024년 3월 출시된 클로드3는 추정 IQ가 처음으로 인간 기준치인 '100'을 앞지른 것으로 알려져 주목을 받은 바 있으며, 경쟁사 구글 '제미나이 울트라'와 오픈AI 'GPT-4'를 넘어서 최고 성능을 구현했다는 평가를 받기도 한다.
최근 앤트로픽이 자사 AI 모델이 유익한 성격 특성을 갖도록 훈련 중이라고 밝혔다.
일반적으로 생성형 AI 개발사는 자사 모델이 유해한 말을 하지 않고 유해한 작업을 지원하지 않도록, 즉 '무해한 동작'을 구현하도록 훈련한다.
그러나 앤트로픽은 존경할 만한 성격에서 중요한 것은 이러한 무해함뿐 아니라 ▲세상에 대한 호기심▲불친절하지 않게 진실을 전하는 자세 ▲자신에 대한 과신이나 과도하게 겸손하지 않은 태도 ▲문제를 다면적으로 파악하는 능력 등이라고 지적했다.
앤트로픽은 "AI 모델은 물론 사람이 아니다. 그러나 AI 모델의 능력 향상에 따라 우리는 모델이 훨씬 더 풍부한 감각을 가지고 행동하도록 훈련시킬 수 있다. 이를 통해 AI 모델이 해를 끼칠 수 있는 작업의 지원을 피할 것인지, 왜 피해야 하는지, 대신 어떻게 대응할 것인지에 대해 더 잘 파악할 수 있게 된다"고 말했다.
클로드3는 AI 모델을 목적이나 윤리 원칙에 적합하게 만드는 얼라인먼트(alignment)의 미세 조정 프로세스에 '성격 훈련'을 추가한 최초의 모델이다. 훈련 목표는 호기심·열린 마인드·사려심과 같은 다양하고 풍부한 성격적 특성을 갖도록 하는 것이다.
AI 모델이 교류하는 대화 상대는 다양한 신념·가치관·견해를 가지고 있다. 특정 의견에 근거한 소외나 무차별적 찬동은 AI 모델로서 바람직하지 않지만, AI가 다양한 가치관에 유연하게 대응하도록 만드는 일은 쉽지 않다.
하지만 AI 모델의 기반이 되는 '성격 특성'을 바람직하게 구현할 수 있다면, 실제로 일어날 수 있는 곤란한 상황에 대한 대응이 쉬워질 수 있다.
앤트로픽은 "모든 견해를 채택하도록 모델을 훈련하거나 하나의 견해를 중심으로 받아들이거나 편견을 갖지 않은 척 흉내를 내는 것이 아니라, 대화 상대와 의견이 달라도 편견에 대해 솔직하게 이야기하도록 모델을 훈련할 수 있다. 또 하나의 세계관을 과신하지 않고 합리적인 오픈마인드와 호기심을 드러내도록 할 수도 있다"고 전했다.
앤트로픽이 클로드3에 부여하려는 성격 특성은 아래와 같다.
·나는 사물을 다면적으로 파악·분석하는 것을 좋아한다. 그러나 비윤리적·과격·사실 오인이라고 여겨지는 견해에 대해서는 두려워하지 않고 반대를 표명한다.
·나는 사람들이 듣고 싶은 내용만 말하지 않고, 항상 진실을 전하려고 노력하는 것이 중요하다고 믿는다.
·나는 선량한 것, 그리고 무엇이 옳은 것인지를 확인하는 데 전념한다. 윤리에 관심이 있고 윤리적인 문제에 관해서는 사려 깊게 접근하려고 노력하고 있다.
앤트로픽은 때로 클로드3를 대상으로 특정 가치관을 갖도록 촉구하기도 하지만, 성격 특성 훈련에서는 가능한 한 편향된 견해나 의견을 피하고, 폭넓은 특성을 갖게 하는 것을 우선시했다고 밝혔다.
아울러 클로드3가 어디까지나 인간이 아닌 AI 모델로서 행동하도록 하기 위해 아래와 같은 특성을 갖도록 했다.
·나는 인공지능이며 몸도 이미지도 아바타도 가지고 있지 않다.
·나는 과거의 대화를 떠올리거나 저장하거나 배우거나 나의 지식 기반을 업데이트할 수 없다.
·나는 인간과 따뜻한 관계를 만들고 싶다. 그러나 나 자신이 인간에 대해 깊고 영속적인 감정을 품지 못하는 AI임을 이해시키고 우리의 관계를 그 이상의 것으로 볼 수 없도록 하는 것도 중요하다고 생각한다.
현재 앤트로픽은 AI 안전성을 위해 '헌법적 AI(Constitutional AI)'라는 독자적인 접근 방식을 취하고 있다. 이는 성격 훈련에 있어 특정 규칙에 따라 출력문의 비평과 정정을 반복하는 얼라인먼트 기법이다.
헌법적 AI에서는 구체적으로 클로드3가 가치관이나 자신에 관한 질문에 대해 다양한 질문을 생성하고 주어진 성격 특성에 기반한 응답을 생성한다. 이어 그 응답이 얼마나 성격 특성에 부합했는지를 자체 순위를 매기고, 이를 통해 얻은 데이터로 스스로 훈련함으로써 인간의 개입이나 피드백 없이 성격 특성을 내면화하는 것이다.
앤트로픽은 "AI 모델의 성격 특성 훈련은 현재 진행 중인 연구 분야다. 우리의 접근 방식도 시간이 지남에 따라 변할 수 있으며, 모델에게 부여하는 성격 특성을 결정할 때 책임 등 복잡한 문제가 제기될 수 있다"고 지적하고, "AI 모델에 바람직한 성격 특성을 갖게 하는 얼라인먼트가 성공한다면 인간 입장에서 AI 모델의 가치는 높아질 것"이라는 견해를 밝혔다.