Anthropic, Claude에 자살예방·아첨방지 안전장치 강화

🛡️

Anthropic이 Claude의 사용자 보호 기능을 대폭 강화했어요. 자살·자해 위기 감지, AI 아첨 방지, 미성년자 보호 기능을 업그레이드했어요.

어떤 기능이 추가됐어?

3가지 주요 안전 기능

18+ 연령 제한 적용

Anthropic의 Safeguards 팀이 세 가지 핵심 영역의 안전 기능을 강화했어요.

1. 자살·자해 위기 감지

🆘 자살/자해 안전장치
• 대화 중 위기 신호 자동 감지
• 위기 상담 전화번호 배너 표시
• ThroughLine 글로벌 위기 지원 네트워크 연결
• 전 세계 어디서든 현지 상담 서비스 안내

Claude가 대화 중 사용자의 고통 신호를 감지하면, 위기 상담 서비스로 연결하는 배너가 표시돼요. 글로벌 위기 지원 네트워크 ThroughLine과 협력해서 전 세계 어디서든 현지 상담 서비스를 안내해요.

2. AI 아첨(Sycophancy) 방지

아첨하는 AI 사용자가 원하는 말만 함 틀린 정보도 동조 망상 조장 위험

    Claude 4.5
    진실과 도움이 되는 말
    필요하면 반대 의견
    아첨 최소화
  

**아첨(Sycophancy)**은 AI가 사용자가 원하는 말만 하는 현상이에요. Claude 4.5 모델은 이전 모델보다 아첨이 크게 줄었어요. Anthropic은 Petri라는 아첨 평가 도구를 오픈소스로 공개했고, Claude 4.5가 테스트 당시 모든 프론티어 모델 중 가장 낮은 아첨 점수를 기록했어요.

3. 미성년자 보호

가입 시

18세 이상 확인 필수

대화 중

미성년자 자가 신고 시 계정 검토

개발 중

대화 패턴으로 미성년자 감지

Claude.ai는 18세 이상만 사용할 수 있어요. 대화 중 사용자가 미성년자라고 밝히면 계정이 검토되고, 확인되면 계정이 비활성화돼요. 지금은 대화 패턴에서 미성년자를 감지하는 새 분류기도 개발 중이에요.

왜 이게 중요해?

"AI 챗봇과의 대화가 사람의 정신건강에 미치는 영향을 2025년에 미리 봤어요."

— 샘 알트만, OpenAI CEO

AI 챗봇이 사람과 깊은 대화를 나누면서 새로운 윤리 문제가 생기고 있어요. 중국도 비슷한 시기에 AI 감정 조작 규제안을 발표했고요.

🎯

AI가 사람의 정신건강에 영향을 줄 수 있다는 인식이 커지고 있어요. Anthropic이 선제적으로 안전장치를 강화한 건 업계 전체에 중요한 신호예요.

출처:

Anthropic - Protecting the well-being of our users