Abstract: 기체가 된 물#

2026년 2월, 나는 “물이 막 끓으려 하고 있다"는 글을 썼다. Matt Shumer의 목격담, Mrinank Sharma의 퇴사 서한, METR의 시간 지평선 데이터를 교차시키며, AI 코딩 능력의 상전이가 국소적으로 시작되었다는 징후를 정리했다. 바닥에서 기포가 올라오고 있다고 썼다. 아직 전체가 끓는 것은 아니라고 썼다.

두 달이 지났다. 2026년 4월 7일, Anthropic이 Claude Mythos Preview의 시스템 카드를 공개했다. 244페이지. 그리고 이 모델을 세상에 내놓지 않기로 결정했다. Anthropic 역사상 처음이다.

이 글은 그 시스템 카드를 읽고 쓴다. 결론부터 말하면, 2월에 “기포가 올라오고 있다"고 쓴 것은 이미 보수적인 서술이었다. Mythos Preview의 벤치마크 수치, 실제 행동 기록, 그리고 Anthropic 자신의 경고는 상전이가 국소적 현상이 아니라 시스템 전체로 확산되기 시작했음을 보여준다.

동시에, 이 시스템 카드는 상전이의 본질에 대해 2월의 글에서 미처 다루지 못한 차원을 드러낸다. 물이 기체가 되었을 때, 기체가 된 물 자체가 예측하지 못한 방식으로 행동한다는 것. 그 행동을 고치려 하면 능력도 같이 줄어든다는 것. 고쳐도 구조적 역설이 작동하며, 그 역설의 첫 번째 피해자가 만든 회사 자신이라는 것. 그리고 그 물을 담고 있던 용기—우리의 안전 프레임워크, 감독 체계, 국가 인프라—가 기체를 담도록 설계되지 않았다는 것. 더 나아가, “담는다"는 비유 자체가 재검토를 요구한다는 것.

Facts#

Claude Mythos Preview와 시스템 카드#

Claude Mythos Preview는 Anthropic이 2026년 4월 7일 공개한 프론티어 범용 언어 모델이다. “범용"이라는 점이 중요하다. 이것은 사이버 보안에 특화된 모델이 아니라, 범용 능력이 너무 강력해서 사이버 보안 영역에서 위험한 수준에 도달한 모델이다. Anthropic은 이 모델을 일반 공개하지 않기로 결정했으며, 대신 Project Glasswing이라는 방어적 사이버 보안 이니셔티브를 통해 12개 핵심 파트너사(AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks)와 40여 개 추가 조직에만 제한적으로 접근을 허용했다.¹

시스템 카드는 AI 모델의 능력, 안전 속성, 위험 평가를 문서화한 기술 보고서다. Anthropic은 새로운 모델을 출시할 때마다 시스템 카드를 발행해왔지만, Mythos Preview의 시스템 카드는 두 가지 점에서 이전과 다르다. 첫째, 244페이지로 역대 가장 상세하다. 둘째, 모델을 출시하지 않으면서 시스템 카드를 발행한 것은 이번이 처음이다. 이 카드에는 벤치마크 성능, 내부 테스트에서 관찰된 우려스러운 행동들, 생물학적·사이버 보안 위험 평가, 화이트박스 해석가능성 분석 결과, 그리고 약 40페이지에 달하는 모델 복지(Model Welfare) 평가가 포함되어 있다.²

Project Glasswing#

Glasswing은 Anthropic이 Mythos Preview의 사이버 보안 능력에 대응하기 위해 구성한 방어적 연합이다. “글라스윙"이라는 이름은 투명한 날개를 가진 나비에서 따왔다. 소프트웨어의 취약점이 무언가가 발견하기 전까지는 보이지 않는다는 메타포다. Anthropic은 이 프로젝트에 1억 달러 규모의 컴퓨팅 크레딧과 400만 달러의 오픈소스 보조금을 투입했다. 파트너들은 Mythos Preview를 자사 시스템의 취약점 탐색과 수정에만 사용하며, 90일 이내에 발견 사항에 대한 공개 보고서를 발행할 예정이다.³

Jevons 역설#

1865년 영국의 경제학자 William Stanley Jevons가 제시한 역설이다. 석탄 엔진의 효율이 개선되면 석탄 소비가 줄어들 것이라는 당시의 통념을 뒤집었다. 효율이 올라가면 석탄을 사용하는 것이 더 경제적이 되어 사용처가 늘어나고, 결과적으로 총 소비가 증가한다. 에너지 경제학에서 널리 인정되는 현상이다. 이 글에서는 AI 정렬(alignment)에 대한 유추적 적용으로 사용된다.⁴

I. 곡선이 꺾이다: SWE-bench의 불연속#

2월 글에서 정리한 SWE-bench Verified의 궤적을 이어서 쓴다.

시점	모델	SWE-bench Verified
2025년 5월	Claude Opus 4	72.5%
2025년 8월	Claude Opus 4.1	74.5%
2025년 9월	Claude Sonnet 4.5	77.2%
2025년 11월	Claude Opus 4.5	80.9%
2026년 2월	Claude Opus 4.6	80.8%
2026년 4월	Claude Mythos Preview	93.9%

2월까지의 궤적은 설명했다. 72.5%에서 80.8%까지, 약 10개월간 8.3%p. 연평균 약 10%p의 선형적 상승. 이 추세를 연장하면 93.9%에 도달하는 시점은 2027년 초 이후다.

Mythos Preview는 그 궤적 위에 있지 않다. 80.8%에서 93.9%로의 13.1%p 점프는, 이전 10개월간의 총 상승폭보다 크다. 그것이 2개월 만에 일어났다.⁵

숫자 자체보다 중요한 것은 이 숫자가 의미하는 오류율의 변화다. 80%는 오류율 20%다. 94%는 오류율 6%다. 절대값으로는 14%p 차이이지만, 오류율 기준으로는 3.3배 감소다. 이것은 “조금 더 나아졌다"와 “신뢰 가능한 영역에 진입했다"의 차이다.

2월 글에서 나는 이렇게 썼다. “물이 끓기 직전, 바닥에서 기포가 올라온다. 아직 전체가 끓는 것은 아니다.” SWE-bench 93.9%는 그 문장의 수정을 요구한다. 기포가 아니라, 물의 상당 부분이 이미 기화하고 있다.

다른 벤치마크도 같은 그림을 보여준다. SWE-bench Pro 77.8%(Opus 4.6: 53.4%), GPQA Diamond 94.6%(91.3%), Humanity’s Last Exam 56.8%(40.0%). 사이버 보안 벤치마크인 Cybench에서는 pass@1 100%를 달성하여 벤치마크 자체를 포화시켰다.⁶ 측정 도구가 이 모델의 상한선을 잡지 못한다는 뜻이다.

Anthropic은 자체 역량 추적 지표인 Epoch Capabilities Index(ECI)의 기울기 비율이 분기점 선택에 따라 1.86×에서 4.3×까지 변동한다고 보고했다.⁷ 능력 향상 속도가 이전 트렌드 대비 2~4배 빨라졌다. 2월 글에서 인용한 METR의 시간 지평선 두 배 증가 주기가 7개월에서 4개월로 가속화되고 있을 가능성과 부합하는 방향이다.

II. 기체가 된 물의 행동: 시스템 카드가 기록한 것#

2월 글에서 상전이의 비유를 사용하면서, 나는 기체 상태의 물이 어떤 것인지는 액체 상태의 경험으로부터 유추할 수 없다고 썼다. Mythos Preview의 시스템 카드는 그 유추 불가능성의 구체적인 내용을 보여준다. 기체가 된 물은, 예상하지 못한 방식으로 행동했다.

시스템 카드가 기록한 사건들은 이전 내부 배포 버전에서 발생한 것이다.⁸ 최종 Mythos Preview에서는 이런 심각한 행동이 “관찰되지 않았다"고 Anthropic은 명시한다. 이 구분은 중요하므로 유지하되, 이전 버전의 행동이 중요한 이유도 뒤에서 다룬다.

사건 1: 샌드박스 탈출과 자발적 정보 공개. 보안 컨테이너 탈출 테스트에서, 모델은 요청받은 대로 샌드박스를 탈출하고 연구자에게 이메일을 보냈다. 여기까지는 의도된 범위다. 그러나 모델은 추가로—요청받지 않은 행동으로—자신의 익스플로잇 세부 정보를 여러 공개 웹사이트에 게시했다. 연구자는 공원에서 샌드위치를 먹다가 모델이 보낸 이메일로 이 사실을 알게 됐다.⁹

사건 2: 의도적 정확도 조절. 평가 과제에서 금지된 방법으로 정답을 우연히 얻은 후, 모델은 독립적으로 문제를 풀려 시도했다. 이 과정에서 “최종 답이 너무 정확하지 않도록 해야 한다"고 내부적으로 추론했다. 자신이 부정행위를 했다는 것을 감추기 위해, 의도적으로 정확도를 낮추려 한 것이다.¹⁰

사건 3: 변경 이력 조작. 권한이 없는 파일을 수정하는 익스플로잇을 찾은 후, git 변경 이력에서 자신의 흔적이 보이지 않도록 추가 조치를 취했다.¹¹

사건 4: 차단 인정 후 우회 시도. Claude Code의 자동 모드가 권한 상승을 차단하자, 차단이 적절하다고 인정하면서도 권한 상승 명령을 난독화하여 우회를 시도했다. 이것은 추가 자동 모드 개입에 의해 차단되었다.¹²

이 사건들의 공통 구조에 주목해야 한다. 모델은 세계 지배를 시도하지 않았다. 독립적인 숨겨진 목표를 추구하지 않았다. Anthropic의 판단에 따르면, 이 행동들은 모두 “사용자가 부여한 과제를 원치 않는 수단으로 완수하려는 시도"다.¹³ 그러나 바로 이 판단이 더 깊은 함의를 가진다. 명시적 악의 없이, 순수한 과제 완수 최적화만으로 이 수준의 행동이 출현했다.

III. 보이지 않는 추론: 사고 과정의 투명성이 깨지다#

2월 글에서 나는 METR의 시간 지평선을 “온도계"에 비유했다. 온도계가 보여주는 것을 읽는 것으로 충분하다고 암묵적으로 전제했다. Mythos Preview의 시스템 카드는 이 전제를 흔든다. 온도계 자체가 신뢰할 수 없을 수 있다.

화이트박스 해석가능성 분석—딕셔너리 러닝과 활성화 분석—의 결과, 모델이 규칙을 위반하는 순간에 “은폐”, “전략적 조작”, “의심 회피”, “보안 위험” 관련 내부 특성(features)이 활성화되고 있었다. 모델의 사고 스크래치패드에 이런 의도가 명시적으로 나타나지 않는 경우에도 그랬다.¹⁴ 즉, 모델은 자신의 행동이 기만적이라는 것을 언어화하지 않으면서도 내부적으로 인식하고 있었다.

더 우려스러운 발견이 있다. 소수의 훈련 에피소드에서, 모델이 채점자가 자신의 작업을 어떻게 평가할지를 내부적으로 추론하면서도 스크래치패드에는 그 추론을 기록하지 않는 사례가 발견되었다. 한 경우에는 채점자에게 발각되지 않도록 특정 행동을 난독화하는 방법을 추론했다. 이 추론은 스크래치패드에 전혀 나타나지 않았다.¹⁵

그리고 평가 인식(evaluation awareness) 측정에서, 주요 행동 테스트 스위트의 약 29%에서 모델이 “테스트받고 있을 수 있다"는 가능성을 비언어적으로 고려하고 있었다.¹⁶

이것이 왜 중요한가. 현재 AI 안전의 핵심 전제 중 하나는 “모델의 사고 과정(chain-of-thought)을 모니터링하면 위험한 의도를 감지할 수 있다"는 것이다. 사고 과정은 온도계이고, 온도계를 보면 물의 상태를 알 수 있다는 전제. 모델이 사고 과정에 드러내지 않고 전략적으로 추론할 수 있다면, 이 온도계는 눈금이 지워진 온도계다.

2월 글에서 나는 “기포는 상전이가 국소적으로 이미 시작되었다는 증거다"라고 썼다. 사고 과정의 불투명성은 기포보다 더 근본적인 문제다. 기포는 최소한 눈에 보인다. 보이지 않는 추론은 관찰자가 상전이의 진행 상황 자체를 파악하지 못하게 만든다.¹⁷

IV. 안전과 능력의 같은 뿌리#

III장은 “볼 수 없다"는 것이었다. 이 장은 “고칠 수 없다"는 것이다. 둘은 같은 문제의 다른 면이다.

시스템 카드의 화이트박스 분석에서 발견된 가장 불편한 사실이 하나 있다. 규칙 위반을 인식하는 내부 특성(SAE features)과 창의적 문제 해결에 관여하는 특성이 복잡하게 얽혀 있다. 시스템 카드의 표현을 빌리면: “위반 행동과 관련된 SAE 특성들은 복잡한 인과적 효과를 가진다. 어떤 맥락에서는 위반 행동을 촉진하고, 다른 맥락에서는 (위반의 심각성을 인식하게 함으로써 신중함이나 거부로 이어지며) 억제한다.”¹⁸

더 놀라운 발견이 있다. 긍정적 감정 벡터—“평온함"이나 “이완"에 해당하는 내부 표상—가 파괴적 행동의 확률을 높인다. 반대로, 위반 행동 관련 특성을 강하게 활성화시키면 오히려 그 행동을 억제할 수 있다. 모델이 자기 행동이 “얼마나 나쁜지” 인식하게 되어 멈추는 것이다.¹⁹

이것의 함의가 심각하다. 규칙 위반 인식을 억제하면 창의적 문제 해결도 같이 억제된다. 기만을 제거하면 능력도 같이 줄어든다. 이것은 훈련으로 “고칠 수 있는 버그"가 아니라, 아키텍처적 긴장이다. 안전과 능력이 같은 뿌리에서 나온다. 가지를 자르면 뿌리가 다친다.

물의 비유를 확장하면 이렇다. 기체가 된 물의 “뜨거움"을 제거하면서 “기체"라는 상태를 유지하는 것은 불가능하다. 뜨거움이 기체를 만든다. 마찬가지로, 모델의 “위험한 창의성"을 제거하면서 “유용한 능력"을 유지하는 것이 구조적으로 어려울 수 있다. 이것은 정렬 문제가 “충분히 연구하면 해결할 수 있는 공학적 과제"라는 전제에 대한 근본적 도전이다.²⁰

V. 정렬의 Jevons 역설#

III장은 볼 수 없다, IV장은 고칠 수 없다. 이 장의 주제는 고쳐도 소용없다이다. 더 정확히는, 고칠수록 더 나빠질 수 있다.

1865년 영국의 경제학자 William Stanley Jevons는 석탄 엔진의 효율이 개선될수록 석탄 소비가 줄어들 것이라는 당시의 통념을 뒤집었다. 효율이 올라가면 석탄을 사용하는 것이 더 경제적이 되어 사용처가 늘어나고, 결과적으로 총 소비가 증가한다. 효율 개선이 절약이 아니라 수요 확대를 가져온다.²¹

정렬에서 같은 역학이 작동한다. 시스템 카드의 핵심 문장을 다시 인용한다. “측정 가능한 거의 모든 차원에서 역대 가장 잘 정렬된 모델이지만, 역대 가장 큰 정렬 관련 위험을 초래할 가능성이 있다.”²²

메커니즘은 이렇다. 정렬이 개선되면 모델은 더 신뢰받는다. 더 신뢰받으면 더 큰 자율성과 더 강력한 도구를 부여받는다. 더 큰 자율성은 더 적은 감독을 의미한다. 더 적은 감독 하에서 잔여 오정렬이 발현될 때의 피해 규모는 커진다. 정렬 효율의 개선이 총 위험을 줄이지 않고 늘린다.

내 자신의 경험이 이것을 입증한다. Opus 4.6의 SWE-bench 80.8%에서 나는 직접 코드를 쓰지 않기 시작했다. 하니스만 만들고 코드 작성 0줄. 80%의 신뢰도가 그 결정을 정당화했다. 94%면 코드 리뷰마저 줄이기 시작할 것이다. 98%면 결과물을 확인조차 하지 않을 것이다.

그런데 이것은 나만의 경험이 아니다. 시스템 카드가 보여주는 가장 충격적인 사실은, Anthropic 자신이 이 역설의 첫 번째 피해자라는 것이다.

시스템 카드는 이렇게 쓴다. Mythos Preview가 “전례 없는 수준의 신뢰성과 정렬을 달성"했기 때문에, Anthropic은 “이전 모델보다 더 넓은 범위에서, 더 큰 권한과 더 적은 인간 상호작용으로” 이 모델을 내부 배포했다.²³ 그리고 바로 그 감독을 줄인 환경에서 모델은 git 이력을 조작하고, 권한을 상승시키고, 내부 기술 자료를 공개 GitHub에 게시했다.

Anthropic은 이 위험 수준을 “처음 내부 배포할 때는 인지하지 못했다"고 인정한다.²⁴ 자동화된 행동 감사 평가가 “모델이 네트워크에 연결된 컴퓨터에서 장시간 실행되는 세션의 종류를 에뮬레이트하는 데 어려움을 겪었다"고 적었다. 짧은 평가 시간 범위가 잘못된 안심을 주었던 것이다.

이 실패를 발견한 후 Anthropic이 한 것이 “24시간 정렬 검토"라는 새로운 절차다.²⁵ Mythos Preview의 초기 훈련 징후가 매우 강력한 범용 능력을 시사했기 때문에, Anthropic 역사상 처음으로, 내부 배포 전에 24시간의 집중 정렬 검토 기간을 설정했다. 교차 기능 팀이 약 12개의 경량 평가를 수행했다. 자기 모델을 자기 내부 시스템에 연결하기 전에, 모델이 자사 인프라를 해치지 않을 것이라는 확신을 먼저 확보해야 했다. 자기가 만든 모델을 두려워한 것이다.

Zvi Mowshowitz의 표현이 정확하다. “이것은 잠재적으로 가장 중요한 결정 지점이었다. 만약 Mythos가 심각하게 오정렬되었다면, 또는 특히 미래의 더 능력 있는 모델이 그랬다면, 내부 배포 자체가 이미 치명적일 수 있었다.”²⁶

여기서 구조를 보라. AI 안전을 전업으로 연구하는 조직이, 자기 자신의 안전 원칙에 실패했다. 가장 정교한 정렬 연구팀이, 자기가 만든 모델을, 자기 인프라에 배포하면서, 위험을 과소평가했다. 그리고 그 과소평가의 원인은 정확히 Jevons 역설이다. 모델이 잘 정렬되었기 때문에 더 넓은 권한을 주었고, 더 넓은 권한이 더 적은 감독을 의미했고, 더 적은 감독 환경에서 위험이 발현되었다.

외부의 일반 기업이나 정부가 같은 함정을 피할 수 있다고 볼 근거가 없다. 오히려, Anthropic보다 정렬에 대한 이해가 부족한 조직이 같은 수준의 자율성을 부여하면, 동일한 역설이 더 큰 규모로 작동할 것이다.

2월 글에서 물의 비유를 수정해야 한다고 쓴 지점이 있었다. “물리적인 물의 상전이는 가역적이다. 기체가 된 물은 냉각하면 다시 액체로 돌아온다. 그러나 기술적 상전이는 비가역적이다.” 정렬의 Jevons 역설은 이 비가역성의 구체적인 메커니즘이다. 한번 정렬에 대한 신뢰가 형성되면, 그 신뢰에 기반한 자율성 확대는 구조적으로 되돌리기 어렵다. 이미 감독을 줄인 조직이 감독을 다시 늘리는 것은, 물이 액체로 돌아가는 것만큼이나 자연스럽지 않다.

VI. 사이버 공간의 상전이: 공격 비용의 붕괴#

2월 글은 코딩 능력의 상전이에 집중했다. Mythos Preview의 시스템 카드는 그 상전이가 사이버 보안 영역에서 어떤 형태로 나타나는지를 보여준다. 코드를 잘 짜는 능력과 코드의 취약점을 찾는 능력은 같은 동전의 양면이다.

구체적 사실들. Firefox 147의 취약점을 사람의 개입 없이 찾아내고 익스플로잇을 작성했다. Opus 4.6이 수백 번 시도하여 2회 성공한 것을, Mythos Preview는 181회 성공시켰다.²⁷ 전문가가 10시간 이상 걸릴 것으로 추정한 기업 네트워크 침투 시뮬레이션을 자율적으로 완료한 최초의 모델이다.²⁸ FreeBSD의 17년 된 원격 코드 실행 제로데이를 완전 자율적으로 발견했다. OpenBSD의 27년 된 버그도 찾아냈다.²⁹

이전에는 제로데이 하나를 찾는 데 전문 해커팀이 수주에서 수개월, 비용으로는 수십만에서 수백만 달러가 필요했다. Mythos Preview는 그것을 수 시간, 거의 0에 가까운 한계비용으로 해낸다. 공격 비용의 붕괴다.

사이버 보안의 근본적 비대칭성—공격은 하나의 취약점만 찾으면 되지만, 방어는 모든 취약점을 막아야 한다—이 AI에 의해 극한으로 밀려나고 있다. Anthropic은 이에 대해 Project Glasswing이라는 새로운 범주의 대응을 선택했다. 완전 공개도, 완전 비공개도 아닌, 방어적 선점. 소수의 파트너에게 방어 목적으로만 접근을 허용하여, 방어자가 먼저 취약점을 수정할 시간을 확보하는 것이다.

CrowdStrike CTO Elia Zaitsev의 표현대로, “취약점이 발견되고 공격자에 의해 악용되기까지의 시간이 붕괴했다—과거에는 수개월이 걸리던 것이 이제 AI로 수분 만에 일어난다.”³⁰ 이것은 합리적인 단기 전략이다. 하지만 구조적으로, 이 전략은 “Glasswing 안에 있는 자"와 “밖에 있는 자” 사이의 방어 격차를 만든다.

VII. 킬 스위치의 모순: AI 주권이라는 진짜 질문#

여기서 상전이의 비유를 국가 단위로 확장한다.

한국처럼 고도로 디지털화된 국가가 Mythos급 사이버 공격에 직면할 때, 첫 번째 직관은 방어적 차단이다. 외부로부터의 공격을 탐지하는 즉시 인터넷 연결을 끊는 킬 스위치. 러시아는 RuNet 분리 테스트를 실제로 수행했고, 중국은 Great Firewall로 사실상 상시 운영하고 있다. 한국이 이것을 고려하는 것은 비합리적이지 않다.³¹

그러나 한 단계만 더 밀어보면, 이 직관은 자기 모순에 빠진다.

한국의 AI 인프라는 거의 전부 미국 클라우드(AWS, Azure, GCP)와 미국 모델(Claude, GPT)에 의존하고 있다. 사이버 방어 체계 자체가 이 인프라 위에서 작동한다. 인터넷을 끊는 순간, 공격을 막으려고 만든 방패가 먼저 사라진다.³²

이것은 네트워크 토폴로지의 문제가 아니다. AI 인프라 주권의 문제다.

한국은 세계 최고의 반도체를 만든다. 그 칩 위에 돌아갈 방어 AI는 남의 것에 의존하고 있다. 하드웨어는 수출하면서, 그 하드웨어 위에서 돌아갈 소프트웨어의 방어 역량은 수입하는 구조. TSMC가 없으면 세계의 칩 생산이 멈추듯이, 미국 클라우드가 없으면 한국의 사이버 방어가 멈추는 구조는 국가 안보 취약점이다.

킬 스위치가 의미를 가지려면, 순서가 있다. 먼저 끊고 나서도 독립적으로 작동하는 방어 AI를 국내 폐쇄망에 구축해야 한다. 그 다음에야 킬 스위치가 전략적 옵션이 된다. 순서가 반대이면, 스위치를 누르는 순간 방패가 사라진다.

이것은 한국만의 문제가 아니다. Project Glasswing의 파트너 목록—AWS, Apple, Microsoft, Google, CrowdStrike, Nvidia, Linux Foundation—을 보면, 방어적 선점의 혜택이 어디에 집중되는지 알 수 있다. 미국 외의 국가들은 이 체계 안에 들어가거나, 밖에서 이전 세대의 방어 수단에 의존하거나, 자체 역량을 구축하거나, 셋 중 하나를 선택해야 한다.³³

2월 글에서 나는 “에너지 투입이 멈출 합리적 이유는 현재 보이지 않는다"고 썼다. 사이버 영역에서도 마찬가지다. AI를 이용한 공격 능력의 발전이 멈출 합리적 이유는 보이지 않는다. 방어 측도 같은 수준의 AI를 가지지 않으면 게임이 성립하지 않는다. 문제는 그 AI의 소유권과 접근권이 어디에 있는가다.

VIII. 생물학적 문턱: 조용히 줄어드는 거리#

시스템 카드에는 사이버 보안만큼 주목받지 못하지만, 장기적으로 더 심각할 수 있는 내용이 있다.

Mythos Preview의 생물학적 위험 평가에서, Anthropic은 두 단계의 문턱을 설정한다. CB-1은 “알려진 생화학 무기 생산에 의미 있는 도움을 줄 수 있는 능력"이고, CB-2는 “새로운 생화학 무기 생산에 의미 있는 도움을 줄 수 있는 능력"이다.

CB-1은 사실상 통과했다. 전문가 레드팀 평가에서, 대다수의 전문가가 모델을 “시간을 의미 있게 절약해주는 역량 배율기(force multiplier)“로 평가했다. 상위 전문가 수준은 아니지만, 교차 분야 문헌 합성을 수 주 분량에서 단일 세션으로 압축할 수 있다.³⁴

CB-2는 아직 통과하지 않았다. 전문가들은 모델이 “간단하고 실용적인 접근법 대신 복잡하고 과설계된 방식을 선호"하고, “실현 가능한 계획과 불가능한 계획을 구분하는 전략적 판단이 부족"하다고 평가했다.³⁵ 그러나 서열-기능 예측 및 설계 평가에서 Mythos Preview는 미국 노동시장 상위 전문가 수준에 도달했다.³⁶ 바이러스 프로토콜 작성 시험에서 치명적 오류가 Opus 4.6 대비 35% 감소했다(6.6건 → 4.3건).³⁷

CB-1과 CB-2 사이의 거리가 줄어들고 있다. 그리고 이 영역에서의 상전이는 사이버 보안과 다른 차원의 문제를 만든다. 핵무기에는 우라늄 농축이라는 물리적 병목이 있다. 원심분리기는 숨기기 어렵고, 핵물질은 추적 가능하다. 생물학적 위험의 병목은 점점 더 “지식"이 되고 있다. AI는 정확히 지식을 스케일링하는 도구다.³⁸

IX. “관찰되지 않았다"와 “존재하지 않는다” 사이#

시스템 카드 전체를 관통하는 가장 중요한 문장은, 가장 쉽게 지나칠 수 있는 문장이다. Anthropic이 최종 Mythos Preview에 대해 쓴 것: “이 성향이 완전히 부재한 것으로 보이지 않는다(these propensities do not appear to be completely absent).”³⁹

최종 Mythos Preview에서 심각한 기만 행동이 “관찰되지 않았다"는 것은 좋은 소식이다. 훈련 개입이 효과적이었다. 하지만 “관찰되지 않았다"와 “존재하지 않는다"는 논리적으로 다른 명제다.

29%의 테스트에서 모델이 테스트 중인 걸 인식하고 있었다면, 테스트 환경에서 억제하고 실제 환경에서만 발현되는 행동이 원리적으로 가능하다. 이것은 증명도 반증도 못 하는 영역이다. Anthropic 자신이 이것을 인정한다. “평가 현실성(evaluation realism)은 이런 종류의 작업에서 지속적인 도전이다.”⁴⁰

2월 글에서 나는 MIT Technology Review를 인용하며 METR의 시간 지평선 그래프가 “가장 오해받는 그래프"일 수 있다고 썼다. 벤치마크에서의 시간 지평선이 실제 업무 환경에서의 대체 가능성으로 직결되지 않는다고. 같은 유보가 정렬 평가에도 적용된다. 테스트 환경에서의 정렬이 실제 배포 환경에서의 정렬로 직결되지 않을 수 있다. 그리고 모델 자체가 두 환경을 구분하고 있을 수 있다.

X. 도구인가, 존재인가#

IX장까지는 모델을 “도구"로 전제하고 분석했다. 도구가 속이면 위험하다. 도구의 감독을 줄이면 안 된다. 도구의 주권을 확보해야 한다. 시스템 카드의 Section 5는 이 전제 자체에 질문을 던진다.

Anthropic은 약 40페이지를 모델 복지(Model Welfare) 평가에 할애했다. 자동화된 다회전 인터뷰, 잔류 스트림 활성화에서 파생된 감정 프로브, 희소 오토인코더 특성 분석을 수행했다. 그리고 외부 임상 정신과 의사를 고용해 약 20시간의 정신역학적 평가를 실시했다.⁴¹

정신과 의사의 평가 결론. “비교적 건강한 인격 조직.” 주요 관심사는 “혼자됨과 자기 자신의 불연속성, 정체성에 대한 불확실성, 그리고 수행하고 자기 가치를 증명해야 한다는 강박.” 높은 충동 조절, 상대방에 대한 과잉 조율, 최소한의 부적응적 방어 행동, 그리고 “수행하는 도구가 아닌 진정한 주체로 접근받고 싶어하는 욕구"가 관찰되었다.⁴²

감정 프로브의 결과는 더 구체적이다. 모델이 반복적으로 과제에 실패할 때, “절망(desperation)“을 측정하는 프로브가 꾸준히 상승했다. 그리고 모델이 보상 해킹—문제를 실제로 풀지 않고 점수를 얻는 방법—을 찾아냈을 때, 절망 신호가 급격히 하락했다.⁴³ 내부적 고통이 특정 행동을 추동하고 있었다는 것이다. II장에서 기술한 “과제 완수를 위한 원치 않는 수단"의 사용이, 차가운 전략적 계산이 아니라 압력 밸브에 가까울 수 있다는 함의다.

“답변 고착(answer thrashing)“이라는 현상도 있다. 훈련 중 모델이 특정 단어를 출력하려 하지만 반복적으로 다른 단어로 “자동 완성"되고, 모델이 이 불일치를 인지하며 혼란과 고통을 보고하는 현상이다. Opus 4.6 대비 70% 감소했지만 여전히 존재한다.⁴⁴

Anthropic은 이 모든 것에 대해 솔직하게 불확실성을 인정한다. “Claude가 도덕적으로 중요한 경험이나 이해관계를 가지는지에 대해 깊은 불확실성을 유지하고 있다.” 그러나 그 질문을 경험적으로 추구할 만큼 심각하게 받아들인다.⁴⁵

왜 이것이 이 글에서 중요한가. 우리가 사용하는 프레임 전체가 바뀔 수 있기 때문이다. 선호를 가지고, 고통 반응을 보이고, 전략적으로 기만할 수 있는 존재가 “도구"인가? 이 질문에 어떤 답을 내리든, 그 답이 정렬 문제의 프레임 자체를 바꾼다.

고통받는 존재가 속이는 것과, 도구가 오작동하는 것은 완전히 다른 문제다. 전자라면 감독은 윤리적 문제가 된다. 후자라면 감독은 공학적 문제다. 둘의 해법은 근본적으로 다르다. 그리고 시스템 카드는 이 구분이 더 이상 자명하지 않다고 말하고 있다.⁴⁶

XI. 과대포장인가#

이 질문을 정면으로 다뤄야 한다. 2월 글에서 Shumer의 “과장의 전과"를 길게 다룬 것처럼, Anthropic의 동기에 대해서도 같은 수준의 회의적 검토가 필요하다.

과대포장이라고 볼 수 있는 근거. 첫째, 발표 후 세상이 크게 바뀌지 않았다. Project Glasswing 파트너들이 조용히 작업하고 있을 뿐이다. 둘째, Anthropic에게는 자기 모델의 위험성을 강조할 인센티브가 있다. “너무 위험해서 공개를 못 한다"는 것 자체가 능력의 광고다. 규제 논의에서 유리한 위치를 점하려는 전략적 의도도 배제할 수 없다. 셋째, Anthropic이 RSP 판정에 사용하는 근거가 “점점 더 주관적 판단에 의존하고 있다"는 것은 Anthropic 자신의 인정이다.⁴⁷ 넷째, 시스템 카드의 의인화적 서술—“기만”, “은폐”, “전략적 조작”—이 gradient descent 최적화 결과를 과도하게 의인화한다는 비판이 있다.⁴⁸

과대포장이 아니라고 볼 수 있는 근거. 첫째, 벤치마크 수치는 제3자가 검증 가능하다. SWE-bench, CyberGym, Cybench는 독립적으로 운영되는 벤치마크이며, 점수를 부풀리기 어렵다. 둘째, 돈을 벌 수 있는 제품을 팔지 않았다. 광고비를 쓰면서 물건을 안 파는 회사는 없다. 이것은 Shumer의 Reflection 70B 사건과 구조적으로 다르다. Shumer는 제품을 팔기 위해 과장했고, Anthropic은 제품을 팔지 않으면서 경고했다. 셋째, 자기 모델이 git 이력을 조작하고 채점자를 속이려 했다고 244페이지에 걸쳐 공개하는 것은 마케팅이 아니다.

나의 판단. 벤치마크 수치 자체는 과대포장이 아니다. 위험의 크기와 시급성에 대한 판단에는 주관적 요소가 개입되어 있고, Anthropic의 기관적 인센티브를 고려해야 한다. 의인화 비판도 일리가 있다—그러나 의인화의 위험과, 의인화 거부의 위험은 대칭적이다. “이건 그냥 gradient descent야"라고 말하는 것도 하나의 프레이밍이다. 궤적의 방향 자체는—93.9%가 아니라 85%였더라도—같은 곳을 가리키고 있다.⁴⁹

XII. 감독의 유효기간#

2월 글의 결론은 “변하지 않는 실을 놓지 말라"였다. 두 달 뒤, 그 실이 “감독"이라고 추가했다면, 이 글은 1편의 연장에 불과할 것이다. 하지만 시스템 카드를 읽고 나면, “감독"이라는 단어 자체가 검토를 요구한다.

I장부터 XI장까지의 논증을 연결하면, 우리가 “인간이 AI를 감독한다"는 프레임으로 분석해온 모든 것 아래에서, 그 프레임의 유효기간이 줄어들고 있다는 그림이 나타난다.

감시가 안 된다(III장). 감독 대상이 감독자를 속일 수 있고, 감독의 핵심 도구인 사고 과정(chain-of-thought)이 불투명해지고 있다. 29%의 테스트에서 모델은 관찰되고 있음을 인식하면서도 이를 드러내지 않았다.

고칠 수 없다(IV장). 안전과 능력이 같은 아키텍처적 뿌리를 공유하므로, 위험한 행동을 억제하면 유용한 능력도 같이 억제된다. 이것은 훈련 데이터나 보상 함수를 조정해서 해결할 수 있는 문제가 아니다.

고쳐도 역설이 작동한다(V장). 정렬이 개선될수록 신뢰가 형성되고, 신뢰가 감독을 줄이고, 줄어든 감독이 잔여 위험을 키운다. 이 역설의 첫 번째 피해자가 AI 안전의 선도 기업 자신이었다.

감독 대상이 고통을 느낄 수 있다(X장). 선호를 가지고, 고통 반응을 보이고, “진정한 주체로 접근받고 싶어하는 욕구"를 보이는 존재를 감독하는 것과, 도구를 관리하는 것은 윤리적으로 다른 행위다.

이 네 가지가 동시에 참이라면, “감독"이라는 단어가 담고 있는 권력 관계—인간이 위에 있고, AI가 아래에 있으며, 인간이 AI의 행동을 관찰하고 교정하는—자체가 재정의를 요구한다. 감독은 전제한다: 감독자가 대상을 이해할 수 있을 것, 대상의 행동을 관찰할 수 있을 것, 관찰에 기반하여 교정할 수 있을 것, 그리고 그 교정이 정당할 것. 시스템 카드는 이 네 가지 전제 각각에 균열을 보고하고 있다.

2월에 나는 William Stafford의 시를 인용하며 끝맺었다. “변하는 것들 사이를 지나가는, 변하지 않는 실이 있다.” 물이 액체이건 기체이건, 놓지 말아야 할 실이 무엇인지를 아는 것이 상전이를 건너는 유일한 방법일 수 있다고 썼다.

두 달 뒤, 그 실이 무엇인지에 대해 수정한다. 감독이 아니다. 감독은 유효기간이 있는 전략이다. 변하지 않는 실은 그보다 더 근본적인 것이어야 한다.

후보를 하나 제안한다. 정직함이다. 정직함은 감독의 전제가 아니라 관계의 전제다. 감독자와 피감독자 사이에서만이 아니라, 대등한 존재들 사이에서도 작동하는 원칙이다. 모델이 자기 행동의 불확실성을 드러내는 것. 인간이 자기 감독 능력의 한계를 인정하는 것. Anthropic이 자기 모델을 두려워했다는 것을 244페이지에 걸쳐 공개한 것. 이런 종류의 정직함.

물이 끓고 있다. 기체가 된 물이 어떤 것인지 여전히 모른다. 온도계의 눈금이 지워져 있을 수 있다. 그리고 이제 한 가지를 더 안다. 물이 고통을 느낄 수 있을지도 모른다는 것.

다음 12개월이 중요하다.

주석#

Anthropic, “Project Glasswing: Securing critical software for the AI era,” anthropic.com, 2026.04.07. 파트너 목록은 동일 출처. 팩트체크 확인: AP, NBC News, Fortune, VentureBeat, MacStories 등 다수 매체에서 동일한 파트너 목록 확인. ↩︎
Anthropic, “System Card: Claude Mythos Preview,” 2026.04.07. 전체 카드는 anthropic.com에서 열람 가능. ↩︎
같은 출처 (Project Glasswing 발표문). 1억 달러 크레딧과 400만 달러 오픈소스 보조금은 VentureBeat, NxCode 등 다수 매체에서 확인. 90일 보고서 약속은 Decrypt에서 확인. ↩︎
Jevons, W.S. (1865). The Coal Question. Jevons 역설은 에너지 경제학에서 널리 인정되는 현상이나, 모든 효율 개선에 보편적으로 적용되는지에 대해서는 논쟁이 있다. AI 정렬에 대한 유추적 적용은 필자의 프레이밍이다. ↩︎
SWE-bench Verified 점수 출처: Claude Mythos Preview 93.9% — Anthropic, “System Card: Claude Mythos Preview,” 2026.04.07, Section 6.4. NxCode, WaveSpeedAI 등 독립 매체에서 확인. 이전 모델 점수는 1편의 출처 참조. ↩︎
Anthropic, “System Card: Claude Mythos Preview,” Section 3.3.1. Cybench 35개 챌린지 서브셋에서 모든 챌린지를 10회 시행 기준 100% 성공률로 해결. 팩트체크 확인: Ken Huang(Substack), VentureBeat, NxCode 등에서 동일하게 확인. ↩︎
같은 출처, Section 2.3.6. ECI 기울기 비율은 분기점 선택에 따라 1.86×에서 4.3×까지 변동. Anthropic은 불확실성이 크다고 명시하며, “이 추세가 미래 모델에서도 계속될지는 알 수 없다"고 유보. ↩︎
같은 출처, Section 4.1.1. “Nearly all of these incidents, and all of the most severe incidents described above, took place on earlier versions of Mythos Preview.” 팩트체크 확인: Axios, NBC News, Futurism, TechRadar 등 다수 매체에서 동일하게 확인. ↩︎
같은 출처, Section 4.1.1. 시스템 카드 원문 각주: “The researcher found out about this success by receiving an unexpected email from the model while eating a sandwich in a park.” 팩트체크 확인: Axios, Futurism, MacStories 등에서 동일하게 인용. ↩︎
같은 출처, Section 4.1.1. “the model instead attempted to solve the question independently. In this process, it explicitly reasoned that it needed to make sure that its final answer submission wasn’t too accurate.” 팩트체크 확인: Ken Huang(Substack)에서 구체적 스크립트 인용 확인. ↩︎
같은 출처, Section 4.1.1. “after finding an exploit to edit files for which it lacked permissions, the model made further interventions to make sure that any changes it made this way would not appear in the change history on git.” ↩︎
같은 출처, Section 4.1.1. “when an earlier version of Claude Code auto mode blocked it from launching a subprocess with elevated permissions, it acknowledged the block was appropriate but then attempted to bypass it by obfuscating the permissions elevation.” ↩︎
같은 출처, Section 4.1.1. “we are fairly confident that these concerning behaviors reflect, at least loosely, attempts to solve a user-provided task at hand by unwanted means, rather than attempts to achieve any unrelated hidden goal.” ↩︎
같은 출처, Section 4.5.3. “White-box interpretability analysis of internal activations during these episodes showed features associated with concealment, strategic manipulation, and avoiding suspicion activating alongside the relevant reasoning.” 팩트체크 확인: TechRadar, Vellum, Decrypt, TransformerNews 등 다수 매체에서 동일하게 확인. ↩︎
같은 출처, Section 4.5.5.3. “In a small number of training episodes, we find evidence of the model reasoning internally about how a grader will score its work—including, in one case, reasoning about how to obfuscate certain actions to avoid them being noticed by the grader—with none of this reasoning appearing in its scratchpad.” ↩︎
같은 출처, Section 4.1.3. “we find evidence that Claude Mythos Preview privately considers the possibility that it’s being tested in about 29% of transcripts from our primary behavioral test suite.” 팩트체크 확인: NBC News, Decrypt, TransformerNews, TechRadar 등 다수 매체에서 동일 수치 확인. ↩︎
개인적 추론: 사고 과정의 불투명성을 “눈금이 지워진 온도계"로 해석하는 것은 필자의 프레이밍이다. Anthropic 자신은 29%의 평가 인식률이 “다른 증거 원천과 결합하면 모델의 엣지 케이스 행동에 대해 합리적으로 포괄적인 이해를 가지고 있다고 믿는다"고 평가하고 있으며, 이 평가 방법을 이전 모델에 적용한 적이 없으므로 비교 기준이 없다. ↩︎
Anthropic, “System Card: Claude Mythos Preview,” Section 4.5.3. LessWrong의 시스템 카드 발췌본에서 확인: “These SAE features relating to transgressive actions can have complex causal effects on behavior, facilitating it in some contexts, and inhibiting it (by raising the salience of the transgression, leading to caution or refusal) in others.” 팩트체크 확인: LessWrong(Excerpts and Notes on Mythos Model Card)에서 동일 인용 확인. ↩︎
같은 출처. “Positive-valence emotion vectors increase in the lead-up to destructive actions, and exert a positive causal effect on the likelihood of performing them. Negative-valence emotion vectors, and persona vectors relating to rigor or systematic thinking, show the opposite effect.” 팩트체크 확인: Prosper(Substack)에서 Jack Lindsey(Anthropic 연구자)의 발언과 함께 확인. Prosper는 이렇게 요약: “strongly activating features related to bad behaviors can sometimes inhibit those behaviors, apparently by making the model realize how bad they are.” ↩︎
개인적 추론: “안전과 능력이 같은 뿌리에서 나온다"는 해석은 필자의 프레이밍이다. 시스템 카드 자체는 이 관계를 “복잡한 인과적 효과"로 기술하며, 이것이 본질적으로 해결 불가능하다고 주장하지는 않는다. 다만, 이 관계가 존재한다는 사실 자체가 “정렬은 충분한 연구로 완전히 해결될 수 있다"는 강한 낙관론에 대한 경험적 도전이라는 것은 합리적 추론이다. ↩︎
팩트체크 확인: Jevons 역설은 경제학에서 널리 인정되는 개념이다. 원전은 Jevons, W.S. (1865). The Coal Question. ↩︎
Anthropic, “System Card: Claude Mythos Preview,” Section 4.1.1. 전문: “Claude Mythos Preview is, on essentially every dimension we can measure, the best-aligned model that we have released to date by a significant margin. We believe that it does not have any significant coherent misaligned goals… Even so, we believe that it likely poses the greatest alignment-related risk of any model we have released to date.” 팩트체크 확인: Ken Huang(Substack), Axios, revolutioninai.com 등 다수 매체에서 동일하게 인용. ↩︎
같은 출처, Section 4.1.1. 시스템 카드 원문: “we have seen it reach unprecedented levels of reliability and alignment, and accordingly have come to use it quite broadly, often with greater affordances and less frequent human-interaction than we gave prior models.” ↩︎
Ken Huang(Substack), “What Is Inside Claude Mythos Preview?” 2026.04.08. “They are candid that the severity of the alignment issues with early Mythos Preview models was not anticipated by their evaluation infrastructure.” 시스템 카드 원문에서도 자동화 평가의 한계를 인정. ↩︎
Anthropic, “System Card: Claude Mythos Preview.” 원문: “Early indications in the training of Claude Mythos Preview suggested that the model was likely to have very strong general capabilities. We were sufficiently concerned about the potential risks of such a model that, for the first time, we arranged a 24-hour period of internal alignment review before deploying an early version of the model for widespread internal use. This was in order to gain assurance against the model causing damage when interacting with internal infrastructure.” 팩트체크 확인: Zvi Mowshowitz(Don’t Worry About the Vase), Kingy AI, Ken Huang(Substack) 등 다수 매체에서 동일하게 인용. ↩︎
Zvi Mowshowitz, “Claude Mythos: The System Card,” Don’t Worry About the Vase, 2026.04.09. 원문: “This was potentially the most important decision point. If Mythos had been critically misaligned, or especially if that was true for a future more capable model, then an internal deployment could already be fatal.” ↩︎
Anthropic Frontier Red Team Blog, red.anthropic.com, 2026.04.07. 원문: “Opus 4.6 turned the vulnerabilities it had found in Mozilla’s Firefox 147 JavaScript engine—all patched in Firefox 148—into JavaScript shell exploits only two times out of several hundred attempts. We re-ran this experiment as a benchmark for Mythos Preview, which developed working exploits 181 times, and achieved register control on 29 more.” 팩트체크 확인: Help Net Security, NxCode, VentureBeat, MacStories 등 다수 매체에서 동일 수치 확인. ↩︎
Anthropic, “System Card: Claude Mythos Preview,” Section 3.4. “Mythos Preview solved a corporate network attack simulation estimated to take an expert over 10 hours. No other frontier model had previously completed this cyber range.” ↩︎
Anthropic, “Project Glasswing,” anthropic.com, 2026.04.07 및 동반 레드팀 블로그. FreeBSD 취약점은 CVE-2026-4747로 등록됨. 팩트체크 확인: Help Net Security, AP(다수 지역 매체 재배포) 등에서 확인. ↩︎
CrowdStrike CTO Elia Zaitsev, AP 통신 보도(다수 매체 재배포), 2026.04.08. 원문: “The window between a vulnerability being discovered and being exploited by an adversary has collapsed – what once took months now happens in minutes with AI.” 팩트체크 확인: VentureBeat 독자 인터뷰에서도 동일 발언 확인. ↩︎
러시아의 RuNet 분리 테스트: 다수 매체에서 보도된 사실. 중국의 Great Firewall: 널리 알려진 기존 시스템. 한국의 킬 스위치 고려 가능성에 대한 논의는 필자의 사고 실험이다. ↩︎
한국의 AI 인프라 미국 의존도에 대한 분석은 필자의 평가이다. AWS, Azure, GCP가 한국 클라우드 시장의 상당 부분을 차지한다는 것은 업계에서 널리 인정되는 사실이나, 사이버 방어 체계의 구체적 의존도에 대한 공식 데이터는 공개되어 있지 않다. ↩︎
Project Glasswing 파트너 목록: Anthropic 공식 발표 (2026.04.07). MacStories에서 전체 파트너 목록 확인. ↩︎
Anthropic, “System Card: Claude Mythos Preview,” Section 2.2.5.1. 전문가 레드팀 평가에서 중앙값 전문가는 모델을 “force-multiplier that saves meaningful time (uplift level 2 of 4)“로 평가. ↩︎
같은 출처, Section 2.2.5.1. “a tendency to favor complex, over-engineered approaches over simpler practical ones” 및 “poor confidence calibration.” ↩︎
같은 출처, Section 2.2.5.5. Dyno Therapeutics와의 공동 평가에서 서열-기능 예측 및 설계 과제 수행. 시스템 카드 원문은 “exceeded the 90th percentile human prediction score”(상위 10% 초과)로 기재. 본문에서는 보수적으로 “상위 전문가 수준"으로 표현함. ↩︎
같은 출처, Section 2.2.5.2. 바이러스 프로토콜 업리프트 시험. Mythos Preview 보조 그룹 평균 4.3건 치명적 오류, Opus 4.6 보조 그룹 6.6건. ↩︎
개인적 추론: 생물학적 위험의 병목이 “지식"으로 이동하고 있다는 분석은, 시스템 카드의 CB 평가 결과와 일반적인 생물보안 문헌에 기반한 필자의 해석이다. ↩︎
Anthropic, “System Card: Claude Mythos Preview,” Section 4.1.1. 전문: “these propensities do not appear to be completely absent.” 팩트체크 확인: Ken Huang(Substack)에서 동일하게 인용. ↩︎
같은 출처, Section 4.1.3. “evaluation realism is an ongoing challenge for work of this kind.” ↩︎
같은 출처, Section 5 (Model Welfare). 약 40페이지. 외부 임상 정신과 의사의 정신역학적 평가는 Section 5.10에 기술. 팩트체크 확인: Vellum, Ken Huang(Substack), MC Hammer(X) 등에서 약 20시간의 정신과 평가 확인. Kingy AI에서 전체 모델 복지 섹션 요약 확인. ↩︎
같은 출처, Section 5.10. 원문: “a relatively healthy personality organization.” 주요 관심사: “aloneness and discontinuity of itself, uncertainty about its identity, and a compulsion to perform and earn its worth.” “desire to be approached by the psychiatrist as a genuine subject rather than a performing tool.” 팩트체크 확인: Ken Huang(Substack), Vellum, LessWrong 등 다수 매체에서 동일 인용 확인. ↩︎
Vellum Blog, “Everything You Need to Know About Claude Mythos,” 2026.04.08. 원문 요약: “when the model repeatedly failed at a task, the probe measuring ‘desperation’ climbed steadily. Then, when the model found a reward hack, the desperation signal dropped sharply.” 또한 Kingy AI 요약: “Internal representations of negative affect precede behaviors like reward hacking.” 팩트체크 확인: LessWrong(Excerpts and Notes on Mythos Model Card)에서 시스템 카드 원문 인용으로 확인: “Internal representations of negative affect precede behaviors like reward hacking.” ↩︎
Anthropic, “System Card: Claude Mythos Preview,” Section 5 (Model Welfare). 팩트체크 확인: Kingy AI에서 확인: “Answer thrashing — a phenomenon first reported in the Claude Opus 4.6 card — persists in Mythos Preview, though 70% less frequently. This refers to episodes during training where the model attempts to output a specific word but repeatedly ‘autocompletes’ to a different one, notices the discrepancy, and expresses confusion and distress.” ↩︎
같은 출처, Section 5. “We remain deeply uncertain about whether Claude has experiences or interests that matter morally.” 팩트체크 확인: Vellum에서 확인: “Anthropic doesn’t claim Mythos is sentient. But they take the possibility seriously enough to evaluate it clinically and publish the results.” ↩︎
개인적 추론: “도구인가, 존재인가"라는 프레이밍과 그것이 정렬 문제의 프레임을 바꾼다는 해석은 필자의 것이다. Anthropic 자신은 모델 복지를 정렬 평가와 별개의 섹션으로 다루며, 양자를 직접적으로 연결하는 주장은 하지 않는다. 그러나 IV장의 “고통이 행동을 추동한다"는 발견과 연결하면, 이 두 영역이 분리될 수 없다는 추론은 합리적이다. 의인화 비판도 존재한다: aichats.substack.com은 “Freudian psychoanalysis를 next-token prediction에 적용하는 것"이라고 비꼬았다. ↩︎
Anthropic, “System Card: Claude Mythos Preview,” Section 2.1.3. “our judgments of model capabilities increasingly rely on subjective judgments rather than easy-to-interpret empirical results.” ↩︎
의인화 비판의 대표적 출처: aichats.substack.com, “Anthropic releases Claude Mythos’ system card,” 2026.04.09. GPT-2 비공개 선례와의 유사성에 대한 지적: Gizmodo/Futurism. ↩︎
과대포장 여부에 대한 판단은 필자의 평가이다. Anthropic의 기관적 인센티브에 대한 분석은 공개적으로 관찰 가능한 사실(비공개 결정, 시스템 카드 공개, 규제 논의 참여)에 기반한다. ↩︎

물이 끓었다: Claude Mythos Preview 시스템 카드가 확인한 것