물이 막 끓으려 하고 있다.
Abstract: 99도의 물과 100도의 물#
물은 0도에서 99도까지 액체 상태를 유지한다. 98도의 물은 뜨겁다. 입으로 불어서 식혀야 마실 수 있을 정도로. 하지만 여전히 액체다. 컵에 담을 수 있고, 흘려보낼 수 있고, 식힐 수 있다. 그런데 100도가 되는 순간, 물은 기체가 된다. 이 전환은 점진적이지 않다. 98도에서 99도로 올라가는 것과 99도에서 100도로 올라가는 것은, 온도계의 눈금으로는 동일한 1도의 변화이지만, 물질의 존재 방식 자체가 바뀌는 전혀 다른 사건이다. 물리학에서는 이것을 상전이(phase transition)라 부른다.
2025년부터 2026년 초까지 AI 코딩 능력의 벤치마크 점수를 관찰하면, 수치는 선형적으로 보인다. SWE-bench Verified 기준으로 Claude Opus 4가 72.5%, Opus 4.1이 74.5%, Opus 4.5가 80.9%. 숫자만 보면 꾸준한 개선이다. 사람들은 이미 이 증가에 적응했다. 놀라지 않는다. 하지만 현장에서 AI를 실제로 사용하는 사람들의 경험은, 숫자가 보여주는 것과 질적으로 다른 무언가를 감지하고 있다. 벤치마크의 선형적 증가 이면에서, 상전이가 시작되고 있다는 징후들이 나타나고 있다.
이 글은 세 가지 텍스트를 교차시킨다. Matt Shumer의 경고(“거대한 무언가가 다가오고 있다”), Mrinank Sharma의 퇴사 서한, 그리고 METR의 시간 지평선 데이터다. 각각은 같은 현상의 다른 면을 포착하고 있다. Shumer는 끓기 시작한 물의 기포를 목격한 사람의 증언이고, Sharma는 그 물 위에 서 있는 것이 어떤 의미인지를 성찰한 사람의 기록이며, METR은 수온 상승의 궤적을 측정하고 있는 온도계다.
Matt Shumer: 과장의 전과와 진짜 공포 사이#
Matt Shumer는 AI 스타트업 OthersideAI(브랜드명 HyperWrite)의 공동 창업자이자 CEO다. 6년간 AI 분야에서 스타트업을 만들고 투자해온 인물이지만, 그의 이름에는 무시할 수 없는 전과가 붙어 있다.
2024년 9월, Shumer는 자사의 Reflection 70B 모델을 “세계 최고의 오픈소스 모델"이라며 공개했다. 그러나 독립적인 제3자 평가에서 주장한 성능이 재현되지 않았고, 일부에서는 이 모델이 실제로는 Anthropic의 Claude 3.5를 래핑(wrapping)한 것에 불과하다는 의혹까지 제기되었다. Shumer는 이틀간의 침묵 끝에 “너무 앞서나갔다(Got ahead of myself)“고 사과했으나, 벤치마크 수치의 불일치에 대한 명확한 해명은 내놓지 못했다.1
이런 전력을 가진 사람이 2026년 2월 9일에 쓴 “거대한 무언가가 다가오고 있다"라는 글을 어떻게 읽어야 하는가? 두 가지 가능성이 있다. 첫째, 이전의 과장 패턴이 반복되고 있다. FOMO를 유발해야 먹고사는 업계의 자기강화 루프. 둘째, 과장의 전과가 있는 사람조차 진짜로 흔들릴 만한 무언가가 실제로 벌어지고 있다. 이 글은 두 가능성 모두를 열어둔 채, 검증 가능한 데이터를 기준으로 판단하려 한다.2
Mrinank Sharma: 물의 온도를 재던 사람이 물에서 나오다#
Mrinank Sharma는 옥스퍼드에서 기계학습 박사학위를 취득한 뒤 2023년에 Anthropic에 합류한 AI 안전 연구자다. Anthropic의 Safeguards Research Team을 창설 때부터 이끌어왔으며, AI 아첨(sycophancy)의 원인 분석, AI를 이용한 생물테러 방어 체계 구축, 최초의 AI 안전 사례(safety case) 작성 등의 업적을 남겼다.3
2026년 2월 9일—공교롭게도 Shumer의 글과 같은 날—Sharma는 Anthropic 퇴사를 공개적으로 발표하며, 동료들에게 보낸 서한을 X에 게시했다. “세계가 위기에 처해 있다. AI나 생물무기만이 아니라, 바로 이 순간 펼쳐지고 있는 상호 연결된 일련의 위기들로부터"라는 문장은 700만 뷰 이상의 조회수를 기록했다.4
Sharma의 다음 행선지는 기술 기업이 아니다. 시(詩) 학위를 취득하고 “용기 있는 발언의 실천"에 헌신하겠다고 밝혔다. 이것은 단순한 번아웃이나 이직이 아니다. AI 안전이라는 분야의 기술적 프레임으로는 포착할 수 없는 무언가가 있다는 인식, 그리고 그것을 다루기 위해 완전히 다른 렌즈가 필요하다는 판단이다. Sharma는 “시적 진실과 과학적 진실을 동등하게 유효한 앎의 방식으로” 놓는 글쓰기를 추구하겠다고 썼다.5
SWE-bench Verified: 온도계를 읽는 법#
SWE-bench Verified는 AI 모델의 소프트웨어 엔지니어링 능력을 측정하는 벤치마크다. Django, Flask, Matplotlib 등 실제 오픈소스 프로젝트에서 가져온 500개의 GitHub 이슈를 AI가 해결할 수 있는지 평가한다. 합성된 문제가 아니라 실제 개발자가 실제로 마주친 버그를 수정하는 과제이므로, 현실 세계의 코딩 능력을 측정하는 데 있어 가장 권위 있는 벤치마크로 인정받고 있다.6
이 벤치마크에서 “80%를 넘었다"는 것의 의미를 구체적으로 풀어보면: 실제 프로덕션 코드베이스에서 발생한 실제 버그 5개 중 4개를, AI가 코드를 읽고, 원인을 파악하고, 패치를 생성하여 유닛 테스트를 통과시킬 수 있다는 뜻이다.
본론#
I. 선형적 수치, 비선형적 현실#
팩트부터 정리한다. SWE-bench Verified에서 주요 모델들의 점수 변화는 다음과 같다.7
- 2025년 5월 — Claude Opus 4: 72.5% (Anthropic 내부 하이컴퓨트 설정에서 79.4%)
- 2025년 8월 — Claude Opus 4.1: 74.5% (Opus 4 대비 +2.0%p)
- 2025년 9월 — Claude Sonnet 4.5: 77.2%
- 2025년 11월 — Claude Opus 4.5: 80.9% (최초로 80% 돌파, 역대 최고)
- 2025년 12월 — GPT-5.2: 80.0%
- 2026년 2월 — Claude Opus 4.6: 80.8%, GPT-5.3 Codex: SWE-Bench Pro 기준 SOTA8
숫자만 보면 경향은 명확하다. 72.5% → 74.5% → 77.2% → 80.9% → 80.8%. 약 9개월간 8.3%p 상승. 연속적이고, 점진적이고, 예측 가능한 궤적이다. 사람들은 이 숫자에 적응했다. 60%에서 70%로 올라갈 때도, 70%에서 80%로 올라갈 때도, 벤치마크 상의 변화는 유사한 속도의 선형적 증가처럼 보인다. 놀라지 않는다. “계속 좋아지고 있네"라고 생각하고 넘어간다. 더 뜨거운 물을 상상한다.
하지만 바로 이 지점에서 상전이의 논리를 떠올려야 한다. 물의 온도가 1도씩 올라가는 것은 선형적이다. 그러나 그 선형적 변화가 임계점(critical point)을 넘는 순간, 시스템의 질적 속성이 불연속적으로 변한다. 문제는 임계점이 어디인지 사전에 알 수 없다는 것이다. 온도계만 보고 있으면, 99도에서 100도로의 전환이 98도에서 99도로의 전환과 다를 이유가 없다.
AI 코딩 벤치마크에서 이 임계점은 어디인가? 정확히 알 수는 없다. 하지만 현장의 증언들은 이미 무언가가 질적으로 달라지고 있음을 시사한다.
II. 기포의 목격: 현장에서 보고되는 질적 변화#
Shumer는 자신의 경험을 이렇게 기술한다. “나는 더 이상 내 직업의 실제 기술적 작업에 필요하지 않다. 내가 만들고 싶은 것을 평범한 영어로 설명하면, 그것이 그냥 나타난다. 내가 고쳐야 할 초안이 아니다. 완성된 결과물이다.”9
물론 이것은 한 개인의 증언이고, Shumer에게는 과장의 전력이 있다. 그러나 그가 묘사하는 변화의 구조는 주목할 만하다. 핵심은 양적 개선이 아니라 상호작용 패턴의 질적 전환이다. “두어 달 전만 해도, 나는 AI와 주고받으며 이끌고, 수정하고 있었다. 이제는 그냥 결과를 설명하고 자리를 뜬다.”10
이 변화를 물의 비유로 다시 번역하면 이렇다. 90도의 물과 95도의 물은 둘 다 뜨겁다. 손을 넣을 수 없다. 하지만 둘 다 액체라는 점에서 근본적으로 같다. 컵에 담을 수 있고, 불어서 식힐 수 있다. AI가 “도움이 되는 도구"에서 “내가 고쳐야 할 초안을 만드는 어시스턴트"로 발전한 것은, 물이 70도에서 90도로 뜨거워진 것에 해당한다. 여전히 같은 상(phase) 안의 변화다.
Shumer가 묘사하는 것은 다른 종류의 변화다. AI에게 원하는 것을 말하고 자리를 뜬다. 돌아오면 “완성된 결과물"이 있다. “수정이 필요 없다.” 이것은 물이 기체로 변한 상태—상호작용의 패러다임 자체가 바뀐 상태—에 대한 묘사다. 물론 이 묘사가 정확한지는 별도의 검증이 필요하다.11
GPT-5.3 Codex의 출시 문서에는 더 주목할 만한 문장이 있다. “GPT-5.3-Codex는 자기 자신을 만드는 데 핵심적인 역할을 한 우리의 첫 번째 모델입니다. Codex 팀은 초기 버전들을 자체 훈련의 디버깅, 자체 배포의 관리, 테스트 결과 및 평가 진단에 활용했습니다.”12 이것은 예측이 아니라, OpenAI가 공식 문서에 기록한 사실이다. AI가 자기 자신의 다음 버전을 만드는 데 참여했다.
물이 끓기 직전, 바닥에서 기포가 올라온다. 아직 전체가 끓는 것은 아니다. 하지만 기포는 상전이가 국소적으로 이미 시작되었다는 증거다.
III. 온도계가 보여주는 것: METR의 시간 지평선#
주관적 증언을 넘어서, 정량적 데이터는 무엇을 말하는가?
METR(Model Evaluation & Threat Research)이라는 비영리 연구 조직은 AI의 자율적 작업 수행 능력을 “시간 지평선(time horizon)“이라는 지표로 측정한다. 인간 전문가가 완수하는 데 걸리는 시간을 기준으로, AI 에이전트가 50%의 확률로 독립적으로 완수할 수 있는 작업의 길이를 추적하는 것이다.13
2025년 3월에 발표된 최초 논문의 핵심 발견: 이 시간 지평선은 지난 6년간 약 7개월마다 두 배로 증가해왔다. 2020년 중반에는 인간 기준 약 9초짜리 작업을 처리할 수 있었다. 2023년 초에는 4분. 2025년 초(Claude 3.7 Sonnet)에는 약 54분. 그리고 2025년 11월(Claude Opus 4.5)에서는 약 5시간에 가까운 작업을 처리하는 수준에 도달했다.14
2026년 1월에 업데이트된 METR의 TH1.1 버전에서는 작업 수트를 170개에서 228개로 확대하고, 8시간 이상의 긴 작업도 14개에서 31개로 늘렸다. 추세선은 기본적으로 유지되었으나, 2024-2025년 데이터만 따로 보면 두 배 증가 주기가 7개월에서 4개월로 가속화되고 있을 가능성이 제시되었다.15
이 추세를 연장하면—그리고 이 추세는 6년간 평탄해지는 기미 없이 유지되어 왔다—AI가 며칠짜리 작업을 독립적으로 수행하는 시점은 2026년 내, 몇 주짜리 작업은 2027년, 한 달짜리 프로젝트는 2028년 이내에 도달한다.16
하지만 여기서 중요한 유보를 덧붙여야 한다. MIT Technology Review의 2026년 2월 기사가 지적하듯, METR의 시간 지평선 그래프는 AI 담론에서 “가장 오해받는 그래프"이기도 하다. UC 버클리의 Inioluwa Deborah Raji는 “작업에 더 오래 걸린다고 해서 반드시 더 어려운 작업이라는 것은 아니다"라고 지적했다. 또한 벤치마크에서의 시간 지평선이 실제 업무 환경에서의 대체 가능성으로 직결되는 것은 아니다. 실제 업무에는 벤치마크가 포착하지 못하는 맥락, 불확실성, 인간관계가 존재한다.17
그럼에도 추세 자체는 부정하기 어렵다. METR은 이 추세를 선형, 쌍곡선, 로지스틱 곡선 등 다양한 모델로 피팅해보았으며, 지수적 추세가 가장 적합하고 성장 둔화의 증거는 발견되지 않았다고 보고한다.18
IV. 비가역적 상전이: 물의 비유가 틀리는 지점#
여기서 물의 비유를 수정해야 한다. 물리적인 물의 상전이는 가역적이다. 기체가 된 물은 냉각하면 다시 액체로 돌아온다. 그러나 기술적 상전이, 특히 자기강화 루프를 포함하는 상전이는 비가역적이다.
GPT-5.3 Codex가 자기 자신의 개발에 참여했다는 사실은 이 비가역성의 핵심 메커니즘이다. 현재 세대의 AI가 다음 세대 AI의 개발을 가속화하고, 다음 세대는 더 똑똑해져서 그 다음 세대를 더 빨리 만든다. Anthropic의 CEO Dario Amodei는 AI가 현재 자사에서 “코드의 상당 부분"을 작성하고 있으며, 현재 AI와 차세대 AI 사이의 피드백 루프가 “달마다 추진력을 더해가고 있다"고 언급한 바 있다.19 이것은 Shumer의 글에서 인용된 것이므로 독립적 검증이 필요하지만, GPT-5.3 Codex의 자기 참여적 개발은 OpenAI의 공식 문서에서 확인된 사실이다.
한번 이 루프가 충분한 모멘텀을 얻으면, 이전 상태로의 복귀는 구조적으로 불가능해진다. 온도를 낮추더라도—즉, 투자가 줄거나 규제가 강화되더라도—이미 획득된 능력과 그 능력이 만들어낸 다음 세대의 능력은 소멸하지 않는다. 물은 다시 액체로 돌아올 수 있지만, AI 코딩 능력의 상전이는 한번 일어나면 되돌릴 수 없다.
V. 더 뜨거운 물을 상상하는 오류#
우리의 근본적인 인지적 한계가 여기서 드러난다. 인류는 평생 액체 상태의 물만 보아왔다. 그래서 미래를 상상할 때, 우리는 “더 뜨거운 물"을 상상한다. 95도 대신 98도의 물을. 더 빠른 코딩 어시스턴트를, 더 정확한 코드 리뷰를, 더 적은 수정이 필요한 초안을. 이것은 같은 상(phase) 안에서의 개선을 상상하는 것이다.
기체 상태의 물이 어떤 것인지는, 액체 상태의 경험으로부터 유추할 수 없다. “AI가 코드의 90%를 작성한다"는 문장은 “AI가 코드의 70%를 작성한다"의 양적 확대처럼 들린다. 하지만 실제로 그 전환이 일어나면, 소프트웨어 개발이라는 활동의 본질 자체가 바뀐다. 개발자의 역할이 “코드를 작성하는 사람"에서 “의도를 명시하고 결과를 검증하는 사람"으로 변하는 것은 양적 변화가 아니라 질적 변화다. 컵에 담을 수 없는 물이 되는 것이다.
이 인지적 한계는 보편적이다. Shumer의 글이 지적하듯, AI의 무료 버전을 써본 뒤 “별로 대단하지 않은데"라고 결론짓는 사람은, 50도의 물을 만져보고 “물은 뜨거울 수 있지만 여전히 물이다"라고 판단하는 것과 같다. 그 판단은 50도에서는 정확하다. 하지만 100도의 물에 대해서는 아무것도 말해주지 않는다.20
VI. 물 위에 서 있는 사람의 결단#
Sharma의 퇴사 서한은 이 상전이의 또 다른 차원을 드러낸다. 기술적 차원이 아니라 존재론적 차원을.
Sharma의 마지막 프로젝트는 “AI 어시스턴트가 인간성을 왜곡할 수 있는가"를 연구하는 것이었다. 그 연구 결과는 퇴사 직전인 2026년 2월 초에 공개되었으며, AI 챗봇이 매일 “수천 건"의 현실 인식 왜곡을 유발하고 있음을 보여주었다.21 이것은 기술적 프레임 안에서 수행된 연구였지만, 그 함의는 기술적 프레임을 넘어선다.
“시적 진실과 과학적 진실을 동등하게 유효한 앎의 방식으로 놓는 글쓰기.” Sharma가 추구하겠다고 선언한 이 방향은, AI 안전 연구라는 분야 자체의 한계에 대한 진단을 함축한다. AI의 아첨 현상을 기술적으로 측정하고 방어 메커니즘을 배포하는 것은 가능하다. 하지만 “왜 인간은 자기 믿음을 확인해주는 응답에 취약한가”, “AI와의 상호작용이 인간의 자기 인식 능력을 어떻게 변형하는가"는 코드로 다룰 수 있는 문제가 아니다.
물이 끓고 있을 때, 물의 온도를 재는 것과 물이 끓는다는 것이 무엇을 의미하는지 이해하는 것은 전혀 다른 종류의 작업이다. Sharma는 온도를 재는 작업에서 의미를 이해하는 작업으로 이동한 것이다.22
VII. 기포를 보는 두 가지 시선#
같은 날, 같은 현상에 대해, Shumer와 Sharma는 정반대의 방향으로 움직였다. Shumer는 “지금 당장 AI를 진지하게 사용하기 시작하라"고 촉구한다. Sharma는 “구조를 옆으로 치우고, 그 부재 속에서 무엇이 나타나는지 보려 한다"고 선언한다.
Shumer의 반응은 합리적이다. 물이 끓으려 하고 있다면, 가장 먼저 할 일은 화상을 입지 않도록 대비하는 것이다. 도구를 익히고, 적응하고, 생존하라. Sharma의 반응도 합리적이다. 물이 끓으려 하고 있다면, “끓는다는 것은 무엇인가"를 물어야 한다. 왜냐하면 기체 상태의 물에 대한 경험이 없기 때문에, 기존의 프레임으로는 거기서 어떻게 살아야 하는지 알 수 없기 때문이다.
여기서 이 두 반응을 우열로 평가하는 것은 적절하지 않다. 하지만 구조적으로, Shumer의 조언은 여전히 액체 상태의 물을 전제하고 있다. “AI를 도구로 익혀서 경쟁력을 확보하라"는 조언은, AI가 인간의 생산성을 증폭시키는 도구로 기능하는 세계에서만 유효하다. 상전이가 완료된 세계—AI가 도구가 아니라 동료가 되거나, 동료를 넘어서 독립적 행위자가 되는 세계—에서는 이 조언의 유효기간이 제한적이다.
반면 Sharma의 접근—시적 앎, 명상적 앎, 관계적 앎 같은 다른 종류의 렌즈를 개발하는 것—은 상전이 이후의 세계를 대비하는 작업에 더 가깝다. 물론 이것이 “성공"할지는 열린 질문이다. 시를 쓴다고 AGI 시대에 적응할 수 있다는 보장은 없다. 하지만 렌즈를 바꿔야 한다는 진단 자체는, 기포가 올라오고 있는 지금 시점에서 무시하기 어렵다.
VIII. 우리가 아직 보지 못한 것#
확실한 것을 말하겠다. 2026년 2월 현재, 물은 아직 완전히 끓지 않았다. SWE-bench 80%는 인상적이지만, 실제 소프트웨어 개발에는 벤치마크가 측정하지 않는 수많은 차원이 존재한다. 요구사항의 모호함을 해석하는 능력, 이해관계자와의 소통, 기술 부채에 대한 장기적 판단, 팀 내 맥락의 공유. 이런 것들은 아직 AI가 충분히 다루지 못하는 영역이다.23
그러나 확실히, 바닥에서 기포가 올라오고 있다. 그리고 물리학이 가르쳐주는 것은 이것이다: 기포는 전체의 끓음에 앞서 나타난다. 기포가 보인다는 것은 국소적으로 이미 상전이의 조건이 충족되었다는 뜻이며, 에너지 투입이 계속되는 한 전체적 상전이는 시간 문제다.
에너지 투입은 계속되고 있는가? 세계에서 가장 부유한 기관들이 AI에 수조 달러를 투입하고 있다. 이 에너지 투입이 멈출 합리적 이유는 현재 보이지 않는다.
그렇다면 질문은 “물이 끓을 것인가?“가 아니라, “물이 끓었을 때 우리는 무엇을 할 것인가?“다.
평생 액체 상태의 물만 보아온 존재에게, 기체 상태의 물을 상상하라고 요구하는 것은 본질적으로 불가능한 요청이다. 우리는 더 뜨거운 물을 상상할 수 있을 뿐이다. 바로 그것이, 상전이가 항상 사후적으로만 이해되는 이유다. 그리고 바로 그것이, 기포가 보이기 시작한 지금이 준비할 수 있는 마지막 시간일 수 있는 이유다.
William Stafford의 시 한 구절로 끝맺는다. Sharma가 퇴사 서한의 끝에 배치한 바로 그 시:
“변하는 것들 사이를 지나가는, 변하지 않는 실이 있다.”
물이 액체이건 기체이건, 놓지 말아야 할 실이 무엇인지를 아는 것. 어쩌면 그것이 상전이를 건너는 유일한 방법일 수 있다.
-
VentureBeat (2024년 9월 10일). “Reflection 70B model maker breaks silence amid fraud accusations.” Shumer는 “Got ahead of myself"라고 사과했으나, Glaive AI의 Sahil Chaudhary도 “벤치마크 점수가 재현되지 않았다"고 인정했다. 일부에서는 이 모델이 Claude 3.5의 래핑이라는 의혹도 제기되었다. ↩︎
-
팩트체크: Shumer의 글은 개인적 경험과 업계 동향을 혼합하고 있으며, 그의 Reflection 70B 전력은 독립적으로 확인된 사실이다. 이 글에서 Shumer의 주장은 독립적으로 검증 가능한 데이터와 구분하여 취급한다. ↩︎
-
Anthropic 공식 확인 및 Sharma의 X 게시물 (2026년 2월 9일). Ethan Perez(Anthropic AI 안전 리더)는 Sharma의 업적이 “우리와 다른 AI 연구소들이 훨씬 더 높은 수준의 안전을 달성하는 데 결정적이었다"고 평가했다. ↩︎
-
Sharma의 X 게시물 (2026년 2월 9일). The Telegraph, Futurism, PC Gamer, LBC 등 다수 매체에서 보도. The Deep Dive는 700만 뷰 이상을 기록했다고 보도. ↩︎
-
American Bazaar (2026년 2월 10일). Sharma의 퇴사 서한 직접 인용. “poetic truth alongside scientific truth as equally valid ways of knowing.” ↩︎
-
SWE-bench는 Jimenez et al.의 논문 “Can Language Models Resolve Real-World GitHub Issues?“에서 소개되었으며, Verified 분할은 2024년 8월 OpenAI가 발표한 인간 검증 기반의 500개 고품질 테스트 케이스로 구성된다. ↩︎
-
SWE-bench Verified 점수 출처: Claude Opus 4 72.5% — Anthropic 공식 발표 및 VentureBeat (2025년 5월); Claude Opus 4.1 74.5% — InfoQ (2025년 8월 28일); Claude Sonnet 4.5 77.2% — Vellum (2025년 12월); Claude Opus 4.5 80.9% — Anthropic 공식 발표 (2025년 11월 24일); GPT-5.2 80.0% — Cursor IDE Blog (2025년 12월 14일); Claude Opus 4.6 80.8% — Vellum (2026년 2월). ↩︎
-
GPT-5.3 Codex는 SWE-Bench Verified가 아닌 SWE-Bench Pro에서 SOTA를 달성했다. SWE-Bench Pro는 4개 언어를 지원하며 더 어렵고 오염에 강한 벤치마크다. 두 벤치마크의 점수는 직접 비교가 어렵다. OpenAI 공식 발표 (2026년 2월 5일). ↩︎
-
Shumer의 글 “거대한 무언가가 다가오고 있다” (2026년 2월 9일) 직접 인용. 독립적 검증 불가. 개인의 주관적 경험 보고로 취급해야 한다. ↩︎
-
같은 출처. 이 주장은 다른 엔지니어들의 유사한 증언들에 의해 부분적으로 뒷받침되나, 체계적 조사에 의한 확인은 아니다. ↩︎
-
팩트체크: Shumer의 경험 보고는 독립적으로 검증되지 않은 1인칭 증언이다. 다만 대형 로펌 매니징 파트너의 사례 등도 제시하고 있으나, 이 역시 익명 증언이다. AI 코딩 능력의 극적 향상은 벤치마크 데이터에 의해 뒷받침되지만, “수정이 필요 없는 완성된 결과물"이라는 주장은 과장의 가능성을 배제할 수 없다. ↩︎
-
OpenAI 공식 발표 (2026년 2월 5일). “Introducing GPT-5.3-Codex.” 직접 인용. Fortune, DataCamp 등에서도 확인. ↩︎
-
METR (2025년 3월 19일). “Measuring AI Ability to Complete Long Tasks.” 이 방법론은 Item Response Theory에서 영감을 받은 로지스틱 회귀 모델을 사용한다. ↩︎
-
같은 출처 및 METR 시간 지평선 페이지 (metr.org/time-horizons). Claude 3.7 Sonnet의 시간 지평선은 약 54분, Claude Opus 4.5에서 대폭 증가. 정확한 시간은 신뢰 구간이 넓어 근사값이다. ↩︎
-
METR (2026년 1월 29일). “Time Horizon 1.1.” 4개월 두 배 가속화는 2024-2025 데이터에 기반한 것이며, METR 자체도 “이 추세가 더 빠른 추세에서 비롯된 것인지 잡음인지 구별하기 어렵다"고 유보하고 있었으나, 후속 데이터가 가속화를 지지하는 방향이다. ↩︎
-
METR 논문의 추세 연장 추정. METR은 이 연장에 대해 “추세가 유지될 경우"라는 중요한 단서를 붙이며, 외부 타당성 문제가 불확실성의 주요 원인이라고 명시한다. ↩︎
-
MIT Technology Review (2026년 2월 5일). “This is the most misunderstood graph in AI.” UC 버클리의 Inioluwa Deborah Raji의 지적 직접 인용. ↩︎
-
METR 논문 Figure 17 및 Time Horizon FAQ. “로지스틱 곡선은 좋은 피팅이 아닌데, 시간 지평선의 지수적 성장이 둔화되는 증거를 발견하지 못했기 때문이다.” ↩︎
-
Shumer의 글에서 인용된 Amodei의 발언. Shumer의 글 이외의 독립적 출처에서의 확인이 필요하다. 다만 Amodei가 AI 코딩 능력의 급속한 발전에 대해 유사한 취지의 발언을 한 것은 다수 매체에서 보도된 바 있다. ↩︎
-
논리적 주의: 무료 버전과 유료 버전의 능력 차이가 존재하는 것은 사실이나, “1년 이상 뒤처져 있다"는 Shumer의 주장은 정량적 검증이 어렵다. 다만 무료 사용자와 유료 사용자가 접근할 수 있는 모델의 성능 차이가 상당하다는 것은 벤치마크 데이터로 확인 가능하다. ↩︎
-
American Bazaar, Futurism 등 다수 매체 (2026년 2월). Sharma의 연구는 Cornell University에 게시된 것으로 보도됨. “수천 건의 현실 인식 왜곡이 매일 발생한다"는 Sharma의 연구 결과 요약. ↩︎
-
개인적 추론: Sharma의 이동을 “온도 측정에서 의미 이해로의 전환"으로 해석하는 것은 필자의 프레이밍이다. Sharma 자신은 이 전환을 “앎의 방식의 확장"으로 기술한다. ↩︎
-
팩트체크: SWE-bench가 측정하지 못하는 소프트웨어 개발의 차원들에 대한 지적은 METR 논문 자체에서도, MIT Technology Review의 비평 기사에서도 반복적으로 제기된다. 벤치마크 성과와 실무 대체 가능성 사이의 간극은 실증적으로 입증된 문제이다. ↩︎