6개월간 매달 $240이었다. 그러다 $2,375짜리 청구서가 도착했다.#

월별 청구 이력은 이렇다.

청구일 금액
2025-10-24 $150
2025-11-24 $210
2025-12-24 $180
2026-01-24 $240
2026-02-24 $240
2026-03-24 $2,375

대시보드의 invoice history 그래프가 그 점프를 시각적으로 보여준다.

Greptile billing dashboard: 5개월간 $150~$240으로 평평하다가 3월에 $2,375 막대 하나가 솟는다. 5월 사이클은 22일차 미리보기로 $1,433 (50% 할인 적용 $716.50), 사이클 종료(5월 24일) 시점엔 약 $1,000 안팎으로 굳어질 추세.

가격 모델 변경 통지는 3월 5일 메일 한 통으로 도착했다. 마케팅 이메일과 같은 채널로. 인앱 배너도, 대시보드 알림도, 다음 결제 전 동의 절차도 없었다. 우리는 그 메일을 제대로 읽지 않았고, 자동 결제는 그대로 빠져나갔다. 청구서 폭증을 발견한 건 한 달 반이 지난 뒤다.

항의 메일을 보냈고 9시간 만에 답이 왔다. 50% 환불($1,187.50)과 향후 12개월간 50% 할인을 제안받았다. 입금됐다.

그리고 우리는 그 도구를 취소하기로 결정했다.

여기서 다룰 것은 그 결정의 이유다. 단일 벤더 정책 문제가 아니라, AI 도구의 가격이 LLM 토큰 비용과 거의 1:1로 매핑되는 순간 그 도구의 비즈니스 모델이 구조적으로 종료된다는 결론에 어떻게 도달했는지에 대한 기록이다. 도구의 이름은 본문 후반부에 명시한다.


1. 가격 변경 자체는 합리적이다#

먼저 분명히 해두자. 가격 인상 자체에는 항의할 생각이 없었다.

이 도구는 내부적으로 frontier 모델(Claude, GPT 계열)을 호출한다. agentic 워크플로우로 PR을 양산하는 우리 같은 팀은 그 도구도 더 많은 LLM 토큰을 소비시킨다. frontier 모델 토큰 가격은 2025-2026년 사이 실제로 상승했다. 회사 입장에서 비용 구조가 바뀌었으면 가격을 올려야 할 수 있다. 그 자체는 합리적이다.

그러나 가격 모델을 바꿨다면, 두 가지가 따라왔어야 한다.

첫째, 통지가 사용자 동선 안에 있었어야 한다. 마케팅 이메일과 같은 채널로 한 통 보내고 끝나는 것은, 자동 결제로 6개월간 운영되던 계정에게 사실상 통지가 아니다. 인앱 배너, 대시보드 알림, 다음 결제 전 명시적 동의 — 적어도 하나는 있어야 했다.

둘째, 예측 초과 청구로 이어지는 모든 시점에 자동 차단이 있었어야 한다. $300을 예상하는 고객의 청구서가 $2,000을 넘어선 순간 시스템이 멈췄어야 한다. 사용자가 “이 한도까지는 더 써도 좋다"고 명시적으로 동의하기 전까지 새 가격제로 인한 추가 사용은 차단됐어야 한다.

이게 합리적인 결제 시스템의 기본이다. 디지털 SaaS의 사용량 기반 가격제에서는 이 기본이 자주 무시된다.


2. 50% 할인을 받고도 떠나는 이유 — 토큰 패스스루의 함정#

받은 합의를 펼쳐놓고 계산했다.

5월 진행 사이클 중간 시점 미리보기 (2026-05-15, 사이클 22일차): $1,433 (10명 × $30 base = $300 + flex 1,133 리뷰 × $1 = $1,133). 50% 할인 적용: $716.50.

사이클은 5월 24일에 종료된다. 8일이 남았다. 현재 진행 속도(약 22일에 1,133 flex = 51.5/day)를 그대로 직선 외삽하면 사이클 종료 시점 flex는 약 1,550개, 청구액은 약 $1,850 pre-discount, $925 post-discount. 사이클 마지막 며칠에 PR이 더 몰리는 보통의 패턴까지 감안하면 한 달 청구는 $1,000 안팎 또는 그 이상으로 굳어진다.

옛 정액제 기준: $300.

할인을 받고도 옛 가격의 약 3배 이상이 된다. 그리고 이 추세는 agentic 워크플로우를 줄이지 않는 한 다음 사이클에도 동일하게 누적된다.

여기서 한 가지 질문이 떠올랐다. 이 회사가 본질적으로 어떤 결정을 한 건가?

답은 명확했다. “Claude/GPT/Gemini의 토큰 사용량에 거의 1:1로 매핑되는 가격으로 청구한다"는 결정이다. 50 리뷰 base + 이후 리뷰당 $1 — 이 구조에서 $1은 사실상 그 한 번의 PR 리뷰가 호출하는 frontier 모델 토큰 비용에 마진을 얹은 것이다.

이 결정 자체는 합리적이다. 토큰 비용은 실제로 그 회사의 한계비용이다.

그러나 이 결정이 가격제로 외면화되는 순간 이상한 일이 일어난다. 그 도구의 부가가치 — 워크플로우 통합, UX, 코멘트 큐레이션, RL 기반 학습, GitHub integration — 가 토큰 비용에 비례하지 않게 된다.

정액제 $30/dev 시절의 거래는 명확했다. “통합된 워크플로우의 가치 = 정액제 가격.” 좋은 거래든 나쁜 거래든 우리는 워크플로우에 대해 돈을 냈다.

사용량 기반으로 옮긴 순간, 가격은 더 이상 워크플로우에 대한 것이 아니다. 가격은 LLM 호출량에 대한 것이 된다. 그리고 LLM 호출은 — 적어도 우리 같은 팀에게는 — 이미 직접 살 수 있는 상품이다. Claude API, OpenAI API, Gemini API 모두 직접 결제해서 자체 multi-agent 시스템에 쓰고 있다.

그렇다면 질문은 이렇게 바뀐다. “이 도구가 직접 LLM을 호출하는 것보다 어떤 추가 가치를 주는가?”

답은 — 솔직히 — 그렇게 크지 않다. PR 리뷰 자동화는 자체 워크플로우에 끼워넣을 수 있는 일이다. 이 도구의 진짜 가치는 통합된 SaaS의 편의성에 있었다. 그 편의성에 월 $300을 내는 건 합리적이었다. 그러나 토큰 비용에 마진을 얹은 한 달 $1,000 안팎을 내는 건 합리적이지 않다. 같은 토큰을 우리가 직접 호출하면서 우리 워크플로우에 맞게 커스터마이즈하면 된다.

가격 모델이 도구의 가치 명제를 무효화하는 지점이 있다. 이 도구는 그 지점을 넘었다.


3. 시장은 이미 다른 가격을 매기고 있었다#

이 카테고리에서 throughput에 과세하는 도구는 이 회사뿐이다.

도구 좌석당/월 리뷰 한도 초과 요금
이번 도구 $30 50 리뷰 $1/리뷰
CodeRabbit Pro (연납) $24 무제한 없음
GitHub Copilot Pro $10 PR 리뷰 포함 없음
Cursor BugBot Teams $40 무제한 없음

같은 frontier 모델을 호출하는 경쟁사들이 정액제를 유지한다. 두 가지 가능성이다. (1) 그들이 토큰 비용에 대해 더 효율적인 처리(모델 라우팅, 캐싱, 컨텍스트 압축)를 한다. (2) 그들이 토큰 비용을 한동안 흡수하면서 시장 점유율을 가져가고 있다.

어느 쪽이든 우리 입장에서 결론은 같다 — 고객이 동일한 가치를 정액제로 받을 수 있는 대안이 시장에 있다.1


4. 회사 자체 숫자의 모순#

회사 가격 변경 공지: “활성 사용자의 10% 미만만 초과 사용량에 도달할 것입니다.”

같은 회사 CEO 트윗에 따르면 PR당 평균 리뷰 1.2회. 50 리뷰 한도 = PR ≈42개/dev/월에 해당한다.

비교 수치들.

  • Linear社 R&D PR/dev/월 중간값: 33개 (2026년 3월 시점)2
  • Anthropic 자체 dogfooding: 30일간 Claude Code 기여의 100%가 Claude Code가 작성3

회사의 자기 숫자로 계산해도 50 리뷰 한도는 2024년 워크플로우에 맞춘 것이다. agentic 환경에서는 거의 모든 활성 사용자가 그 “10%“에 들어간다. 사용량 통계가 폭증한 이유는 사용자가 갑자기 미친 듯 일을 더 시켜서가 아니라, AI 보조 워크플로우의 사용량 기준선이 옛 가정과 다르기 때문이다.


5. 환불은 정책이 아니라 PR triage였다#

OSS 프로그램에 명시적으로 가입했고 회사가 승인 메일을 보낸 메인테이너도 청구를 받았다. 그 환불은 트위터에서 공개적으로 항의했을 때만 — DM을 통해, 사후적으로 — 처리됐다4.

우리가 받은 환불도 본질적으로 같은 구조다. 정중하게 이메일을 잘 쓰는 고객, 시간을 들여 항의하는 고객은 환불을 받는다. 청구서 폭증을 알아채지 못하거나 항의할 여유가 없는 고객은 그대로 결제된다.

이건 정책이 아니라 불만 관리다. 그리고 12개월 후 같은 협상을 다시 해야 한다. 좋은 벤더 관계는 매년 분쟁을 재개할 필요가 없다.

캘리포니아 자동갱신법(Cal. Bus. & Prof. Code §17600 et seq.)은 소비자 구독에 온라인 취소 경로를 의무화한다5. 이 도구는 인앱 취소 버튼이 없고 이메일로만 취소 요청이 가능하다. 11명 이상의 사용자가 X에 공개 보고했다4.


6. Steelman: “통합된 SaaS의 부가가치는 토큰 비용을 정당화한다”#

가장 강한 반론을 정직하게 펼쳐보자.

“이 도구는 단순 LLM 패스스루가 아니다. GitHub integration, 코멘트 큐레이션, author filter, 사용자 피드백 기반 RL 학습 — 이 모든 것이 도구의 부가가치다. 자체 multi-agent 시스템에 PR 리뷰 단계를 넣으려면 그 자체로 한 달 이상의 엔지니어링이다. 월 $638은 그 시간을 절약하는 비용이다.”

이 반론은 강하다. 정액제 $300 시절의 거래는 정확히 이 논리로 합리화됐다. 통합 작업의 시간 가치 > 도구 비용.

그런데 사용량 기반으로 옮기는 순간 비대칭이 발생한다.

부가가치는 통합의 가치 — 거의 상수. 워크플로우가 한 번 통합되면 그 가치는 매월 동일하다.

토큰 비용은 사용량 선형 함수. 우리가 agentic 워크플로우를 늘리면 토큰 비용도 같이 증가한다.

가격이 토큰 비용에 1:1로 매핑된 순간, 우리의 사용량 증가분이 도구의 부가가치를 정당화해야 한다. 그러나 부가가치는 상수이므로 사용량이 어느 임계점을 넘으면 가격이 부가가치를 추월한다.

비대칭 리스크는 이렇다.

  • 도구가 LLM 비용을 흡수하는 정액제로 가면: 단기 마진 손실, 장기 시장 점유 (CodeRabbit 가설)
  • 도구가 LLM 비용을 패스스루로 떠넘기면: 단기 마진 유지, 장기에 사용량 많은 사용자부터 자체 빌드로 이탈

장기 종착점은 분명하다. 패스스루 모델에서 가장 가치 있는 고객(사용량이 많고 토큰 비용을 많이 부담하는 고객)이 가장 먼저 떠난다. 남는 건 사용량이 적어 한계비용이 낮지만 매출도 적은 고객뿐이다.


7. 추적 가능한 지표 — 같은 결정을 내려야 할 때#

  1. 자기 청구서의 base vs flex 비율을 추적하라. flex가 base를 넘는 순간 정액제 대안으로 이전하는 게 합리적이다.

  2. AI 도구 벤더의 가격 변경 통지 채널을 확인하라. 인앱 알림 없이 메일 한 통으로 가격을 변경한다면 그 자체로 red flag다.

  3. 자동 결제 한도 설정 가능 여부를 확인하라. 없으면 정액제 도구 우선.

  4. 자체 워크플로우에 그 기능을 직접 넣을 수 있는 팀이면 손익분기점을 계산하라. (도구 월비) / (직접 호출 시 토큰비) < 1이면 자체 빌드가 합리적이다.

  5. 경쟁사 카테고리에서 같은 frontier 모델을 정액제로 제공하는 벤더(CodeRabbit, GitHub Copilot, Cursor 등)의 다음 가격 발표를 추적하라. 모두가 사용량 기반으로 옮겨가면 자체 빌드 외의 옵션이 없다.

우리는 1번에서 이미 임계점을 넘었고, 4번이 가능한 팀이며, 5번이 아직 정액제 옵션을 제공한다. 결정은 단순했다.


8. 도구의 이름#

이 글은 Greptile에 관한 글이다. greptile.fail6에 정리된 내용과 우리 팀의 실제 청구 기록을 바탕으로 썼다.

이 글이 그 회사를 매장하려는 게 아니라는 점을 분명히 한다. 응대해준 직원은 친절했고 빠른 환불을 처리해주었다. 회사 자체에 악의가 있다고 보지 않는다.

그러나 가격 모델은 사람의 성격이 아니라 시스템의 인센티브다. 이번 가격 모델은 도구의 부가가치를 LLM 토큰 비용 아래로 끌어내렸다. 그것은 회사의 잘못이라기보다 회사가 부가가치를 어디에 두었는가에 대한 정직한 노출이다.

좋은 도구가 좋은 비즈니스 모델을 찾기를 바란다. 그 사이의 시간 동안, 우리는 다른 도구로 갈아탄다. 또는, 그 기능을 직접 만든다.


TLDR#

  1. AI 코드 리뷰 도구의 청구서가 $240 → $2,375로 한 달 사이 10배 폭증. 통지는 마케팅 메일 한 통.
  2. 50% 환불($1,187.50)과 12개월 50% 할인 받았지만 한 달 청구는 여전히 $1,000 안팎 — 옛 정액제의 3배 이상.
  3. 가격이 LLM 토큰 비용에 1:1로 매핑되는 순간 도구의 부가가치는 상대적으로 줄어든다. 도구는 패스스루가 된다.
  4. 같은 frontier 모델을 정액제로 제공하는 경쟁자(CodeRabbit $24, Copilot $10, Cursor $40)가 이미 시장에 있다.
  5. 회사 자기 숫자(50 리뷰 한도)는 2024년 워크플로우 기준. agentic 환경에서는 거의 전원이 초과한다.
  6. 환불은 정책이 아니라 PR triage다. 항의하는 고객은 받고, 못 알아챈 고객은 결제된다. 12개월 후 같은 협상을 다시 할 이유가 없다.

Sources#

  • greptile.fail (2026-04-30 게시): Greptile v4 가격 변경 공개 사례 모음6
  • Linear社 R&D PR/인/월 중간값 (2026-03): 33개2
  • Anthropic Claude Code dogfooding 발표 (30일 100%)3
  • 경쟁사 가격은 2026-05 초 기준 각 회사 공식 pricing pages 인용1
  • 인앱 취소 부재 X(트위터) 보고: 11명 이상4
  • California Automatic Renewal Law (Cal. Bus. & Prof. Code §17600 et seq.)5

— Zhuge Hyuk (dosi.dev)


  1. 경쟁사 가격은 2026년 5월 초 기준 각 회사 공식 pricing 페이지(CodeRabbit, GitHub Copilot, Cursor) 표기 인용. 가격은 자주 변동하므로 구매 전 최신 확인 필요. ↩︎ ↩︎

  2. Linear社 R&D PR/인/월 중간값 33개라는 수치는 greptile.fail 인용. Linear의 공식 엔지니어링 메트릭 발표 또는 자체 dogfooding 통계로 추정되나, 일차 출처 직접 확인 미완료. 정확도에 주의. ↩︎ ↩︎

  3. Anthropic 자체 dogfooding 사례 — Claude Code로 Claude Code를 빌드하는 비율 100%라는 주장은 Anthropic 엔지니어링 블로그/발표에서 반복적으로 언급되나, 측정 방법(기간/저장소/PR 단위)에 따라 해석이 달라질 수 있음. “거의 모든 커밋이 AI 보조” 정도로 받아들이는 것이 안전. ↩︎ ↩︎

  4. 11명 이상의 사용자가 X(트위터)에 공개 보고했다는 수치는 greptile.fail의 사례 수집 기준. 표본 규모는 작으며 자기선택 편향이 있을 수 있음. ↩︎ ↩︎ ↩︎

  5. 캘리포니아 자동갱신법(California Automatic Renewal Law, Cal. Bus. & Prof. Code §17600–17606)은 미국 캘리포니아 주에서 소비자 구독에 적용되는 법령이다. B2B 구독에 동일 의무가 적용되는지는 케이스마다 다르며, 법적 자문은 별도로 받아야 한다. ↩︎ ↩︎

  6. greptile.fail (2026-04-30 게시). Greptile v4 가격 변경 후 공개된 사례 모음 사이트. 본문 데이터 일부는 이 게시글 인용. 도메인이 향후 사라질 수 있으므로 독립적 검증 권장. ↩︎ ↩︎