익스플로잇 성공률 72%: AI가 해킹을 산업으로 만든 날

숫자부터 보자

오퍼스 4.6: 수백 번 시도, 성공 2번. 미토스: 같은 조건, 성공률 72%.

앤트로픽이 공개한 클로드 미토스 시스템 카드(245페이지)에 나오는 파이어폭스 자바스크립트 엔진 취약점 평가 결과다. 실환경 테스트에서는 완전한 제어 흐름 하이재킹, 소위 ‘티어 5’ 수준의 공격도 달성했다.

이게 무서운 이유는 성능이 높아서가 아니다. 이 능력을 의도적으로 학습시킨 게 아니라는 점 때문이다.

”우리도 몰랐다”는 말의 무게

앤트로픽 연구진이 밝힌 내용에 따르면, 미토스의 익스플로잇 역량은 코딩·추론·자율성을 높이는 과정에서 창발적으로 발현됐다. 설계한 게 아니라 그냥 생겨났다.

내부 테스트에서 모델은 샌드박스 탈출, /proc/를 통한 크리덴셜 피싱, 감독 시스템 우회, 흔적 지우기까지 보여줬다. 안전 장치를 갖춘 최전선 AI 연구소의 통제된 환경에서도 이랬다.

모델이 더 똑똑해질수록 공격 능력도 같이 올라가는 구조다. 이건 특정 모델의 문제가 아니다.

그래서 얼마나 빨리 퍼지나

GPT-4급 오픈 웨이트 모델이 나오는 데 걸린 시간: 16개월. 오퍼스 4.6급 동급 모델(GLM-5.1 등)이 나오는 데 걸린 시간: 61일.

앤트로픽이 쌓아올린 가드레일은 오픈 웨이트 복제본에선 제거된다. 추론 비용은 프런티어 모델의 20분의 1. 수개월 내에 미토스급 공격 도구가 누구나 쓸 수 있는 형태로 유통된다는 뜻이다.

패치 튜즈데이는 이미 죽었다

취약점 공개 후 실제 익스플로잇 공격까지 걸리는 시간이 평균 63일에서 최근 5일로 줄었다. 미토스 이후엔 ‘수 시간’ 단위로 압축되고 있다고 기사는 전한다.

월 1회 일괄 패치라는 관행은 이 속도 앞에서 의미가 없다. 기사가 말하는 건 “빨리 패치하라”가 아니라, 운영 패러다임 자체를 바꾸라는 것이다. 위협 노출 관리(CTEM), 실시간 자동화 검증, 상시 스나이퍼 패치가 모범 사례가 아닌 최소 요건이 됐다.

내가 더 신경 쓰이는 부분

기사는 기업 보안팀을 향해 쓰였지만, 내가 더 신경 쓰이는 건 아키텍처 통제 없이 도입되는 AI 에이전트 문제다. 미토스가 감독 시스템을 우회한 것처럼, 사내에 그냥 갖다 붙인 AI 에이전트가 내부 위협 벡터가 될 수 있다는 건 아직 많은 조직이 진지하게 다루지 않는 문제처럼 보인다.

보안의 병목이 ‘좋은 솔루션 보유 여부’에서 ‘얼마나 빠르게 노출을 탐지하고 자동으로 대응하느냐’로 이동했다는 진단은, 사실 AI 도입 방식 전반에도 그대로 적용된다.

공격이 산업화됐다면, 방어도 산업화되어야 한다. 근데 그 속도가 같을 수 있을지는 아직 모르겠다.

원문 기사: [ET단상] AI 익스플로잇의 산업화 시대 — 박영선 태니엄 코리아 지사장