구글 I/O 2026 — AI가 도구에서 에이전트로 바뀌는 날

숫자로 먼저 읽는 I/O 2026

구글 I/O 2026에서 순다 피차이가 꺼낸 첫 번째 카드는 숫자였다. AI 활용 규모를 가장 직관적으로 보여주는 지표인 ‘월간 토큰 처리량’이다.

2024년 5월 기준 9.7조 개, 2025년 480조 개, 그리고 2026년 5월 현재 3,200조 개 이상. 1년 만에 7배가 뛰었다. 이 숫자는 단순한 성장 지표가 아니다. 구글이 AI를 서비스 전반에 얼마나 깊숙이 집어넣었는지, 그리고 사람들이 실제로 얼마나 쓰고 있는지를 보여주는 숫자다.

다른 지표들도 같이 보면 그림이 더 선명해진다.

AI 검색의 ‘AI 개요(AI Overviews)‘는 월간 활성 이용자 25억 명을 넘었다. ‘AI 모드(AI Mode)‘는 출시 1년 만에 10억 명. 제미나이 앱은 1년 전 4억 명에서 지금은 9억 명. 개발자 숫자는 매달 850만 명 이상이 구글 모델을 활용 중이다.

구글이 “AI 사이클(AI Cycle)의 단계에 진입했다”고 표현한 건 이 맥락에서다. 기술을 보여주는 단계가 아니라, 실제 제품에서 가치를 증명하는 단계에 왔다는 뜻이다.

제미나이 3.5 플래시 — 프론티어 성능을 반값에

이번 I/O에서 가장 실질적인 발표는 제미나이 3.5 플래시(Gemini 3.5 Flash) 였다.

구글이 강조하는 건 두 가지다. 성능과 속도.

성능 측면에서는 이전 모델인 제미나이 3.1 프로를 거의 모든 벤치마크에서 앞선다. 실제 경제적 가치가 높은 작업을 측정하는 GDPVal 지표에서도 눈에 띄는 향상을 보였다. 코딩 영역의 진전도 강조됐다.

속도는 더 인상적이다. 동급 프론티어 모델보다 초당 출력 토큰이 4배 빠르다. 그러면서 가격은 유사한 프론티어 모델의 절반 이하. 구글이 직접 계산해서 제시한 수치가 있다. 하루 1조 개 토큰을 처리하는 기업이 작업의 80%를 3.5 플래시로 전환하면, 연간 10억 달러 이상 절감할 수 있다고 했다.

숫자가 실감이 안 날 수 있는데, 요점은 이렇다. 프론티어급 AI를 쓰는 비용이 의미 있게 내려갔다. 기업들 입장에서는 지금까지 비용 때문에 포기했던 사용 케이스들을 다시 꺼내볼 수 있게 됐다는 의미다.

3.5 플래시는 I/O 당일부터 구글 모든 제품과 API에서 바로 쓸 수 있다.

TPU 8세대 — 학습과 추론을 분리하다

구글이 하드웨어에서 꺼낸 건 8세대 TPU다. 이번에는 처음으로 듀얼 칩 구조를 도입했다.

TPU 8t는 학습(Pretraining) 전담이다. 이전 세대보다 원시 컴퓨팅 성능이 약 3배 높아졌다. 더 중요한 건 분산 학습 방식의 변화다. 기존에는 단일 데이터센터 안에서만 학습이 돌아갔는데, 이제는 전 세계 여러 사이트에 걸쳐 매끄럽게 분산할 수 있다. 현재 전 세계 100만 개 이상의 TPU로 학습 규모를 확장했다는 수치도 함께 나왔다. 결과적으로 더 크고 좋은 모델을 몇 달이 아니라 몇 주 만에 만들 수 있게 됐다는 뜻이다.

TPU 8i는 추론(Inference) 전담이다. AI 서비스의 실제 응답 속도를 책임지는 쪽이다. 구글은 모든 단계에서 지연 시간을 줄이는 데 집중했다고 했다. 두 칩 모두 에너지 효율도 개선돼 와트당 성능이 최대 2배 좋아졌다.

학습과 추론을 동일한 구조의 칩으로 처리하지 않고 분리한 것 자체가 설계 철학의 변화다. 각 워크로드의 특성에 맞게 최적화하는 방향이고, 앞으로 AI 인프라가 어떤 방향으로 갈지를 보여주는 신호이기도 하다.

에이전트로의 전환 — 스파크, 안티그래비티, 정보 에이전트

이번 I/O의 핵심 방향은 명확했다. AI를 ‘대화 상대’에서 ‘대신 일해주는 존재’로 바꾸는 것. 그 축이 되는 발표가 세 가지다.

제미나이 스파크(Gemini Spark)

제미나이 앱에 탑재되는 개인 AI 에이전트다. 특징이 몇 가지 있다.

구글 클라우드 전용 가상머신에서 돌아가서 24시간 내내 작동한다. 노트북을 꺼도 에이전트는 계속 일하고 있다. 제미나이 3.5와 안티그래비티를 기반으로 해서 시간이 오래 걸리는 작업도 백그라운드에서 처리한다. 구글 자체 툴과 연동되고, 몇 주 안에 MCP(Model Context Protocol)를 통해 서드파티 툴도 연결된다.

나중에는 이메일이나 채팅으로도 스파크에게 일을 시킬 수 있다. 안드로이드에서는 연말 출시 예정인 ‘안드로이드 헤일로(Android Halo)‘라는 새 UI 공간에서 스파크의 작업 진행 상황을 실시간으로 볼 수 있게 된다. 올 여름 이후에는 크롬 브라우저 안에서 직접 작동해 웹 전반의 에이전트 역할도 맡는다.

안티그래비티 2.0(Antigravity 2.0)

코딩 에이전트로 알려진 안티그래비티가 이번에 한 단계 더 나아갔다. 자율형 AI 에이전트 그룹을 개발하고 관리하는 플랫폼으로 확장됐다. 새로운 독립형 데스크톱 앱도 나왔고, 3.5 플래시를 더 최적화해서 다른 프론티어 모델보다 12배 빠른 버전도 안티그래비티 이용자에게 제공된다.

구글이 내부적으로 안티그래비티를 쓴 결과도 공개됐다. 3월 기준 하루 5,000억 개 토큰이었던 처리량이 몇 주마다 두 배씩 늘었고, 지금은 하루 3조 개 이상이다.

검색의 에이전트화

검색에도 ‘정보 에이전트(Information agents)‘가 들어온다. 이용자가 원하는 정보를 백그라운드에서 24시간 추적하다가, 필요한 순간에 알려주는 방식이다. 올 여름 구글 AI 프로 및 울트라 구독자부터 시작한다.

여기에 ‘생성형 UI(Generative UI)‘도 추가된다. 검색이 개별 질문에 맞게 맞춤형 대화형 레이아웃을 직접 만들어주는 개념이다. 더 나아가 지속적으로 관리해야 하는 작업에 대해서는 업데이트되는 맞춤형 대시보드나 트래커를 검색 안에서 만들어주는 기능도 준비 중이다.

그 외 주목할 발표들

제미나이 옴니 플래시(Gemini Omni Flash) 는 어떤 입력에서든 동영상을 포함한 모든 형태의 출력을 생성하는 새로운 모델 제품군의 첫 번째 모델이다. 제미나이의 이해력과 구글 생성형 미디어 모델을 결합한 형태로, 오늘부터 제미나이 앱과 유튜브 쇼츠에서 바로 쓸 수 있다.

신스ID(SynthID) 확장 — 오픈AI, 카카오, 일레븐랩스가 신스ID를 도입한다. 출시 이후 1,000억 개 이상의 이미지·동영상과 6만 년 분량의 오디오에 워터마크를 적용했다는 수치도 공개됐다. AI 생성 콘텐츠의 투명성을 업계 표준으로 만들겠다는 방향이다.

닥스 라이브(Docs Live) — 말로 쏟아내면 제미나이가 문서로 만들어준다. 음성으로 문서 편집도 가능하다. 올 여름 구독자 대상 출시 예정이고, 지메일과 킵에도 같은 음성 기능이 들어온다.

유튜브에 물어보기(Ask YouTube) — 유튜브 영상을 대화형으로 탐색하는 기능. 관심사에 맞는 영상을 찾아주고 가장 관련성 높은 구간으로 바로 이동시켜준다. 올 여름 미국에서 더 넓게 출시된다.

구글 픽스(Google Pics) — 최신 나노 바나나 모델 기반 이미지 생성·편집 툴. 모든 요소를 개별 객체로 처리해서 특정 부분만 정확하게 수정할 수 있다.

인텔리전트 아이웨어 — 오디오 글래스와 디스플레이 글래스 두 종류. 손을 쓰지 않고 말로 제미나이에게 요청할 수 있다. 오디오 글래스가 올가을 먼저 나온다.

정리하며

I/O 2026에서 구글이 보여준 건 AI를 제품 안에 더 깊이 넣는 것만이 아니었다. AI가 사용자 대신 행동하는 에이전트로서 구동되기 시작하는 구조를 보여줬다.

스파크가 24시간 백그라운드에서 내 일을 처리하고, 검색이 내가 묻기 전에 먼저 정보를 추적하고, 안티그래비티가 복잡한 작업을 자율적으로 조율하는 그림이다. 이건 AI 어시스턴트가 AI 에이전트로 전환되는 흐름이고, 구글은 그 구조를 이번 I/O에서 제품 레벨로 구체화했다.

3.5 플래시의 가격 경쟁력이 이 전환의 속도를 높이는 열쇠가 될 것 같다. 쓰는 비용이 내려가야 더 많은 곳에 에이전트가 들어갈 수 있으니까.

참고: 구글 I/O 2026 기조연설 전문 (구글코리아 블로그)