LLM API 비용을 줄이려고 prompt caching부터 보는 팀이라면 먼저 세 가지를 확인해야 한다. 반복되는 prefix가 몇 token인지, 다음 호출이 몇 분 뒤에 오는지, 할인되는 비용이 input인지 cache write인지 storage인지다. cache 지원이라는 한 줄만 보고 붙이면 생각보다 캐시가 안 먹거나, output token 비용 때문에 절감률이 작게 보이거나, TTL storage 비용이 계산에서 빠진다.2026-04-19 기준 current official docs로 보면 OpenAI, Anthropic, Google의 답이 꽤 다르다. 그리고 Google 쪽은 특히 latest preview와 stable을 나눠야 한다. 첫 발행본은 Gemini를 2.5 stable 기..