Model APIs 6

OpenAI Structured Outputs 사용 기준: JSON 모드보다 strict schema·refusal·검증 실패 처리를 먼저 잠가야 한다

OpenAI API 응답을 서비스 코드에 바로 넣을 계획이라면 첫 질문은 "JSON으로 받을 수 있나"가 아니다. 코드가 기대하는 key, type, enum, 실패 branch가 고정되어 있는지가 먼저다. JSON mode는 JSON 파싱 문제를 줄여 주지만, 원하는 schema와 맞는다는 뜻은 아니다.2026-05-02 기준 OpenAI 공식 문서로 보면 기본 선택지는 분명하다. 사용자가 보는 답변 자체를 구조화해야 하면 Structured Outputs를 보고, 외부 시스템에서 환불, 검색, 업데이트 같은 action을 실행해야 하면 function calling으로 분리한다. Responses API에서는 Structured Outputs를 text.format으로 정의한다.짧게 정리하면 이렇다...

Model APIs 2026.05.02

OpenAI File Search 사용 기준: Vector Store 비용·만료·청킹을 먼저 잠가야 RAG 운영이 덜 흔들린다

OpenAI File Search를 붙일 때 첫 질문은 "RAG를 직접 만들까, API tool을 쓸까"가 아니다. 같은 문서를 반복해서 검색할 것인지, 그 문서를 며칠 보관할 것인지, 파일이 제한 안에 들어오는지, 검색 결과를 나중에 감사할 수 있어야 하는지가 먼저다.2026-05-01 기준 OpenAI 공식 문서로 보면 경계는 꽤 분명하다. File Search는 Responses API에서 쓰는 hosted tool이다. Vector Store는 그 tool이 검색할 수 있도록 파일을 chunking, embedding, indexing해 두는 저장/index layer다. 반복 질의가 있는 문서 지식베이스라면 Vector Store가 맞다. 반대로 회의록 파일 하나를 두 번 요약하는 작업이라면 p..

Model APIs 2026.05.01

OpenAI Batch API 사용 기준: 50% 할인보다 24시간 SLA·JSONL·재시도 큐가 먼저다

OpenAI Batch API는 싸게 호출하는 버튼이 아니다. 대량 요청을 비동기로 맡기고, 결과 파일과 에러 파일을 나중에 회수하는 운영 방식이다. 사용자가 채팅창에서 답을 기다리는 흐름이라면 Batch가 아니라 Standard, 필요하면 Priority 쪽을 봐야 한다.2026-04-29 기준 OpenAI 공식 문서로 보면 판단 기준은 분명하다. Batch API는 synchronous API 대비 50% 낮은 비용, 별도 rate-limit pool, 24시간 turnaround를 전제로 한다. 대신 .jsonl 파일, purpose=batch 업로드, unique custom_id, status polling, error file 처리, expired retry queue를 직접 설계해야 한다.먼..

Model APIs 2026.04.29

OpenAI API 배포 체크리스트: Responses API는 시작점이고 eval·rate limit·background부터 잠가야 한다

OpenAI API 데모가 한 번 잘 답했다고 배포 준비가 끝난 것은 아니다. 실제 서비스에서는 모델이 답을 냈는지보다 먼저 봐야 할 것이 있다. 실패한 요청을 어떻게 다시 보낼지, 긴 작업을 어디서 기다릴지, 완료 알림을 믿어도 되는지, 민감한 데이터에서 background mode를 켜도 되는지부터 갈린다.2026-04-28 기준 OpenAI 공식 문서로 보면 결론은 단순하다. 새 OpenAI API 앱은 Responses API를 기본 출발점으로 두고, 배포 전에 eval, rate limit backoff, long-running task policy, webhook signature, ZDR 경계, tool-loop transport를 따로 잠가야 한다. 데모 프롬프트 3개가 통과한 상태는 la..

Model APIs 2026.04.28

OpenAI GPT-5.4·Anthropic Claude Opus 4.7·Google Gemini 3.1 Preview/2.5 prompt caching 비교: 자동 할인보다 prefix·TTL·preview/stable을 먼저 봐야 한다

LLM API 비용을 줄이려고 prompt caching부터 보는 팀이라면 먼저 세 가지를 확인해야 한다. 반복되는 prefix가 몇 token인지, 다음 호출이 몇 분 뒤에 오는지, 할인되는 비용이 input인지 cache write인지 storage인지다. cache 지원이라는 한 줄만 보고 붙이면 생각보다 캐시가 안 먹거나, output token 비용 때문에 절감률이 작게 보이거나, TTL storage 비용이 계산에서 빠진다.2026-04-19 기준 current official docs로 보면 OpenAI, Anthropic, Google의 답이 꽤 다르다. 그리고 Google 쪽은 특히 latest preview와 stable을 나눠야 한다. 첫 발행본은 Gemini를 2.5 stable 기..

Model APIs 2026.04.19

OpenAI GPT-5.4·Anthropic Claude Opus 4.7·Google Gemini 2.5를 에이전트 코딩 관점에서 고르는 법: 도구 루프·긴 컨텍스트·비용 경계 중 무엇이 먼저 갈리나

에이전트 코딩 모델을 고를 때 가장 자주 틀리는 질문은 누가 제일 똑똑하냐부터 묻는 것이다. 실제 운영에서는 그보다 먼저 갈리는 게 있다. 한 모델이 저장소를 직접 읽고 고치고 검증까지 해야 하는지, 긴 세션 하나로 refactor를 오래 끌어야 하는지, 문서와 URL을 많이 읽는 조사형 coding agent인지, 아니면 싸고 자주 도는 bugfix sweep인지다. 2026-04-18 기준 current official docs를 다시 잠그면 비교 단위도 바뀐다. OpenAI는 GPT-5.4와 current Responses tool surface, Anthropic은 Claude Opus 4.7과 current Claude tools, Google은 stable Gemini 2.5 Pro/Flash..

Model APIs 2026.04.18