주제별 아카이브

AI

LLM, AI 도구, 자동화 흐름과 제품 업데이트를 따라갑니다.

현재 8개의 발행 글이 이 주제에 속해 있습니다.

AI2026. 7. 15.

LLM이 JSON만 뱉기로 약속했을 때 실제로 일어나는 일

OpenAI의 json_object 모드는 구문 유효성만 보장할 뿐 스키마를 강제하지 않는다. Zod/Pydantic 검증, json_repair로 복구하고 validation error를 피드백해 재시도하는 단계별 방어선과 서킷 브레이커, 멀티 프로바이더 폴백까지 실무 패턴을 파헤친다.

#LLM#JSON 모드#Structured Outputs#스키마 검증

AI2026. 7. 6.

AI 에이전트는 서버에서 태어났지만 브라우저에서 산다

대부분의 AI 에이전트가 여전히 서버에서 오케스트레이션을 돌리고 있지만, 브라우저가 가진 런타임 맥락과 WebGPU·WebLLM의 발전이 이 판도를 바꾸고 있다. 서버 중심과 브라우저 네이티브 아키텍처의 지연 시간, 개인정보 보호, 비용, 확장성을 비교하며 왜 지금 이 전환이 중요한지 분석한다.

#AI 에이전트#브라우저 AI#WebLLM#AI 오케스트레이션

AI2026. 7. 5.

LLM 서빙의 숨은 병목, KVCache를 무기로 바꾸다

Moonshot AI의 Kimi 서비스를 지탱하는 Mooncake 플랫폼의 KVCache 중심 분리형 아키텍처를 분석한다. Prefill과 Decode를 분리하고 유휴 CPU·DRAM·SSD 자원을 캐시 풀로 전환해 처리량을 75% 이상 끌어올린 설계 철학과 vLLM·SGLang 생태계 확장을 추적한다.

#LLM Serving#KVCache#Disaggregated Architecture#Mooncake

AI2026. 7. 5.

로컬 AI가 당신 대신 HTML을 쓰는 시대, 마크다운은 초안으로 충분하다

로컬 AI 에이전트가 마크다운, CSV, JSON 등 다양한 입력을 75가지 디자인 템플릿과 9가지 출력 형식으로 변환해 완성된 HTML을 즉시 생성하는 패러다임을 다룬다. API 키 없이 Claude Code, Cursor 등 기존 CLI 세션을 재활용하며 원클릭으로 여러 소셜 플랫폼에 배포할 수 있다.

#AI 에이전트#HTML 자동 생성#로컬 LLM#Claude Code

AI2026. 5. 11.

에이전트는 지시보다 반응으로 움직일 때 강해진다

TypeScript 기반 reactive AI agent framework를 다루는 글에 맞춰, 중앙 오케스트레이션 대신 공유된 agentic environment와 event-driven 반응성이 왜 중요한지 풀어낸다. 동시성, context 흐름, tool 호출, 설계 함정을 함께 짚는 방향의 에세이에 맞춘 메타데이터다.

#TypeScript#AI Agents#Reactive Systems#Agentic Environment

AI2026. 5. 4.

한 번의 학습을 위해 서버를 갖지 않기로 했다

Gemma 4 같은 대형 open model을 다루는 순간 병목은 모델보다 운영이 된다. Cloud Run Jobs와 서버리스 GPU 조합은 실험성 fine-tuning을 더 가볍게 만들지만, multimodal 구조·LoRA 대상 선택·VRAM 관리 같은 새로운 함정을 함께 드러낸다.

#Gemma 4#Cloud Run Jobs#Serverless GPU#Fine-Tuning

AI2026. 5. 2.

GPU 클러스터 대신 Job 하나: Gemma 4 커스터마이징이 서버리스로 넘어가는 순간

Gemma 4 같은 대형 open model을 다루는 일은 더 이상 거대한 GPU 클러스터의 전유물이 아니다. Cloud Run Jobs와 RTX 6000 Pro 조합은 fine-tuning의 진입장벽을 낮추지만, 메모리 전략·LoRA 설정·체크포인트 운영 같은 실무 함정은 더 선명하게 드러낸다.

#Gemma 4#Cloud Run Jobs#Serverless GPU#Fine-Tuning

AI2026. 5. 2.

GPU 한 대로 끝내는 멀티모달 미세조정의 현실

Gemma 4와 serverless GPU 조합은 대형 멀티모달 모델 fine-tuning의 진입장벽을 낮춘다. Cloud Run Jobs, QLoRA, LoRA 타깃 전략, VRAM 관리까지 함께 짚으며 실전 적용 시의 기대와 함정을 균형 있게 풀어낼 글에 어울리는 메타데이터다.

#Gemma 4#Fine-Tuning#Cloud Run Jobs#Serverless GPU