CCTV로 화물을 잰다는 것: LTL 터미널에서 단안 비전이 마주하는 현실
YC P26 스타트업 Transload가 LTL 터미널의 기존 CCTV를 활용해 화물 치수를 자동 측정하는 사례를 분석한다. 단안 카메라 메트릭 깊이 추정, 바코드 스캔과 영상 객체의 연결, 그리고 현장 워크플로우를 방해하지 않는 배경형 측정의 실무적 의미와 도입 시 주의사항을 운영 관점에서 정리한다. 이 글은 단순 기술 소개를 넘어, 물류 현장에 3D 비전을 녹이기 위해 필요한 체크포인트와 조직적 판단 기준을 제시한다.
출처: Hacker News — https://news.ycombinator.com/item?id=48463273
한 터미널에서 검사된 화물의 10%가 실제보다 작게 신고되어 있었다. 이것은 단순한 오류이자, 동시에 운송사가 매일 지불하고 있는 공간의 대가를 받지 못하고 있다는 뜻이다. LTL(Less Than Truckload) 화물 운송에서 치수는 운임 책정, 화물 분류, 트레일러 적재율에 직접 영향을 주는 핵심 변수다. 그런데 화물 터미널에서 모든 화물을 정확히 측정하는 것은 생각보다 어렵다. 전용 치수 측정 장비를 도입하면 지게차 이동 거리가 늘어나고, 도크 혼잡이 발생하며, 기존 업무 흐름이 변한다. 결국 많은 터미널은 표본 추출로만 측정을 하며, 숨겨진 손실은 그대로 남는다. 이런 맥락에서 YC P26 스타트업 Transload가 제시한 접근은 단순히 기술을 내놓는 것이 아니라, 현장의 제약을 그대로 받아들이고 그 안에서 해답을 찾는 운영 설계의 사례다.
왜 전용 측정기는 도크를 막는가
물류 현장의 효율은 움직임의 흐름에서 나온다. 화물이 트레일러에서 내려져 분류되고, 다시 트레일러로 옮겨지는 전 과정은 최소한의 이동과 중복 작업을 전제로 설계된다. 이 흐름 중간에 전용 치수 측정 스테이션을 끼워 넣는다는 것은, 화물의 이동 경로에 강제적인 우회로를 만드는 것과 같다. 지게차가 측정 장치 앞에 멈춰 서야 하고, 작업자는 추가적인 조작을 해야 하며, 측정이 끝날 때까지 다음 화물은 대기해야 한다. 이는 단순히 몇 초의 지연을 의미하지 않는다. 누적된 대기 시간은 도크 혼잡으로, 혼잡은 처리량 감소로 이어진다. 결국 측정의 정확성을 높이는 대가로 전체 시스템의 처리량을 깎는 트레이드오프가 발생한다.
이 트레이드오프는 운영자의 선택지를 좁힌다. 정확한 측정을 위해 모든 화물을 통과시키는 것은 현실적으로 불가능하므로, 대부분의 터미널은 표본 추출에 의존한다. 표본은 통계적으로 의미 있을 수 있지만, 개별 화물의 과소 신고를 놓친다는 점에서 수익 회복(revenue recovery) 관점에서는 한계가 명확하다. 문제는 측정 행위 자체가 비즈니스 프로세스에 부담을 주는 구조라는 점이다. 이 구조를 뒤집어, 측정이 업무 흐름의 자연스러운 부산물이 되게 만드는 것이 핵심이다.
단안 카메라 하나로 실제 길이를 뽑아내는 건 왜 어려운가
Transload가 선택한 기술 경로는 기존 CCTV에 의존하는 단안(monocular) 메트릭 깊이 추정이다. 단안 카메라는 단 하나의 2D 이미지를 제공한다. 이 이미지로부터 실제 세계의 길이, 너비, 높이를 복원하려면, 카메라 기하학, 바닥 접촉, 객체 마스크, 가장자리 정보 등을 종합해서 가장 가능성 높은 3D 바운딩 박스를 역산해야 한다. 하나의 2D 이미지는 객체의 형태와 스케일을 직접 알려주지 않는다. 같은 이미지를 설명할 수 있는 3D 박스는 여러 개 존재할 수 있다. 이것이 문제의 핵심 난관이다.
최근 몇 년간 공간 AI(spatial AI)는 빠르게 발전했고, MapAnything이나 MoGe 같은 모델은 단안 영상에서 상당한 수준의 3D 구조를 복원할 수 있게 만들었다. LiDAR나 스테레오 카메라 없이도 보통의 보안 카메라 영상으로 정확한 3D 정보를 얻을 수 있는 가능성이 열린 것이다. 그러나 이 가능성은 연구 환경의 깔끔한 데이터와 현장의 복잡한 데이터 사이에서 간극을 노출한다. 터미널의 CCTV는 보통의 해상도와 조명 조건을 가지며, 화물은 부분적으로 가려져 있고, 바닥에는 다른 팔레트나 지게차가 함께 존재한다.
창업팀은 현재 1.5인치 이내의 평균 절대 오차(MAE)를 달성했다고 언급했으며, 전체 커버리지에서 1인치 이하로 개선할 것을 목표로 한다고 밝혔다. 이 수치는 물류 업계에서 상당히 높은 정확도로 들릴 수 있지만, 이 목표를 달성하기 위한 핵심은 바운딩 박스를 정밀하게 피팅하는 것이다. 객체 마스크, 보이는 가장자리, 바닥 접촉, 카메라 기하학, 터미널의 공간적 제약을 모두 고려해 최적의 3D 박스를 찾는 과정은 단순한 모델 추론 이상의 엔지니어링이다.
스캔과 팔레트를 연결하는 것이 진짜 소스
기술적으로 가장 어려운 부분은 3D 복원이 아니라, 바코드 스캔과 영상 속 특정 화물을 정확히 연결하는 것일 수도 있다. 작업자는 이미 화물을 스캔하는 것을 업무의 일부로 수행한다. 스캔이 발생하는 순간의 타임스탬프와 handling-unit ID가 시스템에 기록된다. 이 타임스탬프를 중심으로 영상을 분석하면, 어떤 작업자가 어떤 화물을 스캔했는지 추론할 수 있어야 한다. 이것이 association(연결) 문제다.
창업팀은 처음에 대형 비전-언어 모델(VLM)이 이 연결을 처리할 것으로 기대했지만, 실제로는 신뢰도가 너무 낮았다고 한다. 그 대신 자체 모델을 훈련시켰는데, 이 모델은 시선(gaze), 신체 방향, 움직임 같은 3D 단서를 종합적으로 추론한다. 이 단계가 중요한 이유는 단순하다. 한 프레임 속에는 수십 개의 팔레트, 여러 명의 작업자, 지게차, 부분적으로 가려진 화물이 공존한다. 잘못된 객체에 스캔 정보를 연결하면, 그 측정치는 아무 쓸모가 없게 된다.
이 연결 문제는 데이터 파이프라인의 첫 단추이자, 전체 시스템의 정확도를 좌우하는 가장 취약한 고리다. 이 문제를 해결하기 위해 3D 공간적 단서를 활용한다는 것은, 단순한 2D 이미지 분류를 넘어서는 접근임을 의미한다. 작업자의 시선 방향이 특정 팔레트를 향하고 있고, 신체의 방향이 그 팔레트를 향해 이동하고 있으며, 그 움직임이 스캔 타임스탬프와 일치할 때, 비로소 신뢰할 수 있는 연결이 성립한다. 이는 모델의 아키텍처 자체가 3D 공간적 추론을 내재하고 있어야 함을 뜻한다.
데이터가 돈이 되려면 뒤따라야 할 파이프라인
측정 데이터가 단순히 숫자로 남으면 아무 의미가 없다. 이 데이터가 청구서나 화물 분류, 트레일러 적재 계획에 반영되어야 비로소 가치를 창출한다. Transload가 제시한 첫 번째 사용 사례는 수익 회복이다. 과소 신고된 화물을 식별하고, 시각적 증거를 첨부해 운송사가 운임이나 분류를 정정할 수 있도록 돕는 것이다. 이는 기술적 성취를 넘어, 비즈니스 프로세스와의 연결을 전제로 한다. 데이터가 청구 시스템에 도달하기까지, 어떤 워크플로우가 필요한지를 설계하는 것이 운영의 핵심이다.
더 장기적으로는 이 데이터가 트레일러 적재율을 개선하는 데 활용될 수 있다. 화물의 실제 치수와 부피가 정확히 파악되면, 적재 공간의 활용도를 최적화하는 모델에 입력값으로 쓰일 수 있다. 이는 단순히 과소 신고를 잡는 것 이상의 가치다. 운송사가 가진 공간 자원을 얼마나 효율적으로 사용하는지를 결정하는 데이터가 된다.
그러나 이 가치를 실현하려면, 측정 시스템이 WMS(Warehouse Management System)나 TMS(Transportation Management System)와의 연동을 고려해야 한다. 데이터가 어떤 형식으로, 어떤 주기로, 어떤 신뢰도 기준으로 상류 시스템에 전달될지를 정의하지 않으면, 기술은 그대로 두고 운영은 수동으로 남게 된다.
YC P26 팀이 50개 회사를 돌며 첫 아이디어를 버린 이유
이 팀의 시작은 화물 치수 측정이 아니었다. 처음에는 교차 도킹 터미널 내부에서 지게차 경로를 최적화하는 AI 시스템을 구상했다. 그러나 50개 이상의 트럭 운송 회사를 직접 만나고 현장에서 시간을 보낸 결과, 지게차 경로 최적화는 사람들이 계속 언급하는 고통이 아니었다. 반복해서 떠오른 문제는 화물 치수 측정이었다.
이 피봇은 기술 중심의 창업에서 흔히 볼 수 있는 전형과 정반대의 움직임이다. 기술적 가능성이나 알고리즘의 멋짐을 먼저 보고 시장을 찾는 것이 아니라, 시장의 고통을 먼저 확인하고 그 고통에 맞는 기술을 뒤늦게 조립한 케이스다. 이것이 의미하는 바는 크다. 창업자 중 한 명인 Jago는 가족의 LTL 운송 및 교차 도킹 사업을 통해 이 업계에 밀접하게 자라왔다고 한다. 이는 도메인 전문성이 단순히 시장 조사를 넘어, 제품의 방향성을 근본적으로 바꾸는 힘을 보여주는 사례다.
50개 회사의 인터뷰가 없었다면, 이 팀은 여전히 지게차 경로 최적화를 만들고 있을 가능성이 있다. 이는 많은 기술 팀이 빠지는 함정이다. 기술이 해결할 수 있는 문제를 미리 정해놓고, 그 문제를 정말 겪고 있는 고객을 찾으려 하는 것. 반대로, 고객의 불만을 먼저 듣고 그 불만을 해결할 수 있는 기술 조합을 찾는 것은, 제품-시장 적합성(product-market fit)을 찾는 더 낮은 리스크의 경로다.
현장 도입 전에 체크해야 할 것들
이 사례를 일반적인 물류 현장의 비전 AI 도입으로 확장해서 읽어보면, 몇 가지 실무적인 체크포인트가 드러난다.
첫째, 카메라 기하학의 신뢰성이다. Transload 팀은 현장에서 수동으로 보정(calibration)을 진행하고 있으며, 동시에 MapAnything이나 MoGe 같은 모델이 보정 파라미터를 직접 예측하는 방향을 실험하고 있다고 밝혔다. 현재는 검증을 위해 수동 보정을 병행하지만, 궁극적으로는 보정 없이 작동하는 시스템을 목표로 한다. 이는 도입 현장의 카메라가 이미 고정되어 있고, 카메라마다 해상도, 렌즈 왜곡, 설치 각도가 다르다는 현실을 직시한 것이다. 도입을 검토하는 운영자는 자신의 터미널 카메라가 이 시스템의 입력으로 적합한지, 별도의 카메라 교체가 필요한지를 먼저 확인해야 한다.
둘째, 연결(association) 정확도의 검증 기준이다. 시스템이 99%의 정확도로 바코드 스캔과 화물을 연결한다고 하더라도, 남은 1%의 오류가 어떤 화물에서 발생하는지가 중요하다. 크기가 작거나 가려진 화물, 특정 시간대의 혼잡 상황에서 오류가 집중된다면, 그 화물들은 수동 검증 파이프라인으로 보내는 것이 전체 신뢰도를 높이는 방법이다. 이를 위해서는 시스템이 자신의 추론에 대한 불확실성을 얼마나 잘 표현하는지가 중요하다.
셋째, 워크플로우 개입도의 측정이다. 시스템의 핵심 가치는 '백그라운드에서 전혀 업무 흐름을 바꾸지 않고 측정한다'는 점이다. 그러나 도입 초기에는 데이터 품질을 확인하기 위해 작업자에게 추가적인 확인을 요청할 수밖에 없다. 이 개입도가 얼마나 빠르게 제로에 수렴하는지, 혹은 일정 수준의 샘플링 검증은 영구적으로 남게 되는지를 운영 설계 단계에서 정해야 한다.
넷째, 데이터의 downstream 활용 방안이다. 측정 데이터를 어디에 연결할 것인지, 청구 시스템인지, WMS인지, 혹은 분석용 데이터 웨어하우스인지를 미리 결정하지 않으면, 기술 도입은 목적 없는 데이터 축적으로 끝난다. 이는 기술 팀과 운영 팀의 사전 공감대 형성을 필요로 한다.
모놀큘러 비전이 현장에서 마주하는 다른 이름의 문제들
이 사례는 3D 컴퓨터 비전의 최전선이 물류 현장에서 마주하는 현실을 보여준다. 연구 커뮤니티에서는 monocular metric depth estimation이나 3D 바운딩 박스 추정이 알고리즘 문제로 다뤄진다. 하지만 현장에서는 이것이 단순히 알고리즘 문제가 아니라, 조명, 카메라 설치, 작업자 행동, 바코드 스캔 타임스탬프, 다양한 화물 형태가 뒤섞인 혼합 시스템 문제가 된다.
특히 주목할 점은 이 팀이 VLM을 시도했지만 실패하고, 대신 자체 모델을 훈련시켰다는 경험이다. 최근의 대형 멀티모달 모델들은 다양한 시각적 이해를 보여주지만, 정확한 공간적 연결과 메트릭 스케일 추정이라는 구체적이고 엄격한 요구 앞에서는 일반화되지 않는다. 이는 최신의 가장 큰 모델이 항상 최선의 해답이 아니라는, 실무에서 자주 마주하는 교훈을 다시 한번 확인시켜 준다. 문제의 도메인 특성이 강할수록, 전용 모델의 가치는 커진다.
또한, 이 팀이 자신들의 기술을 '장기적으로 모든 CCTV를 운영하는 창고의 CV 레이어'로 확장하겠다는 비전을 제시한 것은 흥미롭다. 그러나 이 비전이 현실이 되려면, LTL이라는 특정 도메인에서의 깊은 적용이 먼저 필요하다. 도메인 특화된 데이터, 도메인 특화된 제약 조건, 도메인 특화된 평가 기준을 축적하지 않고는, 일반적인 창고 솔루션으로의 확장은 공허한 약속이 될 수 있다. 이는 수직적 SaaS(vertical SaaS)의 전형적인 성장 경로와 일치한다. 하나의 산업을 깊이 파고든 후, 그 인프라를 다른 산업으로 확장하는 것.
이 도메인은 비전 엔지니어에게는 낯설고, 물류 엔지니어에게는 AI가 낯설다. 그 간극을 메우는 것이 이 팀의 진짜 과제이며, 이 사례를 분석하는 우리의 과제이기도 하다. CCTV는 이미 거의 모든 터미널에 설치되어 있다. 기술의 문제는 남아 있지만, 하드웨어의 문제는 이미 해결되어 있다. 이 점 하나만으로도, 이 접근은 하드웨어를 새로 들여오는 솔루션들과 근본적으로 다른 경제학을 가진다. 남은 것은 소프트웨어와 운영의 문제, 즉 우리가 잘 알고 있는 영역의 문제다. 그리고 이 영역에서, 10%의 오류를 잡아내는 것은 때로는 새로운 알고리즘을 발명하는 것만큼이나 어렵고 값진 일이다.
의견
댓글/토론에서 나온 의견을 참고용으로 정리했습니다. (사실로 단정하지 말고 맥락 확인 권장)
- Hacker News · @nils_spatial: 1 + 4) If the bbox fit is accurate, we are below 1.5 inch MAE today. Improving bbox fit accuracy is where most of our effort goes. We're confident this gets to <1 inch at full coverage. The tail is bounded by data and model scale, both of which we're actively closing. 2) Not necessarily. Models like MapAn…
- Hacker News · @nils_spatial: thanks!! Our wedge is underbilling in LTL trucking with ~10k relevant cross-docking warehouses across the US and Europe. Carriers lose revenue when shippers understate freight dimensions. We're seeing ~$50k/site/month in recoverable revenue from fixing that alone. And yes, from there we expand to other …
- Hacker News · @patches11: Very interesting, I work in a similar space with diverse cameras and we’ve been using DepthAnything for a while, but I hadn’t seen these new models yet so thanks! The association model seems like the special sauce, anything more you can share about that? Architecture, inputs and outputs etc. I’m always really interest…
- Hacker News · @bashd4: This is really cool. Congrats guys. Just because I'm curious, how does the market for this look? How much revenue are you saving your customers with this? Also, surely this is very applicable in many many industries, do you have expansion plans? Nevertheless, this is awesome and I wish I'd built it :)
- Hacker News · @pX0r: Interesting app of CV in OR. Questions: - what is the measurement precision? - do you need calibration? How do you do it in production? - what it is the root problem you are trying to solve? - what is your hypothesis about your solution- quantitatively?
- Hacker News · @dtrav: I fully get this and think its an excellent piece of work. Have you considered interfacing into Warehouse Management in order to provide dimensioned arbitrary pallet heights ? In other words to inform the put away process in warehousing ?
Comments
Loading comments.
Good Follow-up Reads
Posts connected to the topic you just read.
When the Subscription Ends, Does the Work End Too?: Rethinking How to Run AI Workspaces Through the Claude Design Controversy
The Hacker News case about losing access to Claude Design is a signal that deserves more than being consumed as criticism of a single service. The real issue is not the quality of AI design and coding tools, but how a team treats the sessions, projects, and credits accumulated inside them as assets. Based only on what can be confirmed from the article and its comments, this piece compares whether to use a hosted AI workspace as the main workspace, separate it from external repositories, or reduce its role altogether, and lays out practical checkpoints.
Layered, Smaller Actions: Four Tool-Calling Operating Modes to Compare Alongside Needle
Needle is not just a curious demo claiming that '26M is enough.' It is a case study that asks whether tool calling can be separated from a conversational LLM as an independent execution layer. This article compares Needle, FunctionGemma, LFM2.5-350M, and general-purpose tool-calling model families on the same axis, then lays out practical criteria for when a team should choose a small specialized model and when a larger general-purpose model may actually lower total cost.
우리는 ~40MB 바이너리에 백도어를 숨기고 AI와 Ghidra로 이를 찾도록 요청했습니다
이 글에서는 40MB 크기의 바이너리에 숨겨진 백도어를 AI와 Ghidra를 사용하여 찾는 실험을 다룹니다. 연구의 목적과 방법론, 그리고 발견된 결과에 대해 설명합니다.
Previous post
메모리 한 페이지를 아끼는 쓸모없는 열정