우리는 ~40MB 바이너리에 백도어를 숨기고 AI와 Ghidra로 이를 찾도록 요청했습니다
이 글에서는 40MB 크기의 바이너리에 숨겨진 백도어를 AI와 Ghidra를 사용하여 찾는 실험을 다룹니다. 연구의 목적과 방법론, 그리고 발견된 결과에 대해 설명합니다.
출처: Hacker News — https://quesma.com/blog/introducing-binaryaudit/
- 실험 개요: 40MB 바이너리에 백도어를 숨기고, 이를 AI와 Ghidra로 탐지하는 과정을 진행했습니다.
- 사용된 도구: Ghidra와 AI를 활용하여 백도어를 찾는 방법론을 설명합니다.
- 결과: 실험 결과와 발견된 백도어의 유형에 대해 논의합니다.
의견
댓글/토론에서 나온 의견을 참고용으로 정리했습니다. (사실로 단정하지 말고 맥락 확인 권장)
- Hacker News · @Bender: Along this line can AI's find backdoors spread across multiple pieces of code and/or services? i.e. by themselves they are not back-doors, advanced penetration testers would not suspect anything is afoot but when used together they provide access. e.g. an intentional weakness in systemd + udev + binfmt magic…
- Hacker News · @jakozaur: See direct benchmark link: https://quesma.com/benchmarks/binaryaudit/ Open-source GitHub: https://github.com/QuesmaOrg/BinaryAudit
댓글
댓글을 읽어오는 중입니다.
같이 읽으면 좋은 글
방금 읽은 주제와 이어지는 글을 골랐습니다.
CCTV로 화물을 잰다는 것: LTL 터미널에서 단안 비전이 마주하는 현실
YC P26 스타트업 Transload가 LTL 터미널의 기존 CCTV를 활용해 화물 치수를 자동 측정하는 사례를 분석한다. 단안 카메라 메트릭 깊이 추정, 바코드 스캔과 영상 객체의 연결, 그리고 현장 워크플로우를 방해하지 않는 배경형 측정의 실무적 의미와 도입 시 주의사항을 운영 관점에서 정리한다. 이 글은 단순 기술 소개를 넘어, 물류 현장에 3D 비전을 녹이기 위해 필요한 체크포인트와 조직적 판단 기준을 제시한다.
구독이 끝나면 작업도 끝나는가: Claude Design 논란으로 다시 보는 AI 작업공간 운영 방식의 선택
Hacker News에 올라온 Claude Design 접근권 상실 사례는 특정 서비스 비판으로만 소비하기엔 아쉬운 신호다. 핵심은 AI 디자인·코딩 도구의 품질이 아니라, 그 안에 쌓인 세션·프로젝트·크레딧을 팀이 어떤 자산으로 취급하느냐다. 이 글은 기사 본문과 댓글에서 확인 가능한 범위만 바탕으로, hosted AI workspace를 주 작업공간으로 쓸지, 외부 저장소와 분리할지, 아예 역할을 축소할지 비교하고 실무 체크포인트를 정리한다.
작게 쪼갠 행동 계층: Needle를 볼 때 함께 비교해야 할 네 가지 tool-calling 운영 방식
Needle은 단순히 ‘26M으로도 된다’는 신기한 데모가 아니라, tool calling을 대화형 LLM의 부속 기능이 아니라 별도 실행 계층으로 분리할 수 있는지 묻는 사례다. 이 글은 Needle, FunctionGemma, LFM2.5-350M, 그리고 범용 tool-calling 모델 계열을 같은 선상에 놓고 비교하면서, 어떤 팀이 어떤 조건에서 작은 전용 모델을 선택해야 하는지, 언제 오히려 더 큰 범용 모델이 총비용을 낮추는지 실무 기준으로 정리한다.
이전 글
How I use Claude Code: Separation of planning and execution
다음 글
Vercel AI: TypeScript로 AI 애플리케이션 구축하기