GPT-5, 법적 추론 실험에서 연방 판사보다 100% 대 52% 성과
GPT-5가 법적 추론 실험에서 연방 판사들보다 월등한 성과를 보였다는 연구 결과가 발표되었다. 이 실험에서 GPT-5는 100%의 정확도로 문제를 해결한 반면, 판사들은 52%의 정확도를 기록했다.
출처: Hacker News — https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6155012
연구 개요
- GPT-5의 법적 추론 능력을 평가하는 실험 진행
주요 결과
- GPT-5: 100% 정확도
- 연방 판사들: 52% 정확도
출처
의견
댓글/토론에서 나온 의견을 참고용으로 정리했습니다. (사실로 단정하지 말고 맥락 확인 권장)
- Hacker News · @arctic-true: What’s interesting here from a legal perspective is that they acknowledge a somewhat unsettled question of law regarding South Dakota’s choice-of-law regime. The AI got the “right” answer every time, but I am curious to know if it ever grappled with the uncertainty. This is the trouble with the concept of AI judging: …
- Hacker News · @thewanderer1983: I was diagnosed with a rare blood disease called Essential Thrombocythemia (ET) which is part of a group of diseases called myeloproliferative neoplasms. This happened about three years ago. Recently, I decided to get a second opinion and my new specialist changed my diagnosis from ET to Polycythemia Vera (PV). She al…
- Hacker News · @Zafira: > nonzero risk of unfair judgement from a computer I feel like this is really poor take on what justice really is. The law itself can be unjust. Empowering a seemingly “unbiased” machine with biased data or even just assuming that justice can be obtained from a “justice machine” is deeply flawed. Whether you like i…
- Hacker News · @codingdave: IANAL, but this seems like an odd test to me. Judges do what their name implies - make judgment calls. I find it re-assuring that judges get different answers under different scenarios, because it means they are listening and making judgment calls. If LLMs give only one answer, no matter what nuances are at play, that…
- Hacker News · @swisniewski: The premise seems flawed. From the paper: “we find that the LLM adheres to the legally correct outcome significantly more often than human judges” That presupposes that a “legally correct” outcome exists The Common Law, which is the foundation of federal law and the law of 49/50 states, is a “bottom up” legal sys…
- Hacker News · @jmalicki: The title is wrong. The title of the paper is "Silicon Formalism: Rules, Standards, and Judge AI" When they say legally correct they are clear that they mean in a surface formal reading of the law. They are using it to characterize the way judges vs. GPT-5 treat legal decisions, and leave it as an open quest…
댓글
댓글을 읽어오는 중입니다.
같이 읽으면 좋은 글
방금 읽은 주제와 이어지는 글을 골랐습니다.
Anthropic Is Having a Month: AI의 현재와 미래
Anthropic의 최근 동향을 통해 AI의 현재와 미래를 탐구하고, 실무에서 적용할 수 있는 방법론과 주의사항을 살펴본다. AI 기술의 발전과 함께 오는 기회와 도전 과제를 심층적으로 분석하며, 안전성과 윤리를 고려한 AI 개발의 중요성을 강조한다.
N-Day-Bench – LLM이 실제 코드베이스에서 보안 취약점을 찾을 수 있을까?
N-Day-Bench는 최신 LLM이 실제 코드 저장소에서 알려진 보안 취약점을 발견할 수 있는지를 테스트합니다. 매달 GitHub 보안 자문에서 새로운 사례를 가져와 모델에게 코드베이스를 탐색할 수 있는 환경을 제공합니다. 이 테스트는 LLM의 보안 취약점 탐지 능력을 평가하는 데 중요한 역할을 합니다.
CCTV로 화물을 잰다는 것: LTL 터미널에서 단안 비전이 마주하는 현실
YC P26 스타트업 Transload가 LTL 터미널의 기존 CCTV를 활용해 화물 치수를 자동 측정하는 사례를 분석한다. 단안 카메라 메트릭 깊이 추정, 바코드 스캔과 영상 객체의 연결, 그리고 현장 워크플로우를 방해하지 않는 배경형 측정의 실무적 의미와 도입 시 주의사항을 운영 관점에서 정리한다. 이 글은 단순 기술 소개를 넘어, 물류 현장에 3D 비전을 녹이기 위해 필요한 체크포인트와 조직적 판단 기준을 제시한다.
이전 글
The Day the Telnet Died
다음 글
Show HN: New Open Source Agent with 62 Stars on GitHub - 실시간 트렌드 분석 및 적용 가이드