DevInsight

나중에 다시 보려고, AI로 정리해두는 기술 기록

Tech News
조회 25약 2분 읽기

GPT-5, 법적 추론 실험에서 연방 판사보다 100% 대 52% 성과

GPT-5가 법적 추론 실험에서 연방 판사들보다 월등한 성과를 보였다는 연구 결과가 발표되었다. 이 실험에서 GPT-5는 100%의 정확도로 문제를 해결한 반면, 판사들은 52%의 정확도를 기록했다.

#gpt-5#법적추론#인공지능#연구결과#기계학습

출처: Hacker News — https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6155012

연구 개요

  • GPT-5의 법적 추론 능력을 평가하는 실험 진행

주요 결과

  • GPT-5: 100% 정확도
  • 연방 판사들: 52% 정확도

출처


의견

댓글/토론에서 나온 의견을 참고용으로 정리했습니다. (사실로 단정하지 말고 맥락 확인 권장)

  • Hacker News · @arctic-true: What’s interesting here from a legal perspective is that they acknowledge a somewhat unsettled question of law regarding South Dakota’s choice-of-law regime. The AI got the “right” answer every time, but I am curious to know if it ever grappled with the uncertainty. This is the trouble with the concept of AI judging: …
  • Hacker News · @thewanderer1983: I was diagnosed with a rare blood disease called Essential Thrombocythemia (ET) which is part of a group of diseases called myeloproliferative neoplasms. This happened about three years ago. Recently, I decided to get a second opinion and my new specialist changed my diagnosis from ET to Polycythemia Vera (PV). She al…
  • Hacker News · @Zafira: > nonzero risk of unfair judgement from a computer I feel like this is really poor take on what justice really is. The law itself can be unjust. Empowering a seemingly “unbiased” machine with biased data or even just assuming that justice can be obtained from a “justice machine” is deeply flawed. Whether you like i…
  • Hacker News · @codingdave: IANAL, but this seems like an odd test to me. Judges do what their name implies - make judgment calls. I find it re-assuring that judges get different answers under different scenarios, because it means they are listening and making judgment calls. If LLMs give only one answer, no matter what nuances are at play, that…
  • Hacker News · @swisniewski: The premise seems flawed. From the paper: “we find that the LLM adheres to the legally correct outcome significantly more often than human judges” That presupposes that a “legally correct” outcome exists The Common Law, which is the foundation of federal law and the law of 49/50 states, is a “bottom up” legal sys…
  • Hacker News · @jmalicki: The title is wrong. The title of the paper is "Silicon Formalism: Rules, Standards, and Judge AI" When they say legally correct they are clear that they mean in a surface formal reading of the law. They are using it to characterize the way judges vs. GPT-5 treat legal decisions, and leave it as an open quest…

댓글

댓글을 읽어오는 중입니다.

같이 읽으면 좋은 글

방금 읽은 주제와 이어지는 글을 골랐습니다.

Tech News 전체 보기
Tech News

N-Day-Bench – LLM이 실제 코드베이스에서 보안 취약점을 찾을 수 있을까?

N-Day-Bench는 최신 LLM이 실제 코드 저장소에서 알려진 보안 취약점을 발견할 수 있는지를 테스트합니다. 매달 GitHub 보안 자문에서 새로운 사례를 가져와 모델에게 코드베이스를 탐색할 수 있는 환경을 제공합니다. 이 테스트는 LLM의 보안 취약점 탐지 능력을 평가하는 데 중요한 역할을 합니다.

#llm#보안취약점#코드베이스#gitHub
Tech News

CCTV로 화물을 잰다는 것: LTL 터미널에서 단안 비전이 마주하는 현실

YC P26 스타트업 Transload가 LTL 터미널의 기존 CCTV를 활용해 화물 치수를 자동 측정하는 사례를 분석한다. 단안 카메라 메트릭 깊이 추정, 바코드 스캔과 영상 객체의 연결, 그리고 현장 워크플로우를 방해하지 않는 배경형 측정의 실무적 의미와 도입 시 주의사항을 운영 관점에서 정리한다. 이 글은 단순 기술 소개를 넘어, 물류 현장에 3D 비전을 녹이기 위해 필요한 체크포인트와 조직적 판단 기준을 제시한다.

#Computer Vision#LTL#Logistics#Monocular Depth

이전 글

The Day the Telnet Died

다음 글

Show HN: New Open Source Agent with 62 Stars on GitHub - 실시간 트렌드 분석 및 적용 가이드