DevChoco

실전 코드와 디버깅 맥락을 남기는 개발 지식 아카이브

Tech News
조회 112분 읽기

GPT-5, 법적 추론 실험에서 연방 판사보다 100% 대 52% 성과

GPT-5가 법적 추론 실험에서 연방 판사들보다 월등한 성과를 보였다는 연구 결과가 발표되었다. 이 실험에서 GPT-5는 100%의 정확도로 문제를 해결한 반면, 판사들은 52%의 정확도를 기록했다.

#gpt-5#법적추론#인공지능#연구결과#기계학습

출처: Hacker News — https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6155012

연구 개요

  • GPT-5의 법적 추론 능력을 평가하는 실험 진행

주요 결과

  • GPT-5: 100% 정확도
  • 연방 판사들: 52% 정확도

출처


의견

댓글/토론에서 나온 의견을 참고용으로 정리했습니다. (사실로 단정하지 말고 맥락 확인 권장)

  • Hacker News · @arctic-true: What’s interesting here from a legal perspective is that they acknowledge a somewhat unsettled question of law regarding South Dakota’s choice-of-law regime. The AI got the “right” answer every time, but I am curious to know if it ever grappled with the uncertainty. This is the trouble with the concept of AI judging: …
  • Hacker News · @thewanderer1983: I was diagnosed with a rare blood disease called Essential Thrombocythemia (ET) which is part of a group of diseases called myeloproliferative neoplasms. This happened about three years ago. Recently, I decided to get a second opinion and my new specialist changed my diagnosis from ET to Polycythemia Vera (PV). She al…
  • Hacker News · @Zafira: > nonzero risk of unfair judgement from a computer I feel like this is really poor take on what justice really is. The law itself can be unjust. Empowering a seemingly “unbiased” machine with biased data or even just assuming that justice can be obtained from a “justice machine” is deeply flawed. Whether you like i…
  • Hacker News · @codingdave: IANAL, but this seems like an odd test to me. Judges do what their name implies - make judgment calls. I find it re-assuring that judges get different answers under different scenarios, because it means they are listening and making judgment calls. If LLMs give only one answer, no matter what nuances are at play, that…
  • Hacker News · @swisniewski: The premise seems flawed. From the paper: “we find that the LLM adheres to the legally correct outcome significantly more often than human judges” That presupposes that a “legally correct” outcome exists The Common Law, which is the foundation of federal law and the law of 49/50 states, is a “bottom up” legal sys…
  • Hacker News · @jmalicki: The title is wrong. The title of the paper is "Silicon Formalism: Rules, Standards, and Judge AI" When they say legally correct they are clear that they mean in a surface formal reading of the law. They are using it to characterize the way judges vs. GPT-5 treat legal decisions, and leave it as an open quest…

같이 읽으면 좋은 글

같은 주제이거나 태그가 겹치는 글을 연결해 탐색 흐름을 강화했습니다.

Tech News 전체 보기
Tech News

N-Day-Bench – LLM이 실제 코드베이스에서 보안 취약점을 찾을 수 있을까?

N-Day-Bench는 최신 LLM이 실제 코드 저장소에서 알려진 보안 취약점을 발견할 수 있는지를 테스트합니다. 매달 GitHub 보안 자문에서 새로운 사례를 가져와 모델에게 코드베이스를 탐색할 수 있는 환경을 제공합니다. 이 테스트는 LLM의 보안 취약점 탐지 능력을 평가하는 데 중요한 역할을 합니다.

#llm#보안취약점#코드베이스#gitHub
Tech News

공개 AMA를 채용·이민 운영 가이드로 오해할 때: 스타트업을 위한 Immigration Pitfall Playbook

이번 Hacker News AMA는 단순한 이민 Q&A라기보다, 스타트업이 사람을 뽑고 유지하고 이동시키는 과정에서 어디서 자주 잘못 판단하는지를 드러낸 사례에 가깝다. 핵심은 비자 종류 암기보다도, 공개 답변의 한계·회사 운영 이벤트와 이민 절차의 충돌·대체 경로 검토 부족을 어떻게 통제하느냐에 있다.

#immigration#startup-operations#h1b#perm

이전 글

The Day the Telnet Died

다음 글

Show HN: New Open Source Agent with 62 Stars on GitHub - 실시간 트렌드 분석 및 적용 가이드

댓글

불러오는 중…