AI 관련 글을 읽다 보면 이상하게 계속 눈에 걸리는 단어들이 있다.
‘파인튜닝’, ‘임베딩’, ‘토큰’… 그리고 유독 자주 보이는 한 단어.
하네스(Harness).
처음엔 그냥 넘겼다. 두 번째도 넘겼다. 그런데 세 번째쯤 되니까 슬슬 궁금해지더라.
이거 진짜 뭐지?
사전부터 열어봤다
영어 단어 harness를 찾아보면 크게 두 가지 뜻이 나온다.
하나는 마구(馬具). 말에게 씌워서 마차를 끄는 장비.
또 하나는 번지점프나 등산할 때 몸에 착용하는 안전 벨트.
둘 다 공통점이 있다.
힘을 가진 무언가를 통제하고, 원하는 방향으로 쓴다는 것.
그래서 영어로는 “harness the power of AI”라는 표현을 쓴다.
직역하면 “AI에 마구를 씌운다”인데, 자연스럽게 옮기면 “AI의 힘을 통제하며 활용한다”는 뜻이다.
단순히 “쓴다(use)”와는 결이 다르다. 고삐를 쥐고, 내가 원하는 방향으로 끌어다 쓴다는 뉘앙스가 담겨 있다.
그런데 기술 문서에서는 더 구체적인 의미로 쓰인다
특히 LLM(거대언어모델) 쪽 글에서 하네스는 꽤 구체적인 도구를 가리킨다.
“테스트 하네스(Test Harness)”, 즉 AI 모델 성능 평가 프레임워크다.
자동차 공장 비유가 딱 맞다.
신형 엔진을 개발했으면 성능을 시험해야 한다.
도로에 바로 내보내는 게 아니라, 공장 안의 시험대(Test Bed)에 고정하고 각종 센서를 연결해서 정밀하게 측정한다.
AI도 마찬가지다.
새 모델이 나왔을 때 “이거 얼마나 똑똑해?”를 확인하려면 체계적인 시험이 필요하다.
그게 바로 하네스가 하는 일이다.
- 수만 개의 문제를 AI에게 자동으로 풀게 하고
- 결과를 정답과 비교해서 점수를 매긴다
- 그것도 표준화된 방식으로, 자동으로
가장 유명한 것: LM Evaluation Harness
AI 커뮤니티에서 제일 많이 언급되는 건 EleutherAI에서 만든 오픈소스 도구, LM Evaluation Harness다.
쉽게 말하면 AI용 수능 시험지 + 자동 채점기 세트다.
MMLU(상식), GSM8K(수학), HellaSwag(추론) 같은 유명한 AI 벤치마크들이 이 하네스 안에 다 들어있어서, 명령어 몇 줄이면 어떤 모델이든 동일한 기준으로 평가할 수 있다.
덕분에 “GPT vs Claude vs Gemini, 누가 더 낫냐?”는 질문에 그나마 객관적인 숫자로 답할 수 있게 됐다.
정리하면
| 맥락 | 의미 |
|---|---|
| 일반 AI 글 | AI 능력을 통제하며 활용한다 |
| LLM 기술 문서 | 모델 성능을 자동 평가하는 프레임워크 |
사실 두 의미가 완전히 다른 건 아니다.
복잡한 AI를 특정 틀 안에 묶어서 다룬다는 핵심은 똑같으니까.
다음에 AI 글 읽다가 ‘하네스’가 나오면,
아, 고삐 씌우는 거구나
하고 자연스럽게 넘어갈 수 있을 거다.