์ฝ๋์คํธ๋์ ๋ชจ๋ธ ํฌ๊ธฐ๋ 22B(ํ๋ผ๋ฏธํฐ 220์ต ๊ฐ)์ง๋ง, ์ฝ๋๋ผ๋ง 70B(CodeLlama 70B), ๋ฅ์ ์ฝ๋ 33B(DeepSeek Coder 33B) ๋ฑ ๊ท๋ชจ๊ฐ ๋ ํฐ ๋ชจ๋ธ๊ณผ ๋น๊ตํด๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค๊ณ ํ๋ค์. ์ฝ๋์คํธ๋ ๋ชจ๋ธ์ ๋ฏธ์คํธ๋์์ ์ ๊ณตํ๋ API๋ฅผ ํตํด์ ์ฌ์ฉํ ์ ์๊ณ ์. ์ฑ๋ด ์๋น์ค '๋ฅด ์ฑ(Le Chat)'์์๋ ๋ชจ๋ธ๊ณผ ๋ํํด ๋ณผ ์ ์์ผ๋ ์ฐธ๊ณ ํด ์ฃผ์ธ์!
ํ์ง๋ง ๊ทธ๋์ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ง์ด ํฅ์๋์๊ธฐ ๋๋ฌธ์, ์ต์ ๋ชจ๋ธ์ MMLU(๋๊ท๋ชจ ๋ค์ค ์ธ์ด ์ดํด) ์ ์๋ก ์ฑ๋ฅ์ ๋น๊ตํ๋ ๊ฒ์ด ์ ์ ๋ฌด์๋ฏธํ๊ฒ ๋์๋๋ฐ์. ์ํธ๋ฃจ ๋ํ์ ์ฐ๊ตฌํ์ MMLU ๋ฐ์ดํฐ์์ ์ถ๋ก ์ชฝ์ ๊ฐํํ๊ณ ์ ํ์ง๋ฅผ 4๊ฐ์์ 10๊ฐ๋ก ์ ๊ทธ๋ ์ด๋ํ 'MMLU-Pro' ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ์ต๋๋ค. GPT-4o, ํด๋ก๋ 3(Claude 3) ๋ฑ ์ต์ ๋ชจ๋ธ์ MMLU-Pro๋ก ํ ์คํธํ ๊ฒฐ๊ณผ MMLU์ ๋นํด ์ ๋ต๋ฅ ์ด 16%-33% ๋ฎ์์ก๊ณ , ํ๋กฌํํธ์ ๋ณํ์ ์ฃผ์์ ๋๋ ์ ์๊ฐ ์์ ์ ์ผ๋ก ๋์๋ค๊ณ ํฉ๋๋ค.
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
์ธ์ด์ ๊ธฐ๋ณธ ๊ฐ๋ ์ ์ดํดํ๋ ๋ฐ๋ ์ฑ๊ณตํด๋ ์ด๋ฅผ ์ค๋ฌด์ ์ ์ฉํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค๐ฅฒ. ๊ทธ๋ ๋ค๋ฉด ์ด๋ป๊ฒ ํ๋ฉด ํ์ด์ฌ ๋ ํ ๊ฒฝํ์ ๋ฐํ์ผ๋ก ์ค๋ฌด์ ํ์ํ ๊ธฐ์ ๊ณผ ๊ฒฝํ์ ์๊ณ , ์ค๋ฌด ๊ฐ๋ฐ์๋ก ์ ์ฑ์ฅํ ์ ์์๊น์?
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ SW/AI ๋ด์ค๋ ํฐ