์คํAI๊ฐ GPT-4o ๋ชจ๋ธ์ ํ์ธํ๋(fine-tuning)์ ์ง์ํฉ๋๋ค. ํ์ธํ๋์ ๊ธฐ์ ๋ค์ด AI๋ฅผ ํน์ ์ฉ๋์ ๋ง๊ฒ ๋ง์ถคํํ ์ ์๋ ๊ธฐ๋ฅ์ธ๋ฐ์. ๊ฐ๋ฐ์๋ค์ ์์ฒญ์ด ๊ฐ์ฅ ๋ง์๋ ๊ธฐ๋ฅ ์ค ํ๋์์ต๋๋ค. ์ด์ ๊ฐ๋ฐ์๋ค์ ๋ง์ถคํ ๋ฐ์ดํฐ์ ์ ํ์ฉํด GPT-4o ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๊ฒ ๋์์ต๋๋ค. ๋น์ฉ์ GPT-4o ๋ชจ๋ธ ํ์ต์ ๊ฒฝ์ฐ 100๋ง ํ ํฐ ๋น 25๋ฌ๋ฌ์ด๊ณ ์. ๋ชจ๋ธ ์ถ๋ก ์ ์ ๋ ฅ ํ ํฐ 100๋ง ๊ฐ ๋น 3.75๋ฌ๋ฌ, ์ถ๋ ฅ์ 15๋ฌ๋ฌ์ ๋๋ค.
์คํAI๋ ์ฝ์ฌ์ธ(Cosine), ๋์คํธAI(Distyl AI) ๋ฑ์ ๊ธฐ์ ๊ณผ ํ์ ํ์ฌ GPT-4o ํ์ธํ๋ ์ฑ๋ฅ์ ์คํํ๋๋ฐ์. SWE-bench์ BIRD-SQL์ด๋ผ๋ ๊ฐ๋ฐ ๋ถ์ผ ๋ฒค์น๋งํฌ์์ ๊ฐ์ฅ ๋์ ์ ์๋ฅผ ๊ธฐ๋กํ๋ค๊ณ ํฉ๋๋ค. ๋ ์ค๋ 23์ผ๊น์ง ๋ชจ๋ ๊ธฐ๊ด์ ์ผ์ผ ์ต๋ 100๋ง ๊ฐ์ ํ๋ จ ํ ํฐ, 200๋ง ๊ฐ์ GPT-4o ๋ฏธ๋ ํ์ต ํ ํฐ์ด ์ ๊ณต๋ ์์ ์ด๋ ๋๋ ์ฐธ๊ณ ํด ์ฃผ์ธ์!
๋ง์ดํฌ๋ก์ํํธ์ SLM(Small Language Model) ํ์ด-3(phi-3) ์๋ฆฌ์ฆ์ ํ์ด-3.5(phi-3.5) ๋ชจ๋ธ์ด ์ถ๊ฐ๋์์ต๋๋ค. ์ง๋ 4์์ ํ์ด-3 ์๋ฆฌ์ฆ, 6์์ ๋ฏธ๋ ์ธ์คํธ๋ญํธ(mini-instruct) ๋ชจ๋ธ์ด ์ถ์๋ ์ดํ ๋ ๋ฌ ๋ง์ ์ ๋ฐ์ดํธ์ธ๋ฐ์. ์ด๋ฒ์๋ '๋ฏธ๋ ์ธ์คํธ๋ญํธ'์ MoE(Mixture of Experts) ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋ 'MoE ์ธ์คํธ๋ญํธ', ๊ทธ๋ฆฌ๊ณ ์ด๋ฏธ์ง ์ธ์ ๊ธฐ๋ฅ์ด ์ถ๊ฐ๋ '๋น์ ์ธ์คํธ๋ญํธ(vision-instruct)'์ ์ธ ๊ฐ์ง ๋ชจ๋ธ์ด ์ถ๊ฐ๋์์ต๋๋ค.
๋ง์ดํฌ๋ก์ํํธ๋ ํ์ด ์๋ฆฌ์ฆ๋ฅผ ๊ฐ๋ฐํ๋ฉด์ ๋ชจ๋ธ ํฌ๊ธฐ ๋๋น ์ฑ๋ฅ์ ํญ์ ๊ฐ์กฐํด ์๋๋ฐ์. ๋ฏธ๋ ์ธ์คํธ๋ญํธ ๋ชจ๋ธ์ 3.8B์ ํฌ๊ธฐ๋ก๋ 7B~12B ๋ชจ๋ธ๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. MoE ๋ชจ๋ธ์ ์ ์ฒด ํฌ๊ธฐ๊ฐ 42B์ง๋ง ํ๋ฒ์ ํ์ฑํ๋๋ ํ๋ผ๋ฏธํฐ๋ 6.6B ์ ๋๋ก, GPT-4o ๋ฏธ๋๋ฅผ ์ ์ธํ ๋ค๋ฅธ SLM๋ณด๋ค ๋ฒค์น๋งํฌ ํ ์คํธ์์ ๋์ ์ ์๋ฅผ ๊ธฐ๋กํ๋ค๊ณ ํ๋ค์.
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ SW/AI ๋ด์ค๋ ํฐ