์ธ์ด ๋ชจ๋ธ ๋ฏธ์คํธ๋(Mistral), MoE(Mixture of Experts) ๊ธฐ๋ฒ์ ์ฌ์ฉํ ๋ฏน์คํธ๋(Mixtral)๋ก ์ ์๋ ค์ ธ ์๋ ๋ฏธ์คํธ๋ AI(Mistral AI)๊ฐ ์๋ก์ด ๋ชจ๋ธ ํฝ์คํธ๋ 12B(Pixtral 12B)๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. ๋ฏธ์คํธ๋ AI์์๋ ์ฒ์์ผ๋ก ๊ฐ๋ฐ๋ ๋ฉํฐ๋ชจ๋ฌ(multimodal) ๋ชจ๋ธ์ธ๋ฐ์. ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ๊ฒฐํฉ๋ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ๋ฉํฐ๋ชจ๋ฌ ํ์คํฌ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค๊ณ ํฉ๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ํ์คํฌ๋ฟ๋ง ์๋๋ผ, ํ ์คํธ ๋ฒค์น๋งํฌ ํ ์คํธ์์๋ ํด๋ก๋ ํ์ด์ฟ (Claude Haiku), ์ ๋ฏธ๋์ด ํ๋์(Gemini Flash) ๋ฑ ์ต์ ๋ชจ๋ธ๊ณผ ์ ์๊ฐ ๋น์ทํ๊ฒ ๋์๋ค๊ณ ํ๋ค์.
ํฝ์คํธ๋ ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ํ ํฐ์ผ๋ก ๋ณํํ๋ ๋น์ ์ธ์ฝ๋(vision encoder)์ ๋ค์ ํ ํฐ์ ์์ธกํ๋ ๋ฉํฐ๋ชจ๋ฌ ํธ๋์คํฌ๋จธ ๋์ฝ๋(transformer decoder)๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ํ๊น ํ์ด์ค, vLLM์ ํตํด์๋ ์ฌ์ฉํด ๋ณผ ์ ์์ผ๋ ๊ด์ฌ ์๋ ๋ถ๋ค์ ์ฐธ๊ณ ํด ์ฃผ์ธ์!
์ค๊ตญ์ ์๋ฆฌ๋ฐ๋ฐ ํด๋ผ์ฐ๋ ํ์ด ๊ฐ๋ฐํ ์ธ์ด ๋ชจ๋ธ ํ์(Qwen)์ 2.5 ๋ฒ์ ์ด ๊ณต๊ฐ๋์์ต๋๋ค. ์ผ๋ฐ์ ์ธ LLM(Large Language Model)์ธ 'ํ์ 2.5'์ ํจ๊ป, ์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ 'ํ์2.5-๋งค์ค(Qwen2.5-Math)'์ ์ฝ๋ฉ์ ํนํ๋ 'ํ์2.5-์ฝ๋(Qwen2.5-Coder)' ์๋ฆฌ์ฆ๊ฐ ๋ฐํ๋์์ต๋๋ค.
ํ์์2.5์๋ 0.5B(ํ๋ผ๋ฏธํฐ 5์ต ๊ฐ)๋ถํฐ 72B๊น์ง ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ด ์๊ณ ์. ์ฑ๋ฅ ์ธก๋ฉด์์๋ ๊ธฐ์กด์ ํ์2 ๋ชจ๋ธ๋ณด๋ค ํฌ๊ฒ ํฅ์๋ ๊ฒ์ ๋ฌผ๋ก , 72B ๋ชจ๋ธ ๊ธฐ์ค '๋ผ๋ง 3 70B', '๋ฏน์คํธ๋ 8x22B'๋ณด๋ค ๋์ ๋ฒค์น๋งํฌ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํ์2.5-๋งค์ค ๋ชจ๋ธ์ ์์ด์ ์ค๊ตญ์ด๋ก ๋ ์ํ ๋ฌธ์ ๋ง ์ฒ๋ฆฌํ ์ ์์ง๋ง, ๊ธฐ์กด ๋ชจ๋ธ์ CoT(Chain-of-Thought) ๊ธฐ๋ฒ๊ณผ ํจ๊ป Tool-integrated Reasoning ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํ์ฌ ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ค๊ณ ํฉ๋๋ค.
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ SW/AI ๋ด์ค๋ ํฐ