์ธ์ด ๋ชจ๋ธ ๋ฏธ์คํธ๋(Mistral), MoE(Mixture of Experts) ๊ธฐ๋ฒ์ ์ฌ์ฉํ ๋ฏน์คํธ๋(Mixtral)๋ก ์ ์๋ ค์ ธ ์๋ ๋ฏธ์คํธ๋ AI(Mistral AI)๊ฐ ์๋ก์ด ๋ชจ๋ธ ํฝ์คํธ๋ 12B(Pixtral 12B)๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. ๋ฏธ์คํธ๋ AI์์๋ ์ฒ์์ผ๋ก ๊ฐ๋ฐ๋ ๋ฉํฐ๋ชจ๋ฌ(multimodal) ๋ชจ๋ธ์ธ๋ฐ์. ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ๊ฒฐํฉ๋ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ๋ฉํฐ๋ชจ๋ฌ ํ์คํฌ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค๊ณ ํฉ๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ํ์คํฌ๋ฟ๋ง ์๋๋ผ, ํ ์คํธ ๋ฒค์น๋งํฌ ํ ์คํธ์์๋ ํด๋ก๋ ํ์ด์ฟ (Claude Haiku), ์ ๋ฏธ๋์ด ํ๋์(Gemini Flash) ๋ฑ ์ต์ ๋ชจ๋ธ๊ณผ ์ ์๊ฐ ๋น์ทํ๊ฒ ๋์๋ค๊ณ ํ๋ค์.
ํฝ์คํธ๋ ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ํ ํฐ์ผ๋ก ๋ณํํ๋ ๋น์ ์ธ์ฝ๋(vision encoder)์ ๋ค์ ํ ํฐ์ ์์ธกํ๋ ๋ฉํฐ๋ชจ๋ฌ ํธ๋์คํฌ๋จธ ๋์ฝ๋(transformer decoder)๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ํ๊น ํ์ด์ค, vLLM์ ํตํด์๋ ์ฌ์ฉํด ๋ณผ ์ ์์ผ๋ ๊ด์ฌ ์๋ ๋ถ๋ค์ ์ฐธ๊ณ ํด ์ฃผ์ธ์!
์ค๊ตญ์ ์๋ฆฌ๋ฐ๋ฐ ํด๋ผ์ฐ๋ ํ์ด ๊ฐ๋ฐํ ์ธ์ด ๋ชจ๋ธ ํ์(Qwen)์ 2.5 ๋ฒ์ ์ด ๊ณต๊ฐ๋์์ต๋๋ค. ์ผ๋ฐ์ ์ธ LLM(Large Language Model)์ธ 'ํ์ 2.5'์ ํจ๊ป, ์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ 'ํ์2.5-๋งค์ค(Qwen2.5-Math)'์ ์ฝ๋ฉ์ ํนํ๋ 'ํ์2.5-์ฝ๋(Qwen2.5-Coder)' ์๋ฆฌ์ฆ๊ฐ ๋ฐํ๋์์ต๋๋ค.
ํ์์2.5์๋ 0.5B(ํ๋ผ๋ฏธํฐ 5์ต ๊ฐ)๋ถํฐ 72B๊น์ง ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ด ์๊ณ ์. ์ฑ๋ฅ ์ธก๋ฉด์์๋ ๊ธฐ์กด์ ํ์2 ๋ชจ๋ธ๋ณด๋ค ํฌ๊ฒ ํฅ์๋ ๊ฒ์ ๋ฌผ๋ก , 72B ๋ชจ๋ธ ๊ธฐ์ค '๋ผ๋ง 3 70B', '๋ฏน์คํธ๋ 8x22B'๋ณด๋ค ๋์ ๋ฒค์น๋งํฌ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํ์2.5-๋งค์ค ๋ชจ๋ธ์ ์์ด์ ์ค๊ตญ์ด๋ก ๋ ์ํ ๋ฌธ์ ๋ง ์ฒ๋ฆฌํ ์ ์์ง๋ง, ๊ธฐ์กด ๋ชจ๋ธ์ CoT(Chain-of-Thought) ๊ธฐ๋ฒ๊ณผ ํจ๊ป Tool-integrated Reasoning ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํ์ฌ ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ค๊ณ ํฉ๋๋ค.
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ ๐ ๐จ ๋ด์ค๋ ํฐ โฎ ๐ฒ๐๐๐ผ๐พ ๐ค๐ข๐ค๐ค