ํ๊น ํ์ด์ค ๋ธ๋ก๊ทธ์ 'QLoRA' ๊ธฐ๋ฒ์ด ์ ์ฉ๋ ๋ชจ๋ธ์ ์ฌ์ฉ๋ฒ์ด ์๊ฐ๋์ต๋๋ค. LLM(Large Language Model)์ ๋ค์ฑ๋ก์ด ๋ถ์ผ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, ํ๋ผ๋ฏธํฐ์ ์๊ฐ ๋ฐฉ๋ํ๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ธ ํ๋์จ์ด๋ก๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ธฐ ์ด๋ ต๋ค๋ ๋จ์ ์ด ์์ด์. LLM์ ํ๋์ ์ค์ ๊ฐ์ ํํํ๋๋ฐ 16๋นํธ ํน์ 32๋นํธ๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ๋๋ฐ์. QLoRA ๊ธฐ๋ฒ์ 4๋นํธ ์ค์ ์๋ฃํ์ ๊ตฌํํ๊ณ ๊ธฐ์กด LLM์ ํ๋ผ๋ฏธํฐ๋ฅผ 4๋นํธ ์ค์๋ก ๋ณํํจ์ผ๋ก์จ, ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ ์ ํ๊ฐ ๊ฑฐ์ ์ผ์ด๋์ง ์๋๋ก ํ์ด์. 16GB ์ฉ๋์ GPU ํ๋๋ง์ผ๋ก LLaMA 13B ๋ชจ๋ธ์ ํ์ธ ํ๋(Fine-tuning)์ด ๊ฐ๋ฅํ๋ค๊ณ ํ๋ค์!
๊ตฌ๊ธ ๋ฆฌ์์น์์ ์๊ฐ ์ธ์ด๋ฅผ ์ํ์ ์ถ๋ก ๊ณผ ์ฐจํธ ๋๋ ๋๋ง์ ํตํด ์ถ๋ก ํ๋ ๋ชจ๋ธ '๐ต๋ง์ฐจ(MatCha)'๋ฅผ ๋ฐํํ์ต๋๋ค. ์๊ฐ ์ธ์ด๋ ๋ํ, ์ธํฌ๊ทธ๋ํฝ ๋ฑ ์ ๋ณด๋ฅผ ์๊ฐ์ ์ธ ํํ๋ก ์ ๋ฌํ๋ ๊ฒ์ ์๋ฏธํ๋๋ฐ์. ์ปดํจํฐ ๋น์ ์ ๋ํ์ ์ธ ํ์คํฌ์ธ Detection, Captioning, VQA ๋ฑ์ ์ํํ๋ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก '์ด๋ฏธ์ง๋ท(ImageNet)'๊ณผ ๊ฐ์ ์ผ๋ฐ์ ์ธ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ก ํ์ต๋ผ ์๊ธฐ ๋๋ฌธ์, ๋ํ์ ๊ฒฝ์ฐ ์ธ์์ ์ ํ์ง ๋ชป ํ๋ค๊ณ ํด์. ๋ฐ๋ฉด, ๋ง์ฐจ๋ ๋ํ๋ก๋ถํฐ ๋ฐ์ดํฐ ํ ์ด๋ธ๊ณผ ์ฝ๋๋ฅผ ์ถ๋ก ํ๋ 'Chart de-rendering'๊ณผ ๋ํ ๋ฐ์ดํฐ๋ก ์ํ์ ๊ณ์ฐ์ ํ๋ 'Math reasoning' ํ์คํฌ์ ํนํ๋ผ ์์ต๋๋ค.
์คํ ํฌ๋ ๋ํ์ ์ฐ๊ตฌํ์ด LLM์ ์ฌ์ ํ๋ จ(Pre-training)์ ์ํ ์ตํฐ๋ง์ด์ '์ํผ์(Sophia)'๋ฅผ ๋ฐํํ์ต๋๋ค. LLM์ ํ์ต์ํค๋ ๋ฐ๋ ๋ง์ ์๊ฐ๊ณผ ๋น์ฉ์ด ๋ค๊ธฐ ๋๋ฌธ์, ๋ ํฐ LLM์ ๋ง๋ค๊ธฐ ์ํด ํด๊ฒฐํด์ผ ํ ๋ฌธ์ ์ค ํ๋๊ฐ ๋ฐ๋ก '์ฌ์ ํ๋ จ ๋จ๊ณ์ ๋น์ฉ ๊ฐ์'์ธ๋ฐ์. ์ํผ์๋ ํค์์(Hessian) ํ๋ ฌ์ ๊ทผ์ฌํ์ฌ ์์ค ํจ์ ๊ฐ์ด ๊ฐํ๋ฅด๊ฒ ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ ๋ ํฐ ํจ๋ํฐ๋ฅผ ๋ถ๊ณผํ๊ธฐ ๋๋ฌธ์, ๊ธฐ์กด์ ์๋ด(Adam) ์ตํฐ๋ง์ด์ ๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ํ์ต์ด ์งํ๋ฉ๋๋ค. ๋ํ, ์๋ด์ ๊ฒฝ์ฐ ์์ค ํจ์ ๊ณก๋ฉด์ด ํํํ ์ชฝ์ผ๋ก๋ ํ๋ผ๋ฏธํฐ ๊ฐ๋ ์ฒ์ฒํ ์ ๋ฐ์ดํธ๋๋๋ฐ, ์ํผ์๋ ๋ชจ๋ ์ฐจ์์์ ์์ค ํจ์๊ฐ ์ผ์ ํ ๊ฐ์ํ๋ค๊ณ ํ๋ค์.
๋, ํน์ AI ์ปค๋ฆฌ์ด๋ฅผ ์๊ณ ์ถ์๋ฐ ๋น์ ๊ณต์์ฌ์ ๋ง๋งํจ์ ๋๋ผ๊ณ ์๋์? ์ต๊ทผ ๋ชจ๋๋ฅผ ์ํ ์ธ๋ฏธ๋ โ๋ชจ๋ํโ์์ <๋น์ ๊ณต์๋ก์ AI ์ปค๋ฆฌ์ด๋ฅผ ์๋ ๋ฒ>์ ์ฃผ์ ๋ก ๋ฐํ๊ฐ ์งํ๋ผ ๊ฐ๋ตํ ์๊ฐํ๊ณ ์ ํฉ๋๋ค. ๋ณธ ์ธ๋ฏธ๋๋ AI ๋ฆฌ์์ฒ ์ง๋ฌด์ ๊ดํ ์ ๋ฐ์ ์ธ ์ค๋ช ๋ถํฐ ๋น์ ๊ณต์๋ก์ AI ๋ฆฌ์์ฒ ์ทจ์ ์ ์ค๋นํ ๋ ํ์ํ ๋ ธํ์ฐ์ ๊ฒฝํ๋ด์ด ๋ด๊ฒจ ์์ต๋๋ค. ๋ชจ๋์ฐ ๊ณต์ ์ ํ๋ธ์์ ์ง๋ ๋ชจ๋ํ ์์๋ค์ ํ์ธํ ์ ์์ผ๋, ์ฐธ๊ณ ํด ์ฃผ์ธ์.
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ SW/AI ๋ด์ค๋ ํฐ