์ด์ ๋๊ตฌ๋ ํ ๋ฒ์ฏค์ ๋ค์ด๋ดค์ '์์ฑ ๋ชจ๋ธ'. ํ์ง๋ง ์ด๋ฏธ์ง๋ ํ ์คํธ ์์ฑ ๋ชจ๋ธ์ ๋นํด ์ค๋์ค ์์ฑ ๋ชจ๋ธ์ ์ผ๋ถ ์ฐ๊ตฌ๊ฐ ์งํ ์ค์ด์ง๋ง, ๋ ๋ณต์กํ๊ณ ๊ฐ๋ฐฉ์ ์ด์ง ์์ ๋์ค์ ๊ด์ฌ์ด ์๋์ ์ผ๋ก ์ ์๋ฐ์. ๋ฉํ AI๋ ์ฌ๋๋ค์ด ์ค๋์ค ์์ฑ ๋ชจ๋ธ์ ์ฆ๊ธธ ์ ์๋๋ก ์ค๋์คํฌ๋ํํธ(AudioCraft)๋ฅผ ์คํ ์์ค๋ก ๊ณต๊ฐํ์ต๋๋ค. ์ค๋์คํฌ๋ํํธ๋ ์ธ ๋ชจ๋ธ ๋ฎค์ง์ (MusicGen), ์ค๋์ค์ (AudioGen), ๊ทธ๋ฆฌ๊ณ ์ธ์ฝ๋ฑ(Encodec)์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋ฎค์ง์ ๊ณผ ์ค๋์ค์ ์ ํ ์คํธ ํ๋กฌํํธ๋ก๋ถํฐ ๊ฐ๊ฐ ์์ ๊ณผ ํจ๊ณผ์(๋๋ฌผ ์๋ฆฌ, ์๋์ฐจ ์๋ฆฌ ๋ฑ)์ ์์ฑํ๋ ๋ชจ๋ธ์ด๊ณ ์. ์ธ์ฝ๋ฑ์ ์ค๋์ค ํ์ผ์ ์์ถ์ ์ํ ์ฝ๋ฑ ๋ชจ๋ธ์ ๋๋ค. ๋ฉํ AI๋ ์ค๋์คํฌ๋ํํธ๊ฐ ์ฐ๊ตฌ์๋ค๋ฟ๋ง ์๋๋ผ ์์ ๊ฐ, ์ฌ์ด๋ ๋์์ด๋๋ค์ ์์ ์๋ ์ฌ์ฉ๋๊ธธ ๊ธฐ๋ํ๋ค๊ณ ํ๋ค์. ์ฑGPT์ AI ๊ทธ๋ฆผ์ฒ๋ผ, AI ์์ ๋ ํฐ ์ธ๊ธฐ๋ฅผ ์ป์ ์ ์์๊น์?
๊ตฌ๊ธ ๋ฅ๋ง์ธ๋์์ ์๊ฐ-์ธ์ด ๋ชจ๋ธ(Vision-Language Model, VLM)์ ๋ก๋ด์ ํ๋์ ๊ฒฐํฉํ์ต๋๋ค. ๋ฐ๋ก ์๊ฐ-์ธ์ด-์ก์ (Vision-Language-Action, VLA) ๋ชจ๋ธ, Robotic Transformer 2(RT-2)์ธ๋ฐ์. ์ฐ์ VLM์ ์ด๋ฏธ์ง์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ๋ก, ์ด๋ฏธ์ง ์บก์ ์ถ๊ฐ๋ถํฐ ์์ฑ์ ์ด๋ฅด๊ธฐ๊น์ง ๋ค์ฑ๋ก์ด ๋ถ์ผ์์ ์ฌ์ฉ๋๊ณ ์์ด์. ํ์ง๋ง ์ด ํ์คํฌ๋ค์ ๋ก๋ด์ด ์ค์ ๋ก ์ํํ๊ฒ ํ๊ธฐ ์ํด์๋ ๋ก๋ด์ ํ๋ ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋ก ํ์ํ๋ค๋ ๊ณผ์ ๊ฐ ์์์ฃ . ๋ฅ๋ง์ธ๋๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ช ๋ น(Instruction), ๋ก๋ด์ ํ๋(Action)์ ๋ชจ๋ ํ ํฐ์ ํํ๋ก ํํํด ํธ๋์คํฌ๋จธ๋ก ํ์ต์์ผฐ๋ ๊ธฐ์กด์ 'RT-1' ๋ชจ๋ธ์์ ํํธ๋ฅผ ์ป์ด, VLM๊ณผ ๊ฒฐํฉํ 'RT-2'๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. RT-2๋ก ํ์ต๋ ๋ก๋ด์ "ํ ์ผ๋ฌ ์ค์ํํธ์ ์ฌ์ง ์ชฝ์ผ๋ก ์ฝ๋ผ ์บ ์ฎ๊ธฐ๊ธฐ", "ํ ์ด๋ธ์์ ๋จ์ด์ง๋ ค๊ณ ํ๋ ๋ฌผ์ฒด๋ฅผ ๋ค์ด ์ฌ๋ฆฌ๊ธฐ"์ ๊ฐ์ ๋ณต์กํ ํ์คํฌ๋ฅผ ์ํํ ์ ์์๊ณ ์. ๊ธฐ์กด RT-1์ด๋ VC(Visual Cortex)-1 ๋ชจ๋ธ๊ณผ ๋น๊ตํด ์ฑ๊ณต๋ฅ ์ด ๋์๋ค๊ณ ํ๋ค์!
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ SW/AI ๋ด์ค๋ ํฐ