๋ฉํ AI์์ LLM(Large Language Model)์ด ์์ฑํ ํ ์คํธ๋ฅผ ํ๊ฐํ๊ณ ๊ฐ์ ์ ์ ์ ์ํ๋ LLM '์ ฐํผ๋(Shepherd)'๋ฅผ ๋ฐํํ์ต๋๋ค. ๊ฐ ํ์ข ์ ํ๋๋ก ์๋ ค์ง ์ ฐํผ๋๋ '์์น๊ธฐ'๋ผ๋ ๋ป๋ ๊ฐ์ง๊ณ ์๋๋ฐ์. ๋ผ๋ง(Llama)๋ฅผ ์๋ดํ๋ ๋ชจ๋ธ์ด๋ผ๋ ์๋ฏธ๋ก ์ ฐํผ๋๋ผ๋ ์ด๋ฆ์ ๋ถ์๋ค๊ณ ํฉ๋๋ค. ๋ฉํ์ LLM '๋ผ๋ง'์ ์ด์ด '์ ฐํผ๋'๊น์ง, ๊ต์ฅํ ์๋ช ์ธ ๊ฒ ๊ฐ์์!
'LLaMA-7B' ๋ชจ๋ธ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ์ ฐํผ๋๋ LLM์ด ์์ฑํ ๋ต๋ณ์ ์ค๋ฅ์ ๋ ผ๋ฆฌ, ์ผ๊ด์ฑ ๋ฌธ์ ๋ฑ์ ์ธ์งํ๊ณ ํผ๋๋ฐฑ์ ์ค ์ ์์ด์. ์ฌ๋๊ณผ GPT-4๊ฐ ์ ฐํผ๋, '์ํ์นด(Alpaca)-7B', 'SelFee(Self-Feedback)', '์ฑGPT(GPT-3.5)'์ ๋ต๋ณ์ ๋น๊ตํ ๊ฒฐ๊ณผ, ์ ฐํผ๋๊ฐ ์์ฑํ ํ ์คํธ๊ฐ '์ํ์นด-7B'์ 'SelFee'๋ณด๋ค ๋ ๋์ ํ๊ฐ๋ฅผ ๋ฐ์๊ณ ์. ํจ์ฌ ํฐ ๋ชจ๋ธ์ธ ์ฑGPT์๋ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์๋ค๊ณ ํ๋ค์. ๊นํ๋ธ ํ์ด์ง์์ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐํ๊ณ ์์ผ๋ ๋ฐฉ๋ฌธํด ๋ณด์ธ์!
ํ ์คํธ, ์ด๋ฏธ์ง ์์ฑ์ ๋นํด ์ค๋์ค ์์ฑ ์ฐ๊ตฌ๊ฐ ์ ์ด๋ ต๋ค๊ณ ํ ๊น์? ๊ทธ ์ด์ ์ค ํ๋๋ '์ค๋์ค ์์ฑ'์ด๋ผ๋ ํ์คํฌ์ ๋ชฉ์๋ฆฌ, ์์ , ํจ๊ณผ์ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ผ ์๋ค๋ ๊ฑด๋ฐ์. ์ด ๋ฐ์ดํฐ๋ค์ ์ฌ์ฉ๋๋ ๋ชฉ์ ๋ ์๋ก ๋ฌ๋๊ณ , ๊ฐ๊ฐ์ ํนํ๋ ๋ชจ๋ธ์ด ๋ณ๊ฐ๋ก ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ํ๋๋ก ํฉ์น ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ๊ฐ ์ด๋ ค์ ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ๋ค์ํ ์ค๋์ค ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ์ผ๋ก 'Language of Audio(LOA)'๋ฅผ ์ ์ํ๋ฉด์, ํตํฉ๋ ํ๋ ์์ํฌ 'AudioLDM 2'๋ฅผ ๊ณต๊ฐํ์ต๋๋ค.
์ค๋์ค ๋ฐ์ดํฐ๋ 'AudioMAE' ๋ชจ๋ธ๋ก, ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ฐ์ดํฐ๋ GPT-2๋ฅผ ์ด์ฉํด LOA๋ก ์ธ์ฝ๋ฉ๋๊ณ ์. LOA์์ ์ค๋์ค๋ฅผ ์์ฑํ ๋๋ ๋ํจ์ ๋ชจ๋ธ LDM(Latent Diffusion Model)์ด ์ฌ์ฉ๋์ต๋๋ค. AudioLDM 2๋ ํ ์คํธ์์ ํจ๊ณผ์๊ณผ ์์ ์ ์์ฑํ๋ ํ์คํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์์ฑ ํฉ์ฑ ํ์คํฌ์์๋ ๊ธฐ์กด SOTA ๋ชจ๋ธ๊ณผ ์ฑ๋ฅ์ด ๋น์ทํ๋ค๊ณ ํ๋ค์. ์๋ ๋ฐ๋ชจ ํ์ด์ง์์๋ ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง๋ก ์์ฑํ ์ค๋์ค๋ ๋ค์ด๋ณผ ์ ์๋๋ฐ์. ์ค๋์ค ์์ฑ ๋ชจ๋ธ์ ์์ผ๋ก ์ด๋ป๊ฒ ๋ฐ์ ํ ๊น์?๐ค
๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ธก์ ์ํ ๋ชจ๋ธ '์คํํด๋(OpenFold)'๋ฅผ ๋ง๋ ์ฝ๋กฌ๋น์ ๋ํ์ ์ฐ๊ตฌํ์ด ๋จ๋ฐฑ์ง์ '๋ค์ค ์์ด ์ ๋ ฌ(MSA, Multiple Sequence Alignment)' ์ ๋ณด๋ฅผ ๋ด์ ๋ฐ์ดํฐ์ 'OpenProteinSet'์ ๋ฐํํ์ต๋๋ค. ๋จ๋ฐฑ์ง์ 20์ฌ ๊ฐ์ง์ ์๋ฏธ๋ ธ์ฐ ๋ถ์๋ค์ด ๊ธธ๊ฒ ์ฐ๊ฒฐ๋ผ ์๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋๋ฐ์. ์ด๋ฐ ๋จ๋ฐฑ์ง ์์ด(Sequence)๋ค์ ์ ๋ ฌํ ๊ฒ, ์ฆ ์๋ฏธ๋ ธ์ฐ ๋ถ์๋ค์ด ๊ฐ์ฅ ๋ง์ด ์ผ์นํ๋๋ก ๋ฐฐ์นํ ๊ฒ์ 'MSA'๋ผ๊ณ ํฉ๋๋ค. MSA๋ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ธก๋ฟ๋ง ์๋๋ผ ๋จ๋ฐฑ์ง ๋ถ์์ ์ค๊ณ, ๋ถ๋ฅ, ๊ธฐ๋ฅ ์์ธก ๋ฑ ์๋ช ์ ๋ณดํ์ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋๋๋ฐ์.
'์ํํด๋(AlphaFold) 2', 'MSA Transformer'์ ๊ฐ์ด ํฐ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ ๋ฐ์ดํฐ๋ ๊ณต๊ฐ๋์ง ์์๊ธฐ ๋๋ฌธ์ ์ต์ ๋จธ์ ๋ฌ๋ ๊ธฐ์ ์ ๋จ๋ฐฑ์ง ์ฐ๊ตฌ์ ์ ์ฉํ๊ธฐ์ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํฉ์ด์์ด์. OpenProteinSet์ 1600๋ง ๊ฐ ์ด์์ MSA ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๊ณ ์๊ณ , ์ด ๋ฐ์ดํฐ์ ์ผ๋ก ์คํํด๋ ๋ชจ๋ธ์ ํ์ต์ํจ ๊ฒฐ๊ณผ ๋ฅ๋ง์ธ๋์ ์ํํด๋ 2์๋ ์ฑ๋ฅ์ด ๋น์ทํด์ก๋ค๊ณ ํฉ๋๋ค. ๋จ๋ฐฑ์ง ์ฐ๊ตฌ์์๋ ์๋ก์ด ๋ชจ๋ธ์ด ๋ง์ด ๋ฐํ๋ ๊ฒ ๊ฐ์ ๊ธฐ๋๊ฐ ๋๋ค์!
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ SW/AI ๋ด์ค๋ ํฐ