์ํ ๋ชจ๋ธ๋ก ์ฅํธ ๋์์ ์ดํดํ ์๋น๋์์ ์ ๊ธฐ์
์ผ์ฃผ์ผ 7์ต ์ฅ! ์ธ๊ธฐ ํญ๋ฐํ AI ์ด๋ฏธ์ง ๊ธฐ๋ฅ API๋ก ์ ๊ณต
์๋น๋์๊ฐ ๊ธด ์ฝํ ์คํธ ์ดํด์ ํนํ๋ VLM(Vision Language Models, ์๊ฐ-์ธ์ด ๋ชจ๋ธ) 'Eagle 2.5'๋ฅผ ๋ฐํํ์ต๋๋ค. ๊ธด ๋์์์ด๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์ดํด๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ฃผ์ ๊ณผ์ ์์ต๋๋ค.
ํจ์จ์ ์ธ ์ด๋ฏธ์ง ์ํ๋ง ๊ธฐ๋ฒ๊ณผ ์ฌํ ํ์ต(post-training, ์ถ๊ฐ ํ๋ จ) ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ธด ๋์์ ์ดํด ๋ฅ๋ ฅ์ ํฅ์์์ผฐ์ต๋๋ค. Video-MME ๋ฒค์น๋งํฌ์์ ์์ ๊ธธ์ด๊ฐ ๋์ด๋๋ ์ฑ๋ฅ์ด ์ ์ง๋์์ผ๋ฉฐ, 8B ํฌ๊ธฐ ๋ชจ๋ธ๋ก๋ GPT-4o, Qwen2.5-VL-72B ๊ฐ์ ๋ํ ๋ชจ๋ธ๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ AI ์์ ๋ถ์์ ํจ์จ์ฑ์ ํฌ๊ฒ ๋์์ต๋๋ค.
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
OpenAI๊ฐ ChatGPT์ ์ธ๊ธฐ ๊ธฐ๋ฅ์ด์๋ ์ด๋ฏธ์ง ์์ฑ ๊ธฐ๋ฅ์ API๋ก ์ ๊ณตํ๊ธฐ ์์ํ์ต๋๋ค. ์ด ๊ธฐ๋ฅ์ ์ถ์ ์ผ์ฃผ์ผ ๋ง์ 1์ต 3์ฒ๋ง ๋ช ์ด 7์ต ์ฅ ์ด์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ๋๋ก ํฐ ์ธ๊ธฐ๋ฅผ ๋์์ต๋๋ค.
๊ฐ๋ฐ์๋ค์ 'gpt-image-1' ๋ชจ๋ธ์ ํตํด ์์ฌ ์๋น์ค์ ์ด๋ฏธ์ง ์์ฑ ๊ธฐ๋ฅ์ ์ถ๊ฐํ ์ ์๊ฒ ๋์์ต๋๋ค. ์ ํด ์ด๋ฏธ์ง ์ ํ๊ณผ C2PA ๋ฉํ๋ฐ์ดํฐ(์ธ์ฆ ์ ๋ณด) ํฌํจ ๋ฑ ์์ ์ฅ์น๋ฅผ ๊ฐ์ถ๊ณ ์์ต๋๋ค. ๋น์ฉ์ ํ ์คํธ ์ ๋ ฅ, ์ด๋ฏธ์ง ์ ๋ ฅ, ์ด๋ฏธ์ง ์ถ๋ ฅ ๊ฐ๊ฐ 100๋ง ํ ํฐ ๋น 5๋ฌ๋ฌ, 10๋ฌ๋ฌ, 40๋ฌ๋ฌ๋ก, ์ด๋ฏธ์ง ํ ์ฅ์ ์ฝ 0.02~0.19๋ฌ๋ฌ๊ฐ ์์๋ฉ๋๋ค.
์ด๋ฆฐ ์ฐ๊ตฌ์ค
์ด๋ฆฐ ์ธ๋ฏธ๋
์นผํด๋ฅผ ์ํ 1๋ถ AIํ
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ SW/AI ๋ด์ค๋ ํฐ