ํ๊น ํ์ด์ค์ โDiffusersโ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ โControlNetโ์ด ์๋กญ๊ฒ ์ถ๊ฐ๋์๋ค๊ณ ํฉ๋๋ค. โControlNetโ์ ์กฐ๊ฑด(Condition)์ ์ถ๊ฐํด์ ๋ํจ์ ๋ชจ๋ธ์ ์ ์ด(Control)ํ๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ธ๋ฐ์. ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋ฐํ์ผ๋ก ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋ ค์ฃผ๋ AI ์์ฑ ๋ชจ๋ธ๋ก ์ดํดํ๋ฉด ์ฌ์ธ ๊ฒ ๊ฐ๋ค์. ์ฌ๊ธฐ์ ๊น์ด, ์์ธ, ์ถ์ถ์ ๊ฐ์ ์ด๋ฏธ์ง์ ํน์ฑ์ '์ ์ง'ํ๋ฉด์ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ ๋ค๋ ๊ฒ ํฌ์ธํธ์ ๋๋ค. ์๋ ๊ธ์์ ์์ธํ ์ค๋ช ๊ณผ ๊ตฌ๊ธ ์ฝ๋ฉ(Colab) ์์ ๋ ํจ๊ป ํ์ธํด ๋ณด์ธ์!
Ultra fast ControlNet with Diffusers
์๋ ๊ตฌ๊ธ์ 1,000๊ฐ์ ์ธ์ด๋ฅผ ์ง์ํด ์ ์ธ๊ณ์ ๋ ๋ง์ ์ฌ๋๋ค์ ํฌ์ฉํ๋ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ฒ ๋ค๋ ์ผ์ฌ์ฐฌ ์ฝ์์ ํ์์ฃ . ์ด ์ฒซ ๋จ๊ณ๋ก 100๊ฐ ์ด์์ ์ธ์ด๋ฅผ ์๋ ์ธ์ํ๊ณ , ์ด๋ฅผ ๋ฒ์ญํ๊ฑฐ๋ ์๋ง์ผ๋ก ๋ง๋๋ ์์ฑ ์ธ๊ณต์ง๋ฅ 'Universal Speech Model(USM)'์ ๋ฐํํ์ต๋๋ค. 73๊ฐ ์ธ์ด๊ฐ ํฌํจ๋ ์ ํ๋ธ ์๋ง ๋ฐ์ดํฐ์ ์ผ๋ก ์งํํ ์คํ์์, 30% ๋ฏธ๋ง์ WER*์ ๊ธฐ๋กํ๋๋ฐ์. ํ์ฌ๊น์ง ๋์จ ์์ฑ ์ธ๊ณต์ง๋ฅ ์ค ๊ฐ์ฅ ์ฐ์ํ ์์น๋ผ๊ณ ํฉ๋๋ค.
*WER(Word Error Rate, ๋จ์ด ์ค๋ฅ์จ): ์์ฑ ์ธ์ ๋๋ ๊ธฐ๊ณ ๋ฒ์ญ์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ธฐ์ค์ผ๋ก ๋ฎ์์๋ก ์ข์
Universal Speech Model (USM): State-of-the-art speech AI for 100+ languages
Google Research, 2022 & Beyond ์๋ฆฌ์ฆ์ ๋ง์ง๋ง ํฌ์คํธ๋ฅผ ์๊ฐํฉ๋๋ค. ๊ตฌ๊ธ์ ๊ธฐ์ ๋ฐ์ ์ ๊ฐ์ํํ๋ ๋์์ ์ปค๋ฎค๋ํฐ ์ ๋ฐ์ ์ญ๋์ ๋ํ๋ ์ฐ๊ตฌ ์ฒ ํ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ํ๋๋ฐ์. ์ฌํ์ ๊ณผ์ (Social challenges)๋ฅผ ํจ๊ป ํด๊ฒฐํ๊ณ , ์ฐจ์ธ๋ ์ฐ๊ตฌ์์ ์์ฑํ๋ฉฐ, ์๋ก์ด ์คํ ์์ค ์ฝ๋ ๋ฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ถ์ํ๋ ๋ฑ ๊ตฌ๊ธ์ ํ๋์ ์์ธํ ์๊ณ ์ถ๋ค๋ฉด ์๋ ๊ธ์ ์ฝ์ด ๋ณด์ธ์.
Google Research, 2022 & beyond: Research community engagement
์นด์นด์ค๋ธ๋ ์ธ(Kakao Brain)์ 7์ต ์์ ์๋ก์ด ์ด๋ฏธ์ง-ํ ์คํธ ์คํ ์์ค ๋ฐ์ดํฐ์ โCOYOโ์, ์ด๋ฅผ ํตํด ํ์ต๋ ๋ ๊ฐ์ง ์๋ก์ด ์๊ฐ ์ธ์ด ๋ชจ๋ธ(Visual language model)์ธ โViTโ์ โALIGNโ ๋ชจ๋ธ์ ์ถ์ํ์ต๋๋ค. โALIGNโ ๋ชจ๋ธ์ด ์คํ ์์ค ์ฌ์ฉ์ ์ํด ๋ฌด๋ฃ๋ก ๊ณต๊ฐ๋ ๊ณณ์ ์ด๋ฒ์ด ์ต์ด๋ผ๊ณ ํฉ๋๋ค!
Kakao Brainโs Open Source ViT, ALIGN, and the New COYO Text-Image Dataset
๋ฐ์ง์ฐ ์ฐ๊ตฌ์์ ๋์งธ ์๋ค ๋ฐ์ค์๊ตฐ์ด ๊ธ์ฑ๊ณจ์์ฑ๋ฐฑํ๋ณ์ผ๋ก ๋งค์ฐ ํ๋ ์๊ฐ์ ๋ณด๋ด๊ณ ์์ต๋๋ค. ํํ์ด ๊ฐ๋ฅํ๋ค๋ฉด, ์ง์ ํํ๋ก ์ค์๋ฅผ ํจ๊ป ์ง์ผ์ฃผ์ธ์. ํ์กํ์ด ๋ฌ๋ผ๋ ์ง์ ํํ ์ฑ์ ํตํด ๊ตํ์ด ๊ฐ๋ฅํ๋ค๊ณ ํฉ๋๋ค.
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ SW/AI ๋ด์ค๋ ํฐ