ํ๊น ํ์ด์ค์ โDiffusersโ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ โControlNetโ์ด ์๋กญ๊ฒ ์ถ๊ฐ๋์๋ค๊ณ ํฉ๋๋ค. โControlNetโ์ ์กฐ๊ฑด(Condition)์ ์ถ๊ฐํด์ ๋ํจ์ ๋ชจ๋ธ์ ์ ์ด(Control)ํ๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ธ๋ฐ์. ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋ฐํ์ผ๋ก ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋ ค์ฃผ๋ AI ์์ฑ ๋ชจ๋ธ๋ก ์ดํดํ๋ฉด ์ฌ์ธ ๊ฒ ๊ฐ๋ค์. ์ฌ๊ธฐ์ ๊น์ด, ์์ธ, ์ถ์ถ์ ๊ฐ์ ์ด๋ฏธ์ง์ ํน์ฑ์ '์ ์ง'ํ๋ฉด์ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ ๋ค๋ ๊ฒ ํฌ์ธํธ์ ๋๋ค. ์๋ ๊ธ์์ ์์ธํ ์ค๋ช ๊ณผ ๊ตฌ๊ธ ์ฝ๋ฉ(Colab) ์์ ๋ ํจ๊ป ํ์ธํด ๋ณด์ธ์!
Ultra fast ControlNet with Diffusers
์๋ ๊ตฌ๊ธ์ 1,000๊ฐ์ ์ธ์ด๋ฅผ ์ง์ํด ์ ์ธ๊ณ์ ๋ ๋ง์ ์ฌ๋๋ค์ ํฌ์ฉํ๋ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ฒ ๋ค๋ ์ผ์ฌ์ฐฌ ์ฝ์์ ํ์์ฃ . ์ด ์ฒซ ๋จ๊ณ๋ก 100๊ฐ ์ด์์ ์ธ์ด๋ฅผ ์๋ ์ธ์ํ๊ณ , ์ด๋ฅผ ๋ฒ์ญํ๊ฑฐ๋ ์๋ง์ผ๋ก ๋ง๋๋ ์์ฑ ์ธ๊ณต์ง๋ฅ 'Universal Speech Model(USM)'์ ๋ฐํํ์ต๋๋ค. 73๊ฐ ์ธ์ด๊ฐ ํฌํจ๋ ์ ํ๋ธ ์๋ง ๋ฐ์ดํฐ์ ์ผ๋ก ์งํํ ์คํ์์, 30% ๋ฏธ๋ง์ WER*์ ๊ธฐ๋กํ๋๋ฐ์. ํ์ฌ๊น์ง ๋์จ ์์ฑ ์ธ๊ณต์ง๋ฅ ์ค ๊ฐ์ฅ ์ฐ์ํ ์์น๋ผ๊ณ ํฉ๋๋ค.
*WER(Word Error Rate, ๋จ์ด ์ค๋ฅ์จ): ์์ฑ ์ธ์ ๋๋ ๊ธฐ๊ณ ๋ฒ์ญ์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ธฐ์ค์ผ๋ก ๋ฎ์์๋ก ์ข์
Universal Speech Model (USM): State-of-the-art speech AI for 100+ languages
Google Research, 2022 & Beyond ์๋ฆฌ์ฆ์ ๋ง์ง๋ง ํฌ์คํธ๋ฅผ ์๊ฐํฉ๋๋ค. ๊ตฌ๊ธ์ ๊ธฐ์ ๋ฐ์ ์ ๊ฐ์ํํ๋ ๋์์ ์ปค๋ฎค๋ํฐ ์ ๋ฐ์ ์ญ๋์ ๋ํ๋ ์ฐ๊ตฌ ์ฒ ํ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ํ๋๋ฐ์. ์ฌํ์ ๊ณผ์ (Social challenges)๋ฅผ ํจ๊ป ํด๊ฒฐํ๊ณ , ์ฐจ์ธ๋ ์ฐ๊ตฌ์์ ์์ฑํ๋ฉฐ, ์๋ก์ด ์คํ ์์ค ์ฝ๋ ๋ฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ถ์ํ๋ ๋ฑ ๊ตฌ๊ธ์ ํ๋์ ์์ธํ ์๊ณ ์ถ๋ค๋ฉด ์๋ ๊ธ์ ์ฝ์ด ๋ณด์ธ์.
Google Research, 2022 & beyond: Research community engagement
์นด์นด์ค๋ธ๋ ์ธ(Kakao Brain)์ 7์ต ์์ ์๋ก์ด ์ด๋ฏธ์ง-ํ ์คํธ ์คํ ์์ค ๋ฐ์ดํฐ์ โCOYOโ์, ์ด๋ฅผ ํตํด ํ์ต๋ ๋ ๊ฐ์ง ์๋ก์ด ์๊ฐ ์ธ์ด ๋ชจ๋ธ(Visual language model)์ธ โViTโ์ โALIGNโ ๋ชจ๋ธ์ ์ถ์ํ์ต๋๋ค. โALIGNโ ๋ชจ๋ธ์ด ์คํ ์์ค ์ฌ์ฉ์ ์ํด ๋ฌด๋ฃ๋ก ๊ณต๊ฐ๋ ๊ณณ์ ์ด๋ฒ์ด ์ต์ด๋ผ๊ณ ํฉ๋๋ค!
Kakao Brainโs Open Source ViT, ALIGN, and the New COYO Text-Image Dataset
๋ฐ์ง์ฐ ์ฐ๊ตฌ์์ ๋์งธ ์๋ค ๋ฐ์ค์๊ตฐ์ด ๊ธ์ฑ๊ณจ์์ฑ๋ฐฑํ๋ณ์ผ๋ก ๋งค์ฐ ํ๋ ์๊ฐ์ ๋ณด๋ด๊ณ ์์ต๋๋ค. ํํ์ด ๊ฐ๋ฅํ๋ค๋ฉด, ์ง์ ํํ๋ก ์ค์๋ฅผ ํจ๊ป ์ง์ผ์ฃผ์ธ์. ํ์กํ์ด ๋ฌ๋ผ๋ ์ง์ ํํ ์ฑ์ ํตํด ๊ตํ์ด ๊ฐ๋ฅํ๋ค๊ณ ํฉ๋๋ค.
๋ชจ๋์์ฐ๊ตฌ์ ๊ณต์ ๐ ๐จ ๋ด์ค๋ ํฐ โฎ ๐ฒ๐๐๐ผ๐พ ๐ค๐ข๐ค๐ค