📮 이미지를 줄 테니 더 좋은 그림 그려줘🖼️

#ControlNet #USM #ALIGN

2023. 3. 12.

함께 공유하고 성장하는 연구 문화를 전파해요

2023년 3월 13일 모두레터

구독하기 I 모두연 알아가기

위 그림은 텍스트를 읽어 그림을 그려주는 인공지능 DALL・E 2로 만들었어요

님, 모두레터가 왔어요!

변덕스런 날씨에, 꽃샘추위도 찾아온다고 하죠?

추워지는 김에 미세먼지도 싹~ 사라졌음 좋겠네요🌬️.

옷 따뜻하게 입고 건강 잘 챙기길 바랄게요🌼.

이번주 AI 소식

이미지를 줄 테니 더 좋은 그림 그려줘🖼️ [ControlNet]
전 세계 언어를 지원한다는 목표의 첫 단계 [USM]
구글 리서치, 2022 & Beyond 시리즈의 마지막 포스트
카카오브레인, 새로운 오픈 소스 데이터셋 공개 [ViT, ALIGN]

🍿열린 세미나 I 개발자의 시선으로 보는 노션(Notion)

이미지를 줄 테니 더 좋은 그림 그려줘 [ControlNet]

허깅 페이스의 ‘Diffusers’ 라이브러리에 ‘ControlNet’이 새롭게 추가되었다고 합니다. ‘ControlNet’은 조건(Condition)을 추가해서 디퓨전 모델을 제어(Control)하는 신경망 구조인데요. 이미지와 텍스트를 바탕으로 새로운 이미지를 그려주는 AI 생성 모델로 이해하면 쉬울 것 같네요. 여기서 깊이, 자세, 추출선 같은 이미지의 특성을 '유지'하면서 새로운 이미지를 만든다는 게 포인트입니다. 아래 글에서 자세한 설명과 구글 코랩(Colab) 예제도 함께 확인해 보세요!

Ultra fast ControlNet with Diffusers

전 세계 언어를 지원한다는 목표의 첫 단계 [USM]

작년 구글은 1,000개의 언어를 지원해 전 세계의 더 많은 사람들을 포용하는 모델을 구축하겠다는 야심찬 약속을 했었죠. 이 첫 단계로 100개 이상의 언어를 자동 인식하고, 이를 번역하거나 자막으로 만드는 음성 인공지능 'Universal Speech Model(USM)'을 발표했습니다. 73개 언어가 포함된 유튜브 자막 데이터셋으로 진행한 실험에서, 30% 미만의 WER*을 기록했는데요. 현재까지 나온 음성 인공지능 중 가장 우수한 수치라고 합니다.

*WER(Word Error Rate, 단어 오류율): 음성 인식 또는 기계 번역의 성능을 측정하는 기준으로 낮을수록 좋음

Universal Speech Model (USM): State-of-the-art speech AI for 100+ languages

구글 리서치, 2022 & Beyond 시리즈의 마지막 포스트

Google Research, 2022 & Beyond 시리즈의 마지막 포스트를 소개합니다. 구글은 기술 발전을 가속화하는 동시에 커뮤니티 전반의 역량을 넓히는 연구 철학을 가지고 있다고 하는데요. 사회적 과제(Social challenges)를 함께 해결하고, 차세대 연구원을 양성하며, 새로운 오픈 소스 코드 및 데이터 세트를 출시하는 등 구글의 활동을 자세히 알고 싶다면 아래 글을 읽어 보세요.

Google Research, 2022 & beyond: Research community engagement

카카오브레인, 새로운 오픈 소스 데이터셋 공개 [ViT, ALIGN]

카카오브레인(Kakao Brain)은 7억 쌍의 새로운 이미지-텍스트 오픈 소스 데이터셋 ‘COYO’와, 이를 통해 학습된 두 가지 새로운 시각 언어 모델(Visual language model)인 ‘ViT’와 ‘ALIGN’ 모델을 출시했습니다. ‘ALIGN’ 모델이 오픈 소스 사용을 위해 무료로 공개된 곳은 이번이 최초라고 합니다!

Kakao Brain’s Open Source ViT, ALIGN, and the New COYO Text-Image Dataset