📮 8B 모델로 72B 모델 성능 따라잡았다?

#Eagle2.5🦅 #OpenAI API I 님, 모두레터가 왔어요🤗

2025. 4. 27.

함께 공유하고 성장하는 연구 문화를 전파해요

2025년 4월 28일 모두레터

친구랑 같이읽기 I 웹에서 보기 I 지난 레터 보기

created with GPT-4o 🎧

님, 모두레터가 왔어요!

혹시 다가오는 연휴에 계획 있으신가요?

사실 그냥 누워서 쉬기만 해도 너무 좋은 연휴죠😴

마냥 푹 쉴 순 없더라도 잠시나마 나만의 시간을 가지길 바랄게요 :)

님 그럼 우리 잘 쉬고, 다다음주 월요일에 만나요!🌿

이번주 AI 소식

소형 모델로 장편 동영상 이해한 엔비디아의 신기술
일주일 7억 장! 인기 폭발한 AI 이미지 기능 API로 제공

소형 모델로 장편 동영상 이해한 엔비디아의 신기술

©NVIDIA

엔비디아가 긴 콘텍스트 이해에 특화된 VLM(Vision Language Models, 시각-언어 모델) 'Eagle 2.5'를 발표했습니다. 긴 동영상이나 고해상도 이미지 이해는 멀티모달 모델의 주요 과제였습니다.

효율적인 이미지 샘플링 기법과 사후 학습(post-training, 추가 훈련) 프레임워크를 통해 긴 동영상 이해 능력을 향상시켰습니다. Video-MME 벤치마크에서 영상 길이가 늘어나도 성능이 유지되었으며, 8B 크기 모델로도 GPT-4o, Qwen2.5-VL-72B 같은 대형 모델과 비슷한 성능을 보여 AI 영상 분석의 효율성을 크게 높였습니다.

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

일주일 7억 장! 인기 폭발한 AI 이미지 기능 API로 제공

©OpenAI

OpenAI가 ChatGPT의 인기 기능이었던 이미지 생성 기능을 API로 제공하기 시작했습니다. 이 기능은 출시 일주일 만에 1억 3천만 명이 7억 장 이상의 이미지를 생성할 정도로 큰 인기를 끌었습니다.

개발자들은 'gpt-image-1' 모델을 통해 자사 서비스에 이미지 생성 기능을 추가할 수 있게 되었습니다. 유해 이미지 제한과 C2PA 메타데이터(인증 정보) 포함 등 안전장치를 갖추고 있습니다. 비용은 텍스트 입력, 이미지 입력, 이미지 출력 각각 100만 토큰 당 5달러, 10달러, 40달러로, 이미지 한 장에 약 0.02~0.19달러가 소요됩니다.