SPEAKERS



AI CORE SESSION 1.  5/23(목) 16:00 - 16:30 (30")

한보형 교수

서울대학교 전기정보공학부

On the Training-Free Image and Video Generation

Text-to-image generative models exhibit remarkable performance, and many interesting applications have been derived from the baseline models. One example is image-to-image translation using modifier text. This talk discusses a few optimization approaches to improve image manipulation and long-term video generation performance based on pretrained diffusion models.

AI CORE SESSION 2.  5/23(목) 16:30 - 17:00 (30")

이민혁 교수

중앙대학교 전자전기공학부

3D 이미지 생성형 인공지능 모델의 제어 가능성에 대한 연구 동향

최근 들어 3D 장면 학습에 대한 연구가 매우 활발해지고 있다. 특히, Neural Radiance Fields (NeRF) 및 Gaussian Splatting과 같은 기술이 중심이 되어, 다수의 2D 이미지로부터 학습하여 학습되지 않은 시점에서의 장면을 성공적으로 재구성하는 능력을 보여주었다. 이러한 진보는, 생성형 인공지능 모델, 특히 Generative Adversarial Networks (GANs) 및 Latent Diffusion Models (LDM) 등과의 통합을 통해, 3D 장면 생성에 대한 연구로까지 발전하였다. 이런 연구의 진전은, 사용자가 원하는 특정 3D 장면을 생성할 수 있는 모델의 제어능력에 대한 문제를 중심으로 하는 연구의 중요성을 더욱 부각시켰다. 본 발표에서는 이러한 문제에 초점을 맞추어, 사용자가 원하는 3D 장면을 생성하기 위해 인공지능 모델을 어떻게 제어할 수 있는지에 대한 최근 연구 동향을 소개한다.

AI CORE SESSION 3.  5/23(목) 17:00 - 17:30 (30")

오태현 교수

포항공과대학교 전자전기공학과

Learning to Visualize Invisible Signals

We, humans, live in the world by heavily relying on visual signals sensed by the eyes. As we all know, the eyes have critical limitations; they cannot see things that are small, behind occlusion, or in the dark. In this talk, I will introduce my group's attempts to see beyond sight. This talk starts with the research question: Can other signals visually describe the world around us, and how much visual information is embedded in them? I first demonstrate that visible signals can be extracted from sound by our Sound Camera project. Then, I will present how to stably extract visual imagination from text through pretrained generative models, and how to magnify subtle motion signals invisible to our naked eyes.

TOP