AI CORE SESSION 1. 5/23(목) 16:00 - 16:30 (30") |
||
한보형 교수 서울대학교 전기정보공학부 |
||
On the Training-Free Image and Video Generation
Text-to-image generative models exhibit remarkable performance, and many interesting applications have been derived from the baseline models. One example is image-to-image translation using modifier text. This talk discusses a few optimization approaches to improve image manipulation and long-term video generation performance based on pretrained diffusion models. |
AI CORE SESSION 2. 5/23(목) 16:30 - 17:00 (30") |
||
이민혁 교수 중앙대학교 전자전기공학부 |
||
3D 이미지 생성형 인공지능 모델의 제어 가능성에 대한 연구 동향
최근 들어 3D 장면 학습에 대한 연구가 매우 활발해지고 있다. 특히, Neural Radiance Fields (NeRF) 및 Gaussian Splatting과 같은 기술이 중심이 되어, 다수의 2D 이미지로부터 학습하여 학습되지 않은 시점에서의 장면을 성공적으로 재구성하는 능력을 보여주었다. 이러한 진보는, 생성형 인공지능 모델, 특히 Generative Adversarial Networks (GANs) 및 Latent Diffusion Models (LDM) 등과의 통합을 통해, 3D 장면 생성에 대한 연구로까지 발전하였다. 이런 연구의 진전은, 사용자가 원하는 특정 3D 장면을 생성할 수 있는 모델의 제어능력에 대한 문제를 중심으로 하는 연구의 중요성을 더욱 부각시켰다. 본 발표에서는 이러한 문제에 초점을 맞추어, 사용자가 원하는 3D 장면을 생성하기 위해 인공지능 모델을 어떻게 제어할 수 있는지에 대한 최근 연구 동향을 소개한다. |
AI CORE SESSION 3. 5/23(목) 17:00 - 17:30 (30") |
||
오태현 교수 포항공과대학교 전자전기공학과 |
||
Learning to Visualize Invisible Signals
We, humans, live in the world by heavily relying on visual signals sensed by the eyes. As we all know, the eyes have critical limitations; they cannot see things that are small, behind occlusion, or in the dark. In this talk, I will introduce my group's attempts to see beyond sight. This talk starts with the research question: Can other signals visually describe the world around us, and how much visual information is embedded in them? I first demonstrate that visible signals can be extracted from sound by our Sound Camera project. Then, I will present how to stably extract visual imagination from text through pretrained generative models, and how to magnify subtle motion signals invisible to our naked eyes. |