๐PhysTwin ๋ฆฌ๋ทฐ
์ด ๋ ผ๋ฌธ์ ๋์ ๊ฐ์ฒด์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋์งํธ ํธ์(PhysTwin)์ ์์ฑํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. PhysTwin์ ๋ก๋ด ๊ณตํ, ์ฝํ ์ธ ์ ์, ํ์ฅ ํ์ค(XR) ๋ถ์ผ์์ ํ์ค ์ธ๊ณ ๊ฐ์ฒด๋ฅผ ๋ชจ๋ธ๋งํ๊ณ ๋ฏธ๋ ์ํ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ ์ ์์ต๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ํธ ์์ฉ ์ค์ธ ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด์ ํฌ์ํ ๋น๋์ค๋ก๋ถํฐ ์์ ํ geometry, ๊ณ ํ์ง appearance, ์ ํํ physical parameter๋ฅผ ๊ฐ์ถ ์๋ฎฌ๋ ์ด์ ๊ฐ๋ฅํ ๋์งํธ ํธ์์ ์ฌ๊ตฌ์ฑํฉ๋๋ค.
- ๐ฆ PhysTwin์ ์ํธ ์์ฉ ํ์์ ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด์ ์คํ์ค ๋น๋์ค๋ก๋ถํฐ ์ฌ์ค์ ์ธ ๋์งํธ ํธ์์ ์ฌ๊ตฌ์ฑํ๊ณ ์๋ฎฌ๋ ์ด์ ํ๋ ์๋ก์ด ํ๋ ์์ํฌ์ ๋๋ค.
- ๐ค ์ด ํ๋ ์์ํฌ๋ ๋ฏธ๋ ์ํ๋ฅผ ์ ํํ๊ฒ ์์ธกํ๊ณ ๋ณด์ด์ง ์๋ ์ก์ ์ผ๋ก ์ผ๋ฐํ๋๋ ๊ฐ์ฒด ์ํธ ์์ฉ์ ์๋ฎฌ๋ ์ด์ ํ๋ ๋ฐ ํ์ํฉ๋๋ค.
- โจ PhysTwin์ ๊ณ ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ ํํ ๋ฏธ๋ ์์ธก์ ์๊ตฌํ๋ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ ๋ก๋ด ์กฐ์์ ๋ํ ๊ท์คํ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
1 Brief Review
ํต์ฌ ๋ฐฉ๋ฒ๋ก
PhysTwin์ ๋ค์๊ณผ ๊ฐ์ ๋ ๊ฐ์ง ํต์ฌ ์์๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
Physics-informed representation: spring-mass model์ ์ฌ์ฉํ์ฌ realistic physical simulation์ ์ํํ๊ณ , generative shape model์ ์ฌ์ฉํ์ฌ geometry๋ฅผ ์์ฑํ๋ฉฐ, Gaussian splat์ ์ฌ์ฉํ์ฌ ๋ ๋๋งํฉ๋๋ค. Spring-mass model์ ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด๋ฅผ spring์ผ๋ก ์ฐ๊ฒฐ๋ mass node์ ์งํฉ์ผ๋ก ํํํ๋ฉฐ, Newtonian dynamics์ ๋ฐ๋ผ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์งํํฉ๋๋ค. Gaussian splat์ object appearance๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
Multi-stage, optimization-based inverse modeling framework: ๋น๋์ค๋ก๋ถํฐ ์์ ํ geometry๋ฅผ ์ฌ๊ตฌ์ฑํ๊ณ , dense physical parameter๋ฅผ ์ถ๋ก ํ๋ฉฐ, realistic appearance๋ฅผ ๋ณต์ ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ inverse physics framework์ visual perception cue๋ฅผ ํตํฉํ์ฌ ๋ถ๋ถ์ ์ผ๋ก ๊ฐ๋ ค์ง๊ฑฐ๋ ์ ํ๋ ์์ ์์ ์ดฌ์๋ ๋น๋์ค์์๋ ๊ณ ํ์ง ์ฌ๊ตฌ์ฑ์ด ๊ฐ๋ฅํ๋๋ก ํฉ๋๋ค. Hierarchical sparse-to-dense optimization strategy๋ non-differentiable topology ๋ฐ sparse physical parameter์ ๋ํด zero-order optimization์ ํตํฉํ๊ณ , dense spring stiffness๋ฅผ ๊ฐ์ ํ๊ณ collision parameter๋ฅผ ์ถ๊ฐ๋ก ์ต์ ํํ๊ธฐ ์ํด first-order gradient-based optimization์ ์ฌ์ฉํฉ๋๋ค.
์์
Force on node i:
F_i = \sum_{(i,j) \in E} F_{spring_{i,j}} + F_{dashpot_{i,j}} + F_{ext_i}
Spring force between nodes i and j:
F_{spring_{i,j}} = k_{ij} (||x_j - x_i|| - l_{ij}) \frac{x_j - x_i}{||x_j - x_i||}
Dashpot damping force between nodes i and j:
F_{dashpot_{i,j}} = -\gamma (v_i - v_j)
Dynamic model:
X_{t+1} = f_{\alpha, G_0} (X_t, a_t)
Velocity update:
v_i^{t+1} = \delta (v_i^t + \Delta t \frac{F_i}{m_i})
Position update:
x_i^{t+1} = x_i^t + \Delta t v_i^{t+1}
Overall optimization problem:
\min_{\alpha, G_0, \theta} \sum_{t,i} C(\hat{O}_{t,i}, O_{t,i})
subject to \hat{O}_{t,i} = g_\theta(\hat{X}_t, i), \hat{X}_{t+1} = f_{\alpha, G}(\hat{X}_t, a_t)
Physics and geometry optimization:
\min_{\alpha, G_0} \sum_t (C_{geometry}(\hat{X}_t, X_t) + C_{motion}(\hat{x}_i^t, x_i^t))
subject to \hat{X}_{t+1} = f_{\alpha, G_0}(\hat{X}_t, a_t)
Gaussian kernel transformations
R_i^t = \argmin_{R \in SO(3)} \sum_{j \in N(i)} ||R(\hat{\mu}_j^t - \hat{\mu}_i^t) - (\hat{\mu}_j^{t+1} - \hat{\mu}_i^{t+1})||^2
\mu_j^{t+1} = \sum_{k \in N(j)} w_{jk}^t (R_k^t (\mu_j^t - \hat{\mu}_k^t) + \hat{\mu}_k^t + T_k^t)
q_j^{t+1} = (\sum_{k \in N(j)} w_{jk}^t r_k^t) \otimes q_j^t
w_{jk}^t = \frac{||\mu_j^t - \hat{\mu}_k||^{-1}}{\sum_{k \in N(j)} ||\mu_j^t - \hat{\mu}_k||^{-1}}
Appearance optimization:
\min_{\theta} \sum_{t,i} C_{render}(\hat{I}_{i,t}, I_{i,t})
subject to \hat{I}_{i,t} = g_{\theta}(\hat{X}_t, i)
๊ฒฐ๊ณผ
์คํ ๊ฒฐ๊ณผ PhysTwin์ ์ฌ๊ตฌ์ฑ, ๋ ๋๋ง, ๋ฏธ๋ ์์ธก, ์๋ก์ด ์ํธ ์์ฉ์์์ ์๋ฎฌ๋ ์ด์ ์ธก๋ฉด์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๋ํ, ์ค์๊ฐ ์ํธ ์์ฉ ์๋ฎฌ๋ ์ด์ ๋ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ก๋ด ๋์ ๊ณํ๊ณผ ๊ฐ์ ์์ฉ ๋ถ์ผ์์๋ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. PhysTwin์ ๋กํ, ๋ด์ ์ธํ, ์ฒ, ๋ฐฐ๋ฌ ํจํค์ง ๋ฑ ๋ค์ํ ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
2 Detail Review
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos โ ์ฌ์ธต ๋ฆฌ๋ทฐ
2.1 ์๋ก (Introduction)
๋ฌผ๋ฆฌ์ ์ผ๋ก ์ค์ ์ ๊ฐ์ ๋์งํธ ํธ์(digital twin)์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋ก๋ด ๊ณตํ, ์ฝํ ์ธ ์ ์, XR ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ค์ํฉ๋๋ค. ํนํ ๋ฐง์ค, ์ธํ, ์ฒ๊ณผ ๊ฐ์ ๋ณํ์ฒด(deformable object)๋ฅผ ๋ค๋ฃฐ ๊ฒฝ์ฐ, ๋์งํธ ํธ์์ ๊ฐ์ฒด์ ๊ธฐํํ์ ํ์(geometry), ๊ฒ๋ณด๊ธฐ ์์ฑ(appearance), ๊ทธ๋ฆฌ๊ณ ๋ฌผ๋ฆฌ์ ํน์ฑ(physical properties)์ ์ ํํ ์บก์ฒํ์ฌ ์ค์ ์ธ๊ณ์ ์ ์ผ์นํ๋ ์๋ฎฌ๋ ์ด์ ์ ๊ฐ๋ฅํ๊ฒ ํด์ผ ํฉ๋๋ค. ํ์ง๋ง ์ ํ๋ ๊ด์ฐฐ ์์(sparse videos)๋ง์ผ๋ก ์ด๋ฌํ ๋ณํ์ฒด์ ๋์งํธ ํธ์์ ๋ง๋๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ค์ด ๋ฌธ์ ์ ๋๋ค. ๊ธฐ์กด์ ๋์ 3D ์ฌ๊ตฌ์ฑ ๊ธฐ๋ฒ๋ค, ์๋ฅผ ๋ค์ด dynamic NeRF๋ dynamic 3D Gaussian splatting ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๋์์์ผ๋ก๋ถํฐ ์ฅ๋ฉด์ ๋ชจ์, ์์ง์, ์ธํ์ ๊ณ ํ์ง๋ก ๋ณต์ํ ์ ์์์ง๋ง, ๊ทผ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ์น(underlying physics)์ ํฌํจํ์ง ์๊ธฐ ๋๋ฌธ์ ์๋ก์ด ์ํธ์์ฉ ์ํฉ์ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ์๋ ์ ํฉํ์ง ์์์ต๋๋ค. ์ต๊ทผ์๋ ํ์ต ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ๋ฆฌ๋ฅผ ๋ชจ์ฌํ๋ ค๋ ์๋๋ ์์์ง๋ง, ์์ ํ ์ด๊ธฐ 3D ์ค์บ์ด ํ์ํ๊ฑฐ๋ ์ค์ ๋ฌผ๋ฆฌ์ ์ด๊ธ๋ ๋จ์ํ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ฑ์ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด 2024๋ ์ Spring-Gaus ๋ฐฉ๋ฒ์ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์์ ๊ด์ฑ ๋ณด์กด์ด๋ ์ค์ ์ค๋ ฅ๊ณผ ๊ฐ์ ์์๊ฐ ๋น ์ ธ ์์ด ํ์ค์ฑ์ ๋จ์ด๋จ๋ ธ๊ณ , ์ด๊ธฐ ์ํ์ ์ ์ฒด ํ์์ ์ฌ๊ตฌ์ฑํ๋ ค๋ฉด ๋ง์ ๊ด์ธก ์์ผ๊ฐ ํ์ํ์ต๋๋ค.
์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด 2025๋ Jiang ๋ฑ์ PhysTwin์ด๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. PhysTwin์ ์ํธ์์ฉ ์ค์ธ ๋ณํ์ฒด์ ๋๋ฌธ ์์ ์์(sparse multi-view videos)์ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ์ฌ์ง์ฒ๋ผ ํ์ค์ ์ด๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋(realistic) ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์ฌ๊ตฌ์ฑํ๋ฉฐ ์ค์๊ฐ ์ํธ์์ฉ์ด ๊ฐ๋ฅํ ๋์งํธ ํธ์์ ์์ฑํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํต์ฌ์ ๋ ๊ฐ์ง์ ๋๋ค. ์ฒซ์งธ, ๋ฌผ๋ฆฌ ์ง์์ด ๋ฐ์๋ ํํ(physics-informed representation)์ผ๋ก, spring-mass model์ ์ด์ฉํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ์์ฑ์ ํ์ ๋ชจ๋ธ(generative shape model)์ ํตํ 3D ํ์ ํํ๊ณผ Gaussian splats๋ฅผ ํตํ ๋ ๋๋ง ํํ์ ๊ฒฐํฉํฉ๋๋ค. ๋์งธ, ๋ค๋จ๊ณ ์ต์ ํ ๊ธฐ๋ฐ ์ญ๋ชจ๋ธ๋ง ์ ์ฐจ(multi-stage, optimization-based inverse modeling)๋ก, ์์์ผ๋ก๋ถํฐ ๊ฐ์ฒด์ ์์ ํ 3D ํ์๊ณผ ๋ฐ๋ ์๋ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ๋ก ํ๊ณ , ํ์ค๊ฐ ์๋ ์ธํ์ ๋ณต์ํฉ๋๋ค. ์์ฝํ๋ฉด, PhysTwin์ ์๊ฐ ์ ๋ณด(visual perception cues)์ ์ญ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ (inverse physics)์ ํตํฉํจ์ผ๋ก์จ, ๊ฐ๋ ค์ง๊ฑฐ๋ ์ผ๋ถ๋ง ๋ณด์ด๋ ์ํฉ์์๋ ๋์ ์์ฑ๋์ ๋ณต์์ ์ด๋ฃจ์ด๋ ๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ ํตํด PhysTwin์ ๋ฐง์ค, ๋ด์ ์ธํ, ์ฒ, ํฌ์ฅ ์์ ๋ฑ ๋ค์ํ ๋ณํ์ฒด์ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ๋ณต์๋ ๋์งํธ ํธ์์ ์ด์ฉํ ์ฌ์๋ฎฌ๋ ์ด์ (resimulation), ๋ฏธ๋ ์ํ ์์ธก, ์๋ก์ด ์ํธ์์ฉ ์๋๋ฆฌ์ค ์๋ฎฌ๋ ์ด์ ๋ฑ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋๋ถ์ด ์ค์๊ฐ ์ํธ์์ฉ ์๋ฎฌ๋ ์ด์ ์ด๋ ๋ก๋ด์ ๋ชจ์ ํ๋๋์ PhysTwin์ ํ์ฉํ๋ ์์ฉ ๊ฐ๋ฅ์ฑ๋ ์ ์๋์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์๋ Figure 1๊ณผ ๊ฐ์ด PhysTwin์ ์ฌ๋ ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋ณํ์ํค๋ ์ฅ๋ฉด์ด ๋ด๊ธด ๋ช ๊ฐ์ ๋์์์ ์ ๋ ฅ์ผ๋ก ๋ฐ์์, ํด๋น ๋ฌผ์ฒด์ ์์ ํ 3D ํํ, ์ ํํ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ, ๊ทธ๋ฆฌ๊ณ ๊ณ ํ์ง์ ์ง๊ฐ์ ๊ฐ์ง ๊ฐ์ ๋ณต์ ๋ฌผ์ ๋ง๋ค์ด๋ ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ฌ์ฉ์๊ฐ ํค๋ณด๋๋ ๋ก๋ด ์ธํฐํ์ด์ค๋ก ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ์ค์๊ฐ ์กฐ์ํ๊ฑฐ๋, ๋ก๋ด ํ๋๋์ ํ์ฉํ๋ ๋ฑ ๋ค์ํ ์์ฉ์ด ๊ฐ๋ฅํด์ง๋๋ค. (Figure 1: PhysTwin ๊ฒฐ๊ณผ์ ๊ฐ์)
2.2 ๋ฐฐ๊ฒฝ: ๋์งํธ ํธ์๊ณผ ๋ณํ์ฒด ์ฌ๊ตฌ์ฑ
ํ์ค ์ธ๊ณ์ ๋์ ์ฅ๋ฉด ์ฌ๊ตฌ์ฑ(dynamic scene reconstruction)์ ์ค๋์ ๋ถํฐ ๋์ ์ ์ธ ์ฐ๊ตฌ ์ฃผ์ ์์ต๋๋ค. ์ต๊ทผ ๋ฑ์ฅํ NeRF(Neural Radiance Fields) ๊ณ์ด ๊ธฐ๋ฒ์ด๋ 3D Gaussian splatting ๊ธฐ๋ฒ๋ค์ ๋์์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ฅ๋ฉด์ ํํ์ ์์์ ์ ๋ฐํ๊ฒ ๋ณต์ํ ์ ์๊ฒ ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด Dynamic NeRF๋ ๋ณํ ํ๋๋ฅผ ์ต์ ํํ์ฌ ์๊ฐ์ ๋ฐ๋ฅธ 3D ์ฅ๋ฉด์ ํํํ๊ณ , Dynamic 3D Gaussian Splatting์ ๋งค ํ๋ ์ Gaussian ์ปค๋๋ค์ ์์น๋ฅผ ์ต์ ํํจ์ผ๋ก์จ ์ฅ๋ฉด์ ๋ณํ๋ฅผ ํฌ์ฐฉํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ฅ๋ฉด์ ๊ฒ๋ณด๊ธฐ์ ๊ธฐํ์๋ง ์ง์คํ ๋ฟ, ๊ฐ์ฒด๊ฐ ์ด๋ป๊ฒ ์์ง์ด๊ณ ํ์ ๋ฐ์ํ๋์ง ๋ฌผ๋ฆฌ์ ๋์ญํ(dynamics)์ ๋ชจ๋ธ๋งํ์ง ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋จ์ํ ๊ด์ฐฐ๋ ๋ฒ์ ๋ด์ ์ฌํ(replay)์๋ ์ฑ๊ณตํ๋๋ผ๋, ์ฌ์ฉ์๊ฐ ์๋กญ๊ฒ ํ์ ๊ฐํ๊ฑฐ๋ ๋ค๋ฅธ ์ํธ์์ฉ์ ๊ฐํ์ ๋ ๊ฐ์ฒด๊ฐ ์ด๋ป๊ฒ ๊ฑฐ๋ํ ์ง ์์ธกํ๊ฑฐ๋ ์๋ฎฌ๋ ์ด์ ํ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํฉ๋๋ค. ๋ค์ ๋งํด, action-conditioned ๋ฏธ๋ ์์ธก์ด๋ ์ํธ์์ฉ ์๋ฎฌ๋ ์ด์ ์ ํ๊ณ๊ฐ ์๋ ๊ฒ์ด์ฃ .
ํํธ, ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์ ์ ์ฌ๊ตฌ์ฑ์ ํ์ฉํ๋ ค๋ ์ฐ๊ตฌ๋ค๋ ์์์ต๋๋ค. ์์คํ ์๋ณ์ ์ํด ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ์ฉํ ๋ฐฉ๋ฒ๋ค์ ๋๊ฐ ๋ฏธ๋ฆฌ ์ค์บ๋ ์ ์ 3D ๋ชจ๋ธ ๋๋ ๋งค์ฐ ๊นจ๋ํ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ต๋๋ค. ์์ ์ ๊ทผ๋ฒ๋ค์ ์นด๋ฉ๋ผ๋ก ์ป์ ๋ฐ์ดํฐ๋ง์ผ๋ก ๋์์ 3D ํ์๊ณผ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํ๊ธฐ ์ด๋ ค์, ๋ณดํต ํ์์ ๋ณ๋๋ก ์ค์บํ๊ฑฐ๋ ๋จ์ํ๋ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ณค ํ์ต๋๋ค. 2024๋ ์ Spring-Mass + Gaussian ๋ฐฉ๋ฒ (Spring-Gaus)์ ์์์ผ๋ก๋ถํฐ ํ์ฑ ๊ฐ์ฒด๋ฅผ ๋ณต์ํ๋ ค ํ์ง๋ง, ์ด๊ธฐ ์ํ์์ ๊ฐ์ฒด์ ์ ํ๋ฉด์ด ๋ณด์ด๋ ๋ค์์ ์์ ์ด ํ์ํ๊ณ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ ์๋ฐํ์ง ์์ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด์ฒ๋ผ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์๊ฐ์ ์ ํ๋์ ๋ฌผ๋ฆฌ์ ์ ํ์ฑ์ ๋ชจ๋ ์ถฉ์กฑ์ํค์ง ๋ชปํ๊ฑฐ๋, ์์ ํ ์ ๋ ฅ ์ ๋ณด๋ฅผ ๊ฐ์ ํด์ผ ํ์ต๋๋ค.
PhysTwin์ ์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ ์ ์๋ ๊ฒ์ผ๋ก, ์๊ฐ ์ ๋ณด์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ๊ธด๋ฐํ ๊ฒฐํฉํ์ฌ ๋ถ๋ถ์ ์ธ ๊ด์ฐฐ๋ง์ผ๋ก๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ถฉ์คํ ๋์งํธ ํธ์์ ๊ตฌ์ถํ๋ ์ต์ด์ ํ๋ ์์ํฌ ์ค ํ๋์ ๋๋ค. ๋ค์์ผ๋ก, PhysTwin์ ์ ์ฒด์ ์ธ ๊ตฌ์ฑ๊ณผ ์๋ ๋ฐฉ์์ ์ดํด๋ณด๊ณ , ์ฃผ์ ๊ธฐ์ ๊ตฌ์ฑ ์์๋ค์ ๋จ๊ณ๋ณ๋ก ์์ธํ ๋ฆฌ๋ทฐํ๊ฒ ์ต๋๋ค.
2.3 PhysTwin ํ๋ ์์ํฌ ๊ฐ์
PhysTwin์ ์ ๋ ฅ์ผ๋ก๋ ์ํธ์์ฉ ์ค์ธ ๋ณํ์ฒด๋ฅผ ์ดฌ์ํ ์ธ ๊ฐ์ RGB-D ์นด๋ฉ๋ผ ์์(์ธ ์์ ์ RGB ์์๊ณผ ๊น์ด ๋งต ์ํ์ค)์ด ์ฃผ์ด์ง๋๋ค. ๋ชฉํ๋ ์๊ฐ t=0๋ถํฐ T๊น์ง์ ์์ ๊ด์ธก \{I_i^t, D_i^t\}_{i=1..3}์ผ๋ก๋ถํฐ ๊ฐ์ฒด์ ๊ธฐํ, ๋ฌผ๋ฆฌ, ์ธํ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ชจ๋ ์๋ณํ์ฌ, ์์์ ์๋ก์ด ์ํธ์์ฉ์ ๋ํด์๋ ํ์ค๊ณผ ์ผ์นํ๋ ๋์ ๊ฑฐ๋์ ๋ณด์ด๋ ์๋ฎฌ๋ ์ด์ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด PhysTwin์ ๋ค์๊ณผ ๊ฐ์ ์ฝ์ด representation์ ์ฌ์ฉํฉ๋๋ค:
- Geometry(๊ธฐํ): ๊ฐ์ฒด๋ฅผ ๋ํ๋ด๋ 3D ๋ฉ์(mesh) ํน์ ํฌ์ธํธ๋ค์ ์งํฉ (์ง์ ๋ค์ ์งํฉ).
- Topology(ํ ํด๋ก์ง): ์ง์ ๋ค ๊ฐ์ ์ฐ๊ฒฐํ๋ spring-mass ๋ชจ๋ธ์ ๊ตฌ์กฐ (์ด๋ค ์ ๋ค์ด ์คํ๋ง์ผ๋ก ์ฐ๊ฒฐ๋๋์ง).
- Physical Parameters(๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ): ๊ฐ ์คํ๋ง์ ๊ฐ์ฑ(stiffness) ๊ณ์, ๊ฐ์ (damping), ์ถฉ๋ ์ฒ๋ฆฌ ๊ณ์, ์ง์ ์ง๋ ๋ฑ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ ํ์ํ ๋ณ์๋ค. ๋ํ ์ฌ๋ ์๊ณผ ๊ฐ์ ์ธ๋ถ ์ ์ด์ (control point)๊ณผ ๊ฐ์ฒด๋ฅผ ์ฐ๊ฒฐํ๋ ์คํ๋ง์ ์์ฑ๋ ํฌํจ๋ฉ๋๋ค.
- Appearance(์ธํ): ๊ฐ์ฒด์ ๊ฒ๋ณด๊ธฐ ์๊น๊ณผ ์ง๊ฐ์ ๋ํ๋ด๋ ํํ์ผ๋ก, PhysTwin์์๋ ๋ค์์ 3D Gaussian kernel (Gaussian splat)๋ค๋ก ํํํฉ๋๋ค. ๊ฐ Gaussian์ ๊ณต๊ฐ์์ ์์น์ ํฌ๊ธฐ, ๋ฐฉํฅ์ฑ ๋ฐ ์์, ๋ถํฌ๋ช ๋ ๋ฑ์ ํ๋ผ๋ฏธํฐ๋ก ๊ฐ๋ 3์ฐจ์์ ์ธ ํ๋ฆฟํ ์ ์ผ๋ก ์ดํดํ ์ ์์ต๋๋ค.
์ด๋ฌํ ํํ์ ์ต์ ํํ๊ธฐ ์ํด PhysTwin์ ์ ์ฒด ๋ชฉํ ํจ์๋ฅผ ์ ์ํฉ๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ก ์์ธกํ ์์ t์ ์์ธก ๊ด์ธก๊ณผ ์ค์ ์นด๋ฉ๋ผ์ ์ค์ ๊ด์ธก ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ๊ฒ์ด ๋ชฉ์ ์ ๋๋ค. ๋ณด๋ค ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ฒด ์ฝ์คํธ ํจ์(cost) \mathcal{C}๋ ์ธ ๊ฐ์ง ํญ์ ํฉ์ผ๋ก ํํ๋ฉ๋๋ค:
\mathcal{C} \;=\; \mathcal{C}_{geometry} + \mathcal{C}_{motion} + \mathcal{C}_{render}
๊ฐ๊ฐ 3D ๊ธฐํ ์ค์ฐจ(geometry term), 3D ๋ชจ์ /์ถ์ ์ค์ฐจ(motion term), ๊ทธ๋ฆฌ๊ณ ์์ ์ฌํ ์ค์ฐจ(render term)๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ํญ \mathcal{C}_{geometry}๋ ์๋ฎฌ๋ ์ด์ ๋ ๊ฐ์ฒด ์ํ์ ์ค์ ๊ด์ฐฐ๋ 3D ์ ๋ณด ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ ํ๋ ์์์ ์นด๋ฉ๋ผ ๊น์ด ์ ๋ณด๋ฅผ ๋ชจ์ ์ป์ ๋ถ๋ถ์ ์ธ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ P_t์, ๋์ผ ์๊ฐ์ ์๋ฎฌ๋ ์ดํฐ๋ก ์์ธกํ ๊ฐ์ฒด์ ์ง์ ๋ค X_t ์ฌ์ด์ ์ฑํผ ๊ฑฐ๋ฆฌ(Chamfer distance)๋ฅผ ๊ณ์ฐํ์ฌ ํ์ ๊ฐ ๋ถ์ผ์น๋ฅผ ์ ๋ํํฉ๋๋ค. ๋ ๋ฒ์งธ ํญ \mathcal{C}_{motion}๋ ๊ฐ์ฒด ํ๋ฉด์ ํน์ง์ ์์ง์์ ๋น๊ตํ๋๋ฐ, ๋น์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ธ CoTracker๋ฅผ ํ์ฉํด ์์์์ ์ถ์ ํ 2D ์ ๋ค์ ๊น์ด ๋งต์ผ๋ก 3D ๊ณต๊ฐ์ ํฌ์ํ์ฌ ์ป์ ์ถ์ ์ ๊ถค์ ๋ค(pseudo 3D tracks)๊ณผ ์๋ฎฌ๋ ์ด์ ๋ ์ง์ ๋ค์ ๊ถค์ ์ ๋์์์ผ ์ค์ฐจ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ธ ๋ฒ์งธ ํญ \mathcal{C}_{render}๋ ๋ณต์๋ ๊ฐ์ฒด๋ฅผ ๋ ๋๋งํ ๊ฒฐ๊ณผ ์์๊ณผ ์ค์ RGB ์์ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํฉ๋๋ค. ์ด ํญ์ ์ฃผ๋ก ๊ฐ์ฒด์ ์์, ํ ์ค์ณ ๋ฑ ๊ฒ๋ณด๊ธฐ ์ฐจ์ด๋ฅผ penalizeํ๋ฉฐ, ๊ตฌ์ฒด์ ์ธ ํญ๋ชฉ์ ํ์ ํ Appearance ์ต์ ํ ๋จ๊ณ์์ ์ ์๋ฉ๋๋ค.
PhysTwin์ ์ด ๋ชฉํ ํจ์๋ฅผ ์ง์ ํ ๋ฒ์ ์ต์ ํํ๋ ๋์ , 2๋จ๊ณ์ ๊ฑธ์ณ ์ต์ ํ๋ฅผ ์ํํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ์ฃผ๋ก geometry์ physical parameters (ํ์ ๋ฐ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ)์ ์ด์ ์ ๋ง์ถฐ, ๊ฐ์ฒด์ ํํ์ ์ญํ์ ๊ฑฐ๋์ ๋ณต์ํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ์ฃผ๋ก \mathcal{C}_{geometry}์ \mathcal{C}_{motion} ํญ์ ๊ฐ์์ ์ฃผ๋ ฅํ๋ฉฐ, ๊ฐ์ฒด์ ์ ์ 3D ํ์๊ณผ ์คํ๋ง-์ง์ ๋ชจ๋ธ์ ๋ฌผ๋ฆฌ๊ณ์๋ค์ ์กฐ์ ํฉ๋๋ค. ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ appearance ๊ด๋ จ ํ๋ผ๋ฏธํฐ๋ค์ ์ต์ ํํ์ฌ, ๊ฐ์ฒด์ ์๊ฐ์ ํ์ง์ ๋์ ๋๋ค. ์ด๋ \mathcal{C}_{render} ํญ์ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก Gaussian ์ปค๋๋ค์ ์์, ํฌ๋ช ๋ ๋ฑ์ ํ์ตํ๋ฉฐ, 1๋จ๊ณ์์ ๊ตฌํ ๊ธฐํ/๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ๊ณ ์ ํด ๋ก๋๋ค. Figure 2๋ PhysTwin ํ๋ ์์ํฌ์ ๊ฐ๊ด์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ ๋ ฅ ์์์ผ๋ก๋ถํฐ ์ป์ ๊ธฐํ/๋ชจ์ ๊ด์ฐฐ์น์ ์๋ฎฌ๋ ์ดํฐ์ ์์ธก์ ๋น๊ตํ๋ ๋ ๋๋ง ์์ค๊ณผ ๊ธฐํ/๋ชจ์ ์์ค๋ก ๊ตฌ์ฑ ์์๋ค์ ์ต์ ํํจ์ ๋์์ ์ผ๋ก ํํํ๊ณ ์์ต๋๋ค.
Figure 2: PhysTwin ํ๋ ์์ํฌ ๊ฐ์ โ ์นด๋ฉ๋ผ ์์์ผ๋ก๋ถํฐ ๋ถ๋ถ ์ ๊ตฐ ๋ฐ ์ถ์ ๋ฐ์ดํฐ๋ฅผ ์ป์ด๋ด๊ณ (์ค๋ฅธ์ชฝ ์๋จ: Pseudo Track ๋ฐ GT Observation), ์ด๋ฅผ ํ ๋๋ก PhysTwin์ representation(์ผ์ชฝ ํ๋จ: Geometry, Topology, Physical parameters, Gaussians๋ก ๊ตฌ์ฑ)์ ์ต์ ํํฉ๋๋ค. ์ต์ ํ๋ ์๋ฎฌ๋ ์ด์ ๋ ๊ธฐํ/๋ชจ์ ์ํ(์ค๋ฅธ์ชฝ ํ๋จ)์ ์์ ๊ด์ฐฐ์น๋ฅผ ๋น๊ตํ๋ ๋น์ฉ \mathcal{C} = C_{geometry} + C_{motion} + C_{render}๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ์ํ๋ฉ๋๋ค. ์ด ๊ณผ์ ์์ ๊ธฐํ/๋ชจ์ ๋ถ์ผ์น๋ Chamfer ๊ฑฐ๋ฆฌ ๋ฑ์ ์งํ๋ก ์ธก์ ๋๊ณ , ๋ ๋๋ง ๋ถ์ผ์น๋ ์์ ๋น๊ต ์์ค(D-SSIM ๋ฑ)๋ก ๊ณ์ฐ๋ฉ๋๋ค. ์ต์ข ์ ์ผ๋ก ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํด ์์ธกํ ๋ณํ์ฒด์ ๊ฑฐ๋(Simulated Geometry and Motion)์ด ์ค์ ์์๊ณผ ์ ๋ง์๋จ์ด์ง๊ณ , Gaussian splatting์ ํตํด ๋ ๋๋งํ ๊ฒฐ๊ณผ๋ ์ค์ ์์(GT Observation)์ ๊ฐ๊น์์ง๋๋ก ํ์ต๋ฉ๋๋ค.
์ด์ ๊ฐ ๋จ๊ณ๋ฅผ ์์ฐจ์ ์ผ๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค.
2.4 1๋จ๊ณ: ๊ธฐํ ๋ฐ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ต์ ํ (Physics and Geometry Optimization)
์ฒซ ๋จ๊ณ์์๋ ๊ฐ์ฒด์ ์ ์ ํ์๊ณผ ๋์ ๊ฑฐ๋์ ๊ดํ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณต์ํฉ๋๋ค. ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง RGB-D ์์๋ค๋ก๋ถํฐ ๋จผ์ ์ป์ ์ ์๋ ์ ๋ณด๋ ์ ํ์ ์ ๋๋ค. ๊ฐ ์นด๋ฉ๋ผ ๋ทฐ์์ ๋งค ํ๋ ์๋ง๋ค ๊ฐ์ฒด์ ์ผ๋ถ๋ง ๋ณด์ด๊ธฐ ๋๋ฌธ์, ๊น์ด ๋งต์ ์ ๊ตฐ(point cloud)์ผ๋ก ๋ณํํ๋ฉด ๊ฐ์ฒด ํ๋ฉด์ ์ผ๋ถ ์กฐ๊ฐ๋ค๋ง ์ป์ด์ง๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ P_t๋ผ๊ณ ํ๋ฉด P_t๋ ์๊ฐ t์ ๊ด์ฐฐ๋ ๊ฐ์ฒด ํ๋ฉด์ ๋ถ๋ถ ์งํฉ์ ๋๋ค. ๋ํ ๊ฐ์ฒด ํ๋ฉด ์์ ์์์ ์ ๋ค์ ์์ง์์ ํฌ์ฐฉํ๊ธฐ ์ํด, CoTracker๋ก ๋ค์์ ํน์ง์ ์ ์ถ์ ํ์ฌ 2D ๊ถค์ ์ ์ป์ ๋ค, ํด๋น ์ ๋ค์ ๊น์ด ๊ฐ์ ์ด์ฉํด 3D ๊ณต๊ฐ์ ์ถ์ ๊ถค์ (pseudo-ground-truth tracks) \{T_j(t)\}๋ฅผ ๋ณต์ํฉ๋๋ค. ์ด๋ ๊ฒ ์ป์ P_t์ T_j(t)๋ PhysTwin์ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ๋ง์ถ๊ธฐ ์ํ ๊ด์ฐฐ ๋ฐ์ดํฐ๋ก ํ์ฉ๋ฉ๋๋ค. ์ด๋ค์ ํ์ฉํ์ฌ ์์ ์ธ๊ธํ \mathcal{C}_{geometry} (์์ธก ํ์ vs ๊ด์ฐฐ ์ ๊ตฐ ๊ฐ ์ฐจ์ด)์ \mathcal{C}_{motion} (์์ธก ์ง์ vs ์ถ์ ์ ๊ถค์ ๊ฐ ์ฐจ์ด) ํญ์ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ด 1๋จ๊ณ์ ํต์ฌ ๋ชฉํ์ ๋๋ค.
๊ทธ๋ฌ๋ ์ด ์ต์ ํ๋ ๋ช ๊ฐ์ง ๋์ ๊ฐ ์์ต๋๋ค. ์ฒซ์งธ, ๊ด์ฐฐ์ ๋ถ๋ถ์ (partial)์ด์ด์ ๊ฐ์ฒด์ ๋ณด์ด์ง ์๋ ๋ท๋ฉด์ด๋ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ์ ์ ์์ต๋๋ค. ๋์งธ, ์ฐ๋ฆฌ๊ฐ ์ต์ ํํด์ผ ํ ํ๋ผ๋ฏธํฐ๋ค ์ค ์ผ๋ถ๋ ์ด์ฐ์ ์ธ(topology) ๊ฒ๋ค์ ๋๋ค (์: ์ด๋ค ์ง์ ๋ค ์ฌ์ด์ ์คํ๋ง์ ์ฐ๊ฒฐํ ์ง ์ฌ๋ถ ๋ฑ), ๋ฐ๋ฉด ๋๋จธ์ง๋ ์ฐ์์ ์ธ ๋ฌผ๋ฆฌ ๊ณ์๋ค์ ๋๋ค. ํ์(topology)๊ณผ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ๋์์ ์ต์ ํํด์ผ ํ๋๋ฐ, ์ด์ฐ์ ์์ฌ๊ฒฐ์ ์ด ์์ฌ ์์ด ๋งค์ฐ ๋ณต์กํฉ๋๋ค. ์ ์งธ, ๊ฐ์ฒด์ ์๊ฐ์ ๋ฐ๋ฅธ ๋์ ๊ฑฐ๋์ ๊ธธ๊ฒ ์๋ฎฌ๋ ์ด์ ํด์ผ ํ๊ณ , ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ ์ฐจ์๋ ๋งค์ฐ ๋๊ธฐ ๋๋ฌธ์ (์๋ง ๊ฐ์ ์คํ๋ง ๊ฐ์ฑ ๋ฑ) ๊ฒฝ์ฌํ๊ฐ๋ฒ(gradient descent)์ ๋ฐ๋ก ์ ์ฉํ๋ฉด ์ง์ญํด์ ๋น ์ง๊ฑฐ๋ ์๋ ด์ด ์ด๋ ต์ต๋๋ค. ๋ํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์์ฒด๋ ์ถฉ๋ ๋ฑ์ผ๋ก ์ธํด ๋น์ฐ์์ ํ์(discontinuities)์ด ์กด์ฌํด ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ต์ ํ์ ์ด๋ ค์์ ์ค๋๋ค.
PhysTwin์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด geometry์ ๊ทธ ์ธ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ต์ ํ๋ฅผ ๋ถ๋ฆฌํ๊ณ , ๊ฑฐ์น ์์ค์์ ์ธ๋ฐํ ์์ค์ผ๋ก ๊ฐ๋ ๊ณ์ธต์ ์ต์ ํ ์ ๋ต(hierarchical sparse-to-dense optimization)์ ๋์ ํฉ๋๋ค. ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๋๋๋๋ฐ, ๋จผ์ ํ์(geometry)์ ๋น๊ต์ ์ ํํ ์ด๊ธฐํํ ๋ค, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ(ํ ํด๋ก์ง ๋ฐ ๊ฐ์ฑ ๋ฑ)๋ฅผ 1์ฐจ ์กฐ์ ํ๊ณ , ์ดํ์ ์ธ๋ฐํ ํ๋ผ๋ฏธํฐ๊น์ง ํฌํจํ์ฌ ์ต์ข ๋ฏธ์ธ ์กฐ์ ์ ํ๋ ๋ฐฉ์์ ๋๋ค. ์๋์ ๊ทธ ๋ด์ฉ์ ์์๋๋ก ์ ๋ฆฌํฉ๋๋ค.
2.4.1 (a) ์์ฑ์ Shape Prior๋ฅผ ํ์ฉํ ์ด๊ธฐ ํ์ ๋ณต์
๋ถ๋ถ ๊ด์ฐฐ๋ง์ผ๋ก ๊ฐ์ฒด์ ์ ์ฒด ๋ชจ์์ ์ถ์ ํ๊ธฐ ์ํด, ์ ์๋ค์ ์ฌ์ ํ์ต๋ 3D ์์ฑ ๋ชจ๋ธ์ ํ์ฉํ์ต๋๋ค. Microsoft์ TRELLIS๋ผ๋ ์ด๋ฏธ์ง-ํฌ-3D ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ, ์ฒซ ๋ฒ์งธ ์นด๋ฉ๋ผ ๋ทฐ์ RGB ์ด๋ฏธ์ง์ ๊ธฐ๋ฐํ ํ์ priors๋ฅผ ์ป์์ต๋๋ค. ๋จผ์ ๊ฐ ์์์์ Segment Anything Model (SAM)์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฒด์ ๋ง์คํฌ๋ฅผ ์ป๊ณ , ํด๋น ๊ฐ์ฒด ๋ถ์ ์ด๋ฏธ์ง๋ฅผ ์ดํด์(super-resolution) ๋ชจ๋ธ๋ก ๊ณ ํด์๋๋ก ์ ์ค์ผ์ผ๋งํฉ๋๋ค. ๊ทธ ์ด๋ฏธ์ง๋ฅผ TRELLIS์ ์ ๋ ฅํ๋ฉด, ๊ฐ์ฒด์ ์ ์ฒด 3D ๋ฉ์ฌ๋ฅผ ์์ฑํด์ค๋๋ค. ์ด๋ ๋ง์น โ์ด๋ฐ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ง ๋ฌผ์ฒด๋ผ๋ฉด 3D ํํ๋ ์ด๋ด ๊ฒ์ด๋คโ๋ผ๊ณ ์ฌ์ ์ ํ์ต๋ ์ง์์ ํ์ฉํด ์ถ์ธกํ๋ ๊ณผ์ ์ ๋๋ค. ์ด๋ ๊ฒ ์ป์ ์ด๊ธฐ ๋ฉ์ฌ๋ ์ค์ ๊ด์ฐฐ๊ณผ ๋๋ต์ ์ธ ํํ ์ ์ฌ์ฑ์ ์์ง๋ง, ์ ํํ ํฌ๊ธฐ(scale)๋ ์์น(pose), ์ธ๋ถ ๋ณํ(deformation) ๋ฉด์์ ์ฐจ์ด๊ฐ ์์ ์ ์์ต๋๋ค.
์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ ํฉ(registration) ๋ชจ๋์ ์ค๊ณํ์ฌ ์ด๊ธฐ ๋ฉ์ฌ๋ฅผ ์ค์ ๊ด์ฐฐ ๋ฐ์ดํฐ์ ๋ง๊ฒ ์ ๋ ฌํฉ๋๋ค. ๋จผ์ , ํน์ง ๋งค์นญ ์๊ณ ๋ฆฌ์ฆ์ธ SuperGlue๋ฅผ ํตํด ์ด๊ธฐ ๋ฉ์ฌ์ ๊ฐ์ ํฌ์๊ณผ ์ค์ ์ด๋ฏธ์ง ๊ฐ 2D ํน์ง์ ๋์์ ์ฐพ์ ์นด๋ฉ๋ผ ํ์ (orientation)์ ์ถ์ ํฉ๋๋ค. ์ด๋ PnP(Perspective-n-Point) ๋ฐฉ๋ฒ์ผ๋ก ์ธ๋ฐํ ๋ณด์ ๋ฉ๋๋ค. ๋ค์์ผ๋ก, ๋์๋๋ 3D ์ ์ ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ์นด๋ฉ๋ผ ์ขํ๊ณ์์ ๋ง์ถ๋ ์ต์ ํ๋ฅผ ํตํด ์ค์ผ์ผ(scale)๊ณผ ํํ์ด๋(translation) ๋ถ์ผ์น๋ฅผ ํด๊ฒฐํฉ๋๋ค. ์ดํ ๋ฉ์ฌ๋ฅผ ์ค์ ๊ด์ฐฐ์ ์ต๋ํ ๋ง์ถ๊ธฐ ์ํด ARAP (As-Rigid-As-Possible) ๋ณํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉ, ํฐ ํํ๋ ์ ์งํ๋ฉด์๋ ์ธ๋ถ์ ์ผ๋ก ๋ฉ์ฌ๋ฅผ ๊ด์ฐฐ ์ ๊ตฐ์ ๋ฐ์ฐฉ์ํค๋๋ก ๋ณํํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ๋ ์ด์บ์คํ ์ ํฉ(ray-casting alignment) ๋จ๊ณ์์๋ ์นด๋ฉ๋ผ์์ ๋ณธ ์ค์ ์ ๋ค์ด ๋ฉ์ฌ ํ๋ฉด์ ์ ํํ ๋ฟ๋๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ, occlusion ์์ด ๊ด์ฐฐ๋ ์ ๋ค์ด ๋ฉ์ฌ์ ๋งตํ๋๊ฒ ํฉ๋๋ค. ์ด๋ฌํ ์ผ๋ จ์ ์ ํฉ ๊ณผ์ ์ ๊ฑฐ์น๋ฉด ์ด๊ธฐ ํ๋ ์์ ๊ด์ฐฐ์น์ ์ ๋ ฌ๋ ์ ์ฒด ํ์ ๋ฉ์ฌ๋ฅผ ์ป์ ์ ์๊ณ , ์ด๋ ์ดํ ๋ฌผ๋ฆฌ ๋ฐ appearance ์ต์ ํ์ ์ค์ํ ์ด๊ธฐ๊ฐ(initialization)์ผ๋ก ํ์ฉ๋ฉ๋๋ค.
์์ฝํ๋ฉด, PhysTwin์ ํ์ต ๊ธฐ๋ฐ 3D ์์ฑ(prior)๊ณผ ์ ํต์ ์ ํฉ ์๊ณ ๋ฆฌ์ฆ์ ์กฐํฉํ์ฌ, ๋ถ๋ถ ๊ด์ฐฐ โ ์์ ํ ์ด๊ธฐ ํ์์ผ๋ก ๋ณต์ํ๋ ๋จ๊ณ๋ฅผ ์ํํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ป์ด์ง ๋ฉ์ฌ์ ๋ฒํ ์ค๋ค(vertex)๋ ๊ณง๋ฐ๋ก ์ฐ๋ฆฌ ์ง์ -์คํ๋ง ๋ชจ๋ธ์ ์ง์ ๋ค์ด ๋ฉ๋๋ค. ์ด๋ก์จ ์์ง ๋ณด์ง ๋ชปํ ์์ญ๊น์ง ํฌํจ๋ ๊ฐ์ฒด์ โcanonicalโ ์ํ๋ฅผ ์ ์ํ๊ณ (๋ณดํต ์ด๊ธฐ ํ๋ ์ ์ํ๋ฅผ ์ ์ค ์ํ๋ก ์ฌ์ฉ), ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ๊ธฐ๋ฐ์ผ๋ก ์ผ์ ์ ์์ต๋๋ค.
2.4.2 (b) ์คํ๋ง-์ง์ ๋ชจ๋ธ ๊ตฌ์ฑ๊ณผ ๊ณ์ธต์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ต์ ํ
์ด๊ธฐ ํ์์ด ๋ง๋ จ๋์์ผ๋ฏ๋ก, ์ด์ ์ด ๋ฉ์ฌ๋ฅผ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๊ฐ ๋ค๋ฃฐ ์ ์๋ ํํ๋ก ๋ณํํด์ผ ํฉ๋๋ค. PhysTwin์์๋ ๋ฉ์ฌ์ ๊ธฐํ๋ฅผ spring-mass ๋ชจ๋ธ๋ก ํํํฉ๋๋ค. ๋ฉ์ฌ์ ๊ฐ ๋ฒํ ์ค๋ ์ง๋์ ๊ฐ์ง ์ง์ (mass node)์ผ๋ก ์ทจ๊ธ๋๊ณ , ์ด๋ค ์ฌ์ด๋ฅผ ๊ฐ์ ์คํ๋ง์ผ๋ก ์ฐ๊ฒฐํ์ฌ ๋ฌผ์ฒด์ ํ์ฑ ๊ฑฐ๋์ ๋ชจ๋ธ๋งํฉ๋๋ค. ์คํ๋ง ์ฐ๊ฒฐ์ ๋ฉ์ฌ์ ์ธ์ ๊ด๊ณ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ ์๋ ์์ง๋ง, ์ ์๋ค์ ์ผ๋ฐ์ ์ธ ์ ์ฉ์ ์ํด ๋จ์ํ ์ต๊ทผ์ ์ด์ ๊ธฐ๋ฐ์ผ๋ก ์ฐ๊ฒฐํ๋๋ก ํ์ต๋๋ค. ์ฆ, ์ผ์ ๊ฑฐ๋ฆฌ(radius) ์ด๋ด์์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ช๋ช(max neighbors๋ก ์ ํ) ์ ๋ค๋ผ๋ฆฌ ์คํ๋ง์ผ๋ก ์ฐ๊ฒฐํ์ฌ ํ ํด๋ก์ง๋ฅผ ํ์ฑํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ฉ์ฌ์ ์ผ๊ฐํ ๊ตฌ์กฐ์ ์ฝ๋งค์ด์ง ์๊ณ ๋ ์ ์ฐํ ๊ทธ๋ํ ํํ์ ์คํ๋ง๋ง์ ๊ตฌ์ถํ ์ ์๊ณ , radius์ ์ต๋ ์ด์ ์ ํ๋ผ๋ฏธํฐ๋ก ์คํ๋ง ๋ฐ๋๋ฅผ ์กฐ์ ํ ์ ์์ต๋๋ค.
๋ํ ์ํธ์์ฉ์ ๋ชจ์ฌํ๊ธฐ ์ํด ์ ์ด์ (control point) ๊ฐ๋ ์ ๋์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋์ด ๋ฌผ์ฒด๋ฅผ ์์ผ๋ก ์ก์๋น๊ธฐ๋ ๊ฒฝ์ฐ, ์์ ์์น๋ฅผ ๋ํ๋ด๋ ์ธ๋ถ ์ ์ด์ ์ ์ ์ํ๊ณ , ์ด ์ ์ด์ ๊ณผ ๊ฐ์ฒด ํ๋ฉด์ ์ง์ ๋ค์ ์คํ๋ง์ผ๋ก ์ฐ๊ฒฐํ๋ฉด ์์ด ๋๋ ํ์ ์๋ฎฌ๋ ์ด์ ํ ์ ์์ต๋๋ค. PhysTwin์์๋ ์์์์ ์ ๋ถ์๋ฅผ Grounded-SAM์ผ๋ก ๋ถ๋ฆฌ(segmentation)ํ๊ณ , CoTracker๋ก ์์ ์์ง์์ ์ถ์ ํ์ฌ 3D ๊ถค์ ์ ์ป์ ๋ค, Farthest Point Sampling์ผ๋ก ์ ์ ํ ๊ฐ๊ฒฉ์ ๋ ๋ช ๊ฐ์ ์ ์ด์ ์ ์ทจํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฐ๊ฒฝ-์ด์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ์ ์ด์ ์ ๊ฐ์ฒด ์ง์ ๋ค๊ณผ ์ฐ๊ฒฐํ๋ ์คํ๋ง๋ค์ ์ถ๊ฐํ์ต๋๋ค. ์ด๋ก์จ ์ธ๋ ฅ์ด ๊ฐํด์ง๋ ์ง์ ๊ณผ ๊ฐ์ฒด ์ฌ์ด์ ์ฐ๊ฒฐ๊ด๊ณ๊น์ง ํฌํจํ ์์ ํ spring-mass ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ๊ตฌ์กฐ๊ฐ ๊ฒฐ์ ๋ฉ๋๋ค.
์ ๋ฆฌํ๋ฉด, ํ์ฌ๊น์ง ์ฐ๋ฆฌ๋: (i) ๊ฐ์ฒด ์ง์ ์ ์ด๊ธฐ ์์น (์ ๋ ฌ๋ ์ ์ฒด ํ์), (ii) ์ง์ ๋ค ๊ฐ ์คํ๋ง ์ฐ๊ฒฐ ๊ตฌ์กฐ ๋ฐ ์ด๊ธฐ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ (๊ฐ์ฑ, ๊ฐ์ ๋ฑ), (iii) ์ ์ด์ ๊ณผ์ ์ฐ๊ฒฐ ๋ฑ์ ์ ์ํ์ต๋๋ค. ์ด์ ๋จ์ ๊ฒ์ ์ด๋ฌํ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ค์ ๊ฐ์ฒด์ ๊ฑฐ๋์ ๋ง๊ฒ ์ต์ ํ(์ถ์ )ํ๋ ๊ฒ์ ๋๋ค. ์ต์ ํํด์ผ ํ ํ๋ผ๋ฏธํฐ๋ก๋ ๊ฐ ์คํ๋ง์ ๊ฐ์ฑ ๊ณ์(k)์ ๋ํ ๊ณ์(c), ์คํ๋ง์ rest length(ํ๊ท ๊ธธ์ด) ๋ณด์ , ์ถฉ๋ ์ฒ๋ฆฌ ํ๋ผ๋ฏธํฐ ๋ฑ์ด ์์ต๋๋ค. ์ด๋ค์ ๋ชจ๋ ์ฐ์์ ์ธ ์ค์ ๊ฐ๋ค๋ก ๋ณผ ์ ์์ง๋ง, ์์ ์ธ๊ธํ radius๋ max neighbors ๊ฐ์ ํ ํด๋ก์ง ์ค์ ๊ฐ์ ์ด์ฐ์ ์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ์ ์ฒด ํ๋ผ๋ฏธํฐ ์๋ ์ ์ฌ์ ์ผ๋ก ๋งค์ฐ ํฌ๋ฉฐ (์์ฒ~์๋ง ๊ฐ ์์ค), ์ผ๋ฐ์ ์ธ gradient descent๋ฅผ ์ ์ฉํ๊ธฐ์ ๋ถ๋ด์ด ํฝ๋๋ค.
PhysTwin์ ์ด๋ฅผ ์ํด 2๋จ๊ณ ๊ณ์ธต์ ์ต์ ํ๋ฅผ ์ฌ์ฉํ์ต๋๋ค: ๋จผ์ ์ ํด์๋ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ ํ์ํ ํ, ์ ์ฐจ ๊ณ ํด์๋(์ธ๋ฐํ) ํ๋ผ๋ฏธํฐ๋ก refinementํ๋ ๋ฐฉ์์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด๊ธฐ ๋จ๊ณ์์๋ ๋ชจ๋ ์คํ๋ง์ ๊ฐ์ฑ์ ๋์ผํ ๊ฐ์ผ๋ก ๊ฐ์ (๊ท ์ผ ๊ฐ์ฑ)ํ๊ณ , ํ ํด๋ก์ง ๋ฐ๋๋ ์ถฉ๋ ๊ณ์ ๋ฑ ๋ช ์ ๋๋ ๋ํ ํ๋ผ๋ฏธํฐ๋ง์ ๋์์ผ๋ก zero-order ์ต์ ํ(๋ฏธ๋ถ ์์ด ๊ฐ๋ฅํ ํ์ ๊ธฐ๋ฐ ์ต์ ํ)๋ฅผ ์ํํฉ๋๋ค. ์ฌ๊ธฐ์ ๋งํ๋ zero-order ์ต์ ํ๋, ์๋ฅผ ๋ค์ด ํ๋ผ๋ฏธํฐ ์กฐํฉ์ ์ํ๋งํ์ฌ ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ์ ๊ด์ฐฐ์น์ ์ฐจ์ด๋ฅผ ํ๊ฐํ๋ฉด์ ์กฐ๊ธ์ฉ ํ์ํด๋๊ฐ๋ ๋ฐฉ๋ฒ์ผ๋ก, gradient๋ฅผ ์ง์ ์ฐ์ง ์์๋ ๋๋ฏ๋ก ๋ฏธ๋ถ ๋ถ๊ฐ๋ฅํ ๋ณ์๋ค๋ ๋ค๋ฃฐ ์ ์์ต๋๋ค. ์ด ๋จ๊ณ์์ radius๋ neighbor ์์ ๊ฐ์ ํ ํด๋ก์ง ์ค์ , ๊ทธ๋ฆฌ๊ณ ์ ์ฒด ๊ฐ์ฑ์ ํฌ๊ธฐ ๋ฑ์ ์ ์ ํ ์ฐพ์๋ด๋ฉด, ์๋ฎฌ๋ ์ดํฐ๊ฐ ๋๋ต ๊ด์ฐฐ๋ ์์ง์์ ๋ฐ๋ผ๊ฐ๊ฒ ๋ฉ๋๋ค.
๋ค์์ผ๋ก ์ธ๋ถ ๋จ๊ณ์์๋, ์์์ ์ป์ ์ด๊ธฐ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ์คํ๋ง๋ง๋ค ๊ฐ์ฑ์ด ๋ฌ๋ผ์ง๋ ๋ฐ๋ ์๋ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ(dense parameter space)์ ์ผ้ถ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ฐฉ์(first-order gradient descent)์ผ๋ก ์ต์ ํํฉ๋๋ค. ์ด๋ฅผ ์ํด PhysTwin์ ์ปค์คํ differentiable spring-mass simulator๋ฅผ ๊ตฌํํ์์ต๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ ์ฃผ์ด์ง ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ์๊ฐ ๋ฐ๋ฌ์ ๊ณ์ฐํ ๋ฟ ์๋๋ผ, ๋ชฉํ ์ฝ์คํธ \mathcal{C}_{geometry} + \mathcal{C}_{motion}์ ๋ํ ํ๋ผ๋ฏธํฐ์ gradient๋ฅผ ๊ณ์ฐํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ด ๋จ๊ณ์์๋ ๋ชจ๋ ์คํ๋ง๋ค์ k_{ij} (๊ฐ์ฑ) ๊ฐ์ ๊ฐ๋ณ์ ์ผ๋ก ์กฐ์ ํ๊ณ , ์ถฉ๋ ์ฒ๋ฆฌ ๊ณ์ ๋ฑ ์ฐ์ ํ๋ผ๋ฏธํฐ๋ค๋ ํจ๊ป ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์๋ฎฌ๋ ์ด์ ์์ธก์ด ๊ด์ฐฐ ๋ฐ์ดํฐ์ ํจ์ฌ ์ ๋ฐํ๊ฒ ๋ง์๋จ์ด์ง๋๋ก ํ๋ผ๋ฏธํฐ๊ฐ ๋ณด์ ๋ฉ๋๋ค. ํนํ ์ด ๊ณผ์ ์์ ์์ ๊ณ์ฐํ 3D ์ถ์ ์ (์ฝTracker ๊ธฐ๋ฐ)๋ค์ด ์ผ์ข ์ ์ง๋ ์ ํธ(supervision) ์ญํ ์ ํกํกํ ํฉ๋๋ค. ์ถ์ ์ ๋ค์ ๊ฐ์ฒด ํ๋ฉด์ ์ฌ๋ฌ ์ง์ ์ด ์๊ฐ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ์์ง์๋์ง๋ฅผ ์๋ ค์ฃผ๋ฏ๋ก, ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ต์ ํ ์ ํด๋น ์ง์ ๋ค์ ์๋ฎฌ๋ ์ด์ ๊ถค์ ์ด ์ค์ ๊ถค์ ๊ณผ ๊ฐ๊น์์ง๋๋ก ์ ๋ํฉ๋๋ค. ์ด๋ ๋ถ๋ถ ๊ด์ฐฐ์ ํ๊ณ๋ฅผ ๋ณด์ํด ์ฃผ๋ ์ถ๊ฐ ๋จ์๋ก ์์ฉํ์ฌ, ํจ์จ์ ์ด๊ณ ์ ํํ ์ญ๋ํ ํ๋ผ๋ฏธํฐ ์ถ์ ์ ๊ฐ๋ฅ์ผ ํฉ๋๋ค.
ไปฅไธ ๊ณผ์ ์ ํตํด, PhysTwin์ 1๋จ๊ณ ์ต์ ํ๋ ๊ฐ์ฒด์ ํ์๊ณผ ๋์ญํ ๋ชจ๋ธ์ ์์์ ๋ถํฉํ๊ฒ ๋ง๋ค์ด ์ค๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋, ์ฐ๋ฆฌ์ spring-mass ์์คํ ๋ด ์ง์ ๋ค์ ์ด๊ธฐ ๋ฐฐ์น๊ฐ ์ค์ ๊ฐ์ฒด์ ์ด๊ธฐ ํ์๊ณผ ์ผ์นํ๊ณ , ์๋ฎฌ๋ ์ดํฐ์ ์ ์๋ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ก ์ธํด ๊ฐ์ฒด๋ฅผ ์์ง์ด๋ฉด (์: ์ ์ ์ด์ ์ ์ค์ ์์์์ ๊ฐํด์ก๋ ํ์ ์ฌ์ฐํ๋ฉด) ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ๊ฐ ์์ ์ ์ค์ ๊ฐ์ฒด์ ์์ง์๊ณผ ์ ๋ง๊ฒ ๋ฉ๋๋ค. ์ฆ, ์ญ๋ฌผ๋ฆฌ(inverse physics) ๋ฌธ์ ๋ฅผ ํ์ด๋ด์ด, ๊ด์ฐฐ๋ ๊ฑฐ๋์ ๋ชจ์ฌํ๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ์นํ๋ ๋ชจ๋ธ์ ์ป์ ๊ฒ์ ๋๋ค.
์ฐธ๊ณ ๋ก, PhysTwin์ spring-mass ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์์ฒด๋ ๋ดํด ์ญํ์ ์ถฉ์คํ๊ฒ ๋ฐ๋ฆ ๋๋ค. ๊ฐ ์ง์ i์ ์์ฉํ๋ ํ F_i๋ ์ฐ๊ฒฐ๋ ์ด์ ์ง์ j๋ค๊ณผ์ ์คํ๋ง ํ ๋ฐ ๋ํ ํ์ ํฉ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค. ์คํ๋ง ํ์ ํ ์ ๋ฒ์น์ ๋ฐ๋ผ F_{spring} = k_{ij} (||x_i - x_j|| - L_{ij}) ํํ๋ก ์์ฉํ์ฌ ์ง์ ๋ค ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ rest length๋ก๋ถํฐ ๋ฒ์ด๋ ๊ฒฝ์ฐ ๋ณต์๋ ฅ์ด ๋ฐ์ํ๊ณ , dashpot ๋ํ ํ F_{damping} = -c_{ij}(v_i - v_j)์ ์๋ ์๋์ ์ฐจ์ด๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ์ด๋์ ์ ํญ๋ ฅ์ ๋ถ์ฌํฉ๋๋ค. ์ฌ๊ธฐ์ ์ค๋ ฅ์ด๋ ์ถฉ๋, ์ธ๋ถ ์ ์ด์ (์: ์ ์์น ๋ณํ์ ์ํ ํ) ๋ฑ์ผ๋ก ์ธํ ์ธ๋ ฅ F_{ext}๊น์ง ํฉ์ฐํ์ฌ ๊ฐ ์ง์ ์ ์ต์ข ํ์ ๊ณ์ฐํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ด ํ์ ์ด์ฉํด explicit Euler integration ๋ฐฉ์์ผ๋ก ๊ฐ ์ง์ ์ ๊ฐ์๋, ์๋, ์์น๋ฅผ ์๊ฐ t \to t+\Delta t๋ก ๊ฐฑ์ ํฉ๋๋ค. ์ด๋ฌํ ์๋ฎฌ๋ ์ด์ ์ ์ง๋-์คํ๋ง ์์คํ ์ ์ด๋๋ ๋ณด์กด, ์๋์ง ๊ฐ์ , ์ถฉ๋ ๋ฐ๋ฐ ๋ฑ์ ์ ํํ ์ฌํํ๋ฏ๋ก, Spring-Gaus ๋ฑ์ด ๊ฐ๊ณผํ๋ ์ค์ ๋ฌผ๋ฆฌ์ ๊ฑฐ๋์ ๋ณด๋ค ์ฌ์ค์ ์ผ๋ก ๋ชจ์ฌํฉ๋๋ค. PhysTwin ๊ตฌํ์์๋ NVIDIA Warp ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ ์ด ๋ชจ๋ ๊ณ์ฐ์ GPU์์ ํจ์จ์ ์ผ๋ก ์ํํ์๊ณ , ์ด๋ ๋ค์ ์๊ฐํ ์ค์๊ฐ ์ํธ์์ฉ ์๋ฎฌ๋ ์ด์ ์ ๊ฐ๋ฅ์ผ ํ๋ ๊ธฐ๋ฐ์ด ๋์์ต๋๋ค.
2.5 2๋จ๊ณ: Appearance ์ต์ ํ (Appearance Optimization)
1๋จ๊ณ ์ต์ ํ๋ฅผ ๊ฑฐ์น ํ์๋ ๊ฐ์ฒด์ ํ์ ๊ตฌ์กฐ์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ(geometry & physics)๊ฐ ํ์ ๋ฉ๋๋ค. ์ด์ ๋จ์ ๊ณผ์ ๋ ๊ฒ๋ณด๊ธฐ(appearance)๋ฅผ ๋ณต์ํ์ฌ, ์๋ฎฌ๋ ์ด์ ๋ ๊ฐ์ฒด๋ฅผ ํ๋ฉด์ ๋ ๋๋งํ์ ๋ ์๋ณธ ์์์ฒ๋ผ ๋ณด์ด๋๋ก ๋ง๋๋ ๊ฒ์ ๋๋ค. PhysTwin์ appearance ๋ณต์์ ์ํด NeRF ๋์ 3D Gaussian splatting์ ์ฑํํ ์ ์ด ํน์ง์ ์ ๋๋ค. Gaussian splatting์ ๋ค์์ 3D Gaussian ์ปค๋ (ํ๋ฆฟํ ์ ์๋ค)์ ๋ฐฐ์นํ๊ณ ๊ฐ์ ์๊ณผ ํฌ๋ช ๋๋ฅผ ๋ถ์ฌํ์ฌ ํฉ์ฑ ๋ ๋๋งํ๋ ๊ธฐ๋ฒ์ผ๋ก, ๋ณต์กํ ๊ธฐํ ํํ๋ ๊ด์ ๋ชจ๋ธ๋ง ์์ด๋ ์ค์๊ฐ์ ๊ฐ๊น์ด ๊ณ ์ ๋ ๋๋ง์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ํนํ 2023๋ ์ดํ๋ก Gaussian splat ๊ธฐ๋ฐ์ ์ ๊ฒฝ๋ฐฉ์ฌ์ฅ ๊ธฐ๋ฒ๋ค์ด ๋ฑ์ฅํ๋ฉด์, NeRF ๋๋น ํจ์ฌ ๋น ๋ฅธ ๋ ๋๋ง์ด ๊ฐ๋ฅํด์ ธ ์ฃผ๋ชฉ๋ฐ์์ต๋๋ค. PhysTwin์์๋ ์ด ์์ด๋์ด๋ฅผ ๋ฐ์๋ค์ฌ, ๋ณต์ํ ๊ฐ์ฒด ํ๋ฉด์ ๋ฎ๋ ์ ์ง๋ 3D Gaussian๋ค์ ์งํฉ์ผ๋ก appearance๋ฅผ ํํํฉ๋๋ค.
์ฐ์ , Gaussian ์ปค๋๋ค์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ํด์ผ ํฉ๋๋ค. ๊ฐ๊ฐ์ Gaussian G_n์ ๋ค์๊ณผ ๊ฐ์ ์์ฑ์ ์ง๋๋๋ค: ์ค์ฌ ์์น \mathbf{p}_n = (x,y,z), ๋ฐฉํฅ์ ๋ํ๋ด๋ ํ์ q_n (quaternion ํํ), ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ ์ค์ผ์ผ ๋ฒกํฐ \mathbf{s}_n = (s_x,s_y,s_z), ํฌ๋ช ๋(alpha) \alpha_n, ๊ทธ๋ฆฌ๊ณ ์์ ๊ณ์ c_n (RGB ๊ฐ). ์ด๊ธฐ์๋ ์ด Gaussian๋ค์ ๊ฐ์ฒด์ ํ๋ฉด์ ๋ฐ๋ผ์ ์ผ์ ํ ๊ฐ๊ฒฉ์ผ๋ก ๋ถํฌ์ํค๊ณ , ์์์ ์์๊ฐ์ด๋ ํ๊ท ์์ผ๋ก ์ค์ ํฉ๋๋ค (๋ ผ๋ฌธ์์๋ ์ด๊ธฐํ์ ๋ํ ์์ธ ์ธ๊ธ์ ์์ง๋ง, ๋ณดํต ์์ ๊ธฐ์ค์ผ๋ก ์์ ๋ฟ๋ฆฌ๊ฑฐ๋ ํฉ๋๋ค). ๊ทธ๋ฐ ๋ค์ appearance ์ต์ ํ์์๋ ์ด๋ฌํ Gaussian๋ค์ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ์ฌ ๋ ๋๋ง ์์ค \mathcal{C}_{render}๋ฅผ ์ต์ํํฉ๋๋ค. ๋ ๋๋ง ์์ค์ ์นด๋ฉ๋ผ ๋ทฐ๋ก Gaussian๋ค์ ํฌ์ํ์ฌ ์ป์ ํฉ์ฑ ์์๊ณผ ์ค์ RGB ์์ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋๋ฐ, ๋จ์ ํฝ์ L2 ์ค์ฐจ ๋์ D-SSIM (Differentiable Structural Similarity) ์งํ๋ฅผ ํ์ฉํ์ต๋๋ค. SSIM์ ๊ตฌ์กฐ์ ์ ์ฌ๋๋ฅผ ํ๊ฐํ๋ ์งํ๋ก, ์ธ๊ฐ ์๊ฐ์ ๋ ๊ทผ์ ํ ๋น๊ต๋ฅผ ์ ๊ณตํ๋ฉฐ, D-SSIM์ ๊ทธ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ณํ์ ๋๋ค. ์ด๋ฅผ ์ด์ฉํด ๋ ๋๋ ์ด๋ฏธ์ง์ ์ค์ ์ด๋ฏธ์ง ์ฌ์ด์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๊ณ , ์ด ๊ฐ์ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ Gaussian์ ์๊ณผ ์์น ๋ฑ์ ์ ๋ฐ์ดํธํฉ๋๋ค. ํจ์จ์ฑ์ ์ํด ์ด ์ต์ ํ๋ ์ฌ๋ฌ ํ๋ ์์ ๋ํด ํ๋ ๋์ ์ฒซ ๋ฒ์งธ ํ๋ ์์ ๋ํด์๋ง ์ํ๋์์ต๋๋ค. ์ด๋ ๊ฐ์ฒด์ ์ธํ์ด ์๊ฐ์ ๋ฐ๋ผ ๋ฐ๋์ง ์๋๋ค๊ณ ๊ฐ์ ํ ์ ์๊ธฐ ๋๋ฌธ์, ํ ํ๋ ์ (๊ฐ์ฅ ๊ฐ๋ ค์ง์ด ์ ์ ํ๋ ์์ ์ ํ)๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์์์ ๋ง์ถ ์ ์๋ค๋ ์์ด๋์ด์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ณ์ฐ๋์ ํฌ๊ฒ ์ค์ด๋ฉด์๋ ์ ์ฒด ์ธํ ํ์ง์ ํ๋ณดํ ์ ์์ต๋๋ค.
Gaussian ๊ธฐ๋ฐ ํํ์ ์ฌ์ฉํ ๋ ์ฃผ์ํ ์ ์, ๋์ค์ ๊ฐ์ฒด๊ฐ ๋ณํ๋ ๋ Gaussian๋ค์ด ์ด์ํ ์์์ ๋จ๊ธฐ์ง ์์์ผ ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ์ ์๋ค์ Gaussian๋ค์ ํ์์ ๋ฑ๋ฐฉ์ฑ(isotropic)์ผ๋ก ์ ํํ์์ต๋๋ค. ์ฆ, ๊ฐ Gaussian์ ์ค์ผ์ผ ํ๋ ฌ์ด ๊ตฌ(็) ํํ๊ฐ ๋๋๋ก ๊ฐ์ ํ์ฌ, ์ด๋ค ํน์ ๋ฐฉํฅ์ผ๋ก ์ฐ๋ฅด๋(spiky) ๋ชจ์์ ๊ฐ์ง์ง ๋ชปํ๊ฒ ํฉ๋๋ค. ์ด๋ ๊ฒ ํด์ผ ๋์ค์ ๊ฐ์ฒด๊ฐ ์์ง์ฌ๋ Gaussian๋ค์ด ๊ตญ์์ ์ผ๋ก ๋พฐ์กฑํ๊ฒ ์ฐข์ด์ง๋ ์ํฐํฉํธ๋ฅผ ๋ฐฉ์งํ ์ ์์ต๋๋ค. ๊ฒฐ๊ตญ 2๋จ๊ณ ์ต์ ํ๋ฅผ ๋ง์น๋ฉด ๊ฐ์ฒด ์ด๊ธฐ ์ํ์ ๋ํ ์๊ฐ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ Gaussian ๋ถํฌ๊ฐ ์์ฑ๋ฉ๋๋ค.
์ด์ ๋ง์ง๋ง์ผ๋ก ๋จ์ ๋ฌธ์ ๋, ๊ฐ์ฒด๊ฐ ๋ณํ๋ ๋ appearance๋ฅผ ์ด๋ป๊ฒ ์ ๋ฐ์ดํธํ ๊ฒ์ธ๊ฐ ์ ๋๋ค. 1๋จ๊ณ์ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ํตํด ์์์ ์๋ก์ด ํ์ด๋ ์์ง์์ ๋ํ ์ง์ ๋ค์ ๋ณ์๋ ๊ฒฐ์ ๋๊ฒ ์ง๋ง, Gaussian๋ค์ ๊ทธ์ ๊ณต๊ฐ์์ ์ ๋ค์ด๋ฏ๋ก, ์ง์ ๋ค์ด ์์ง์์ ๋ ํจ๊ป ๋ฐ๋ผ ์์ง์ฌ์ผ ์ผ๊ด๋ ๋ ๋๋ง์ด ๊ฐ๋ฅํฉ๋๋ค. PhysTwin์ ์ด๋ฅผ ์ํด Linear Blend Skinning (LBS)์ด๋ผ๋ ์ ํต์ ๊ทธ๋ํฝ์ค ๊ธฐ๋ฒ์ ํ์ฉํ์ต๋๋ค. LBS๋ ์ฃผ๋ก ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์ ์์ ๋ณธ(bone)์ ๋ถ์ ํผ๋ถ๋ฅผ ์์ง์ผ ๋ ์ฐ์ด๋ ๋ฐฉ์์ธ๋ฐ, ์ฌ๊ธฐ์๋ ์ง์ ๋ค์ด ์ผ์ข ์ โ๋ณธโ ์ญํ ์, Gaussian๋ค์ด โํผ๋ถ์ ์ โ ์ญํ ์ ํฉ๋๋ค. ๊ฐ Gaussian G_n์ ๋ํด ๊ฐ๊น์ด ๋ช ๊ฐ์ ์ง์ ๋ค์ ์ฐพ์ ๊ฐ์ค์น๋ฅผ ํ ๋นํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์๋ฎฌ๋ ์ด์ ์ ๊ฐ ํ๋ ์๋ง๋ค ์ง์ ๋ค์ด ์๋ก์ด ์์น X_t๋ก ์ด๋ํ๋ฉด, G_n์ ์ค์ฌ \mathbf{p}_n๋ ๊ทธ ์ง์ ๋ค์ ์์ง์์ ๋ณด๊ฐํ ์์น๋ก ์ฎ๊ฒจ์ฃผ๊ณ , ํ์ q_n๋ ์ง์ ์์ง์์ ๋ฐ๋ผ ์กฐ์ ํด์ค๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ฐ์ฒด๊ฐ ๋ณํ๋์ด๋ Gaussian๋ค์ด ๊ฐ์ฒด ํ๋ฉด์ ๋ถ์ด์๋ ๋ฏ์ด ํจ๊ป ๋ณํ๋ฉ๋๋ค. ์์ฝํ๋ฉด, appearance๋ 1๋จ๊ณ์์ ์ป์ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ์ข ์๋๋๋ก ์ค๊ณํ์ฌ, ์๊ฐ์ ๋ฐ๋ฅธ ์ผ๊ด์ฑ์ ํ๋ณดํ ๊ฒ์ ๋๋ค.
์ด๋ก์จ PhysTwin์ด ์์ฑํ ๋์งํธ ํธ์์ ์์ฑ๋ฉ๋๋ค. 1๋จ๊ณ์ spring-mass ๋ชจ๋ธ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ์ค์ ์ธ ๋์ญํ์ ์ฌํํ๊ณ , 2๋จ๊ณ์ Gaussian splats๋ ์๊ฐ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ์์ ์ฌํ์ ๋ณด์ฅํฉ๋๋ค. ์ต์ข ๋ชจ๋ธ์ ์๋ก์ด ์ด๊ธฐ ์กฐ๊ฑด์ด๋ ์ธ๋ ฅ์ ๋ํด์ ์๋ฎฌ๋ ์ด์ ์ ์ํํ ์ ์์ผ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ ๋๋งํด์ ๋ง์น ์ค์ ์์์ ๋ณด๋ ๊ฒ์ฒ๋ผ ์ถ๋ ฅํ ์ ์์ต๋๋ค.
2.6 PhysTwin์ ์ฑ๊ณผ์ ์์ฉ
PhysTwin์ด ๋ณต์ํ ๋์งํธ ํธ์์ ์ ํ๋๋ ๋ค์ํ ์คํ์ ํตํด ์ ์ฆ๋์์ต๋๋ค. ์ ์๋ค์ ํ๊ฐ์ ๋ฐ๋ฅด๋ฉด, PhysTwin์ ์ ํ๋ ์์ ์ ์ ๋ ฅ๋ง ๊ฐ์ง๊ณ ๋ ์ค์ ๊ฐ์ฒด์ ํ์๊ณผ ๋ฌผ๋ฆฌ ํน์ฑ์ ์ ์บก์ฒํ์ฌ, ์ฌ๊ตฌ์ฑ ์ ํ๋(reconstruction)์ ์๋ก์ด ์์ ์์์ ๋ ๋๋ง ํ์ง(rendering), ๋ฏธ๋ ์ํ ์์ธก(future prediction), ๊ทธ๋ฆฌ๊ณ ์ ์ํธ์์ฉ์ ๋ํ ์๋ฎฌ๋ ์ด์ ๋ฑ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด PhysTwin์ผ๋ก ๋ณต์ํ ๋ชจ๋ธ์ ์ด์ ์ ์๋ ํ์ ๊ฐํ๊ฑฐ๋ ์๋ก์ด ๋ฐฉ์์ผ๋ก ๋ณํ์ํค๋ ์คํ์์, Spring-Gaus ๋ฑ์ ๊ณผ๊ฑฐ ๋ฐฉ๋ฒ๋ณด๋ค ์ค์ ๋ฌผ์ฒด์ ๋ฐ์์ ๋ ๊ทธ๋ด๋ฏํ๊ฒ ์์ธกํด๋์ต๋๋ค. ๋ค์ํ ๊ฐ์ฒด ํ์ (์ ์ฐํ ๋กํ๋ถํฐ ํ์ฑ์ด ์๋ ๋ด์ ์ธํ, ์ท๊ฐ, ์ฌ์ง์ด ๋จ๋จํ ํ๋ฐฐ ์์๊น์ง)์ ๋ํด ์ด๋ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ ๋ฒ์ฉ์ฑ๋ ํ์ธ๋์์ต๋๋ค.
๋ฌด์๋ณด๋ค PhysTwin์ ํฐ ์ฅ์ ์ค ํ๋๋ ์๋ฎฌ๋ ์ด์ ์๋์ ๋๋ค. GPU ๊ฐ์์ ํตํด spring-mass ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๊ณผ Gaussian ๋ ๋๋ง์ ์ค์๊ฐ์ ๊ฐ๊น๊ฒ ์ํํ ์ ์์ผ๋ฏ๋ก, ๋ณต์๋ ๋ชจ๋ธ์ ์ด์ฉํ ์ธํฐ๋ํฐ๋ธ ์๋ฎฌ๋ ์ด์ ์ด ๊ฐ๋ฅํฉ๋๋ค. ์ฌ์ฉ์๊ฐ ํค๋ณด๋๋ก ๊ฐ์ ์์ ์์ง์ด๋ฉฐ ๋ฌผ์ฒด๋ฅผ ์ก์๋น๊ธฐ๋ ๋ฑ์ ์กฐ์์ ํ๋ฉด, PhysTwin์ ๊ฐ์ฒด๋ ์ฆ๊ฐ ๋ฐ์ํ์ฌ ๋ณํ๋๊ณ ํ๋ฉด์ ๋ ๋๋ง๋์ด ๋ณด์ฌ์ง๋๋ค. ๋ ผ๋ฌธ์์๋ ์ฌ๋์ด ๋ก๋ด ํ์ ์๊ฒฉ ์กฐ์(teleoperation)ํ ๋ PhysTwin์ด ์ค์๊ฐ์ผ๋ก ๊ฐ์ฒด์ ๋ฏธ๋ ์ํ๋ฅผ ์์ธกํ์ฌ ํ๋ฉด์ ๊ฒน์ณ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ชจ๋ฅผ ํตํด, ์ด๋ฌํ ๊ธฐ๋ฅ์ด ๋ก๋ด ์์ ์ ํผ๋๋ฐฑ ๋๊ตฌ๋ก ํ์ฉ๋ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ ๋ณต์๋ ๋์งํธ ํธ์์ ๋ก๋ด์ ๋ชจ๋ธ ๊ธฐ๋ฐ ํ๋๋์ ๋ฐ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค. ์์ปจ๋ ๋ก๋ด์ด ์ ์ฐํ ๋ฐง์ค์ ํน์ ๋ชจ์์ผ๋ก ์์ง์ด๊ณ ์ ํ ๋, PhysTwin์ผ๋ก ์ป์ ๋์ ๋ชจ๋ธ์ ์๋ฎฌ๋ ์ดํฐ๋ก ์ฌ์ฉํ์ฌ ๋ค์ํ ๋์ ์๋๋ค์ ๊ฐ์ํ๊ฒฝ์์ ์ํํด๋ณด๊ณ ์ต์ ์ ๊ณํ์ ์ธ์ธ ์ ์์ต๋๋ค. ์ด๋ฐ ๋ชจ๋ธ ์์ธก ์ ์ด(MPC)๋ ๊ฐํํ์ต๊ณผ ๊ฒฐํฉํ๋ฉด, ๋ฌผ์ฒด๋ฅผ ์ค์ ๋ก ๋ค๋ฃจ๊ธฐ ์ ์ ๊ฐ์์ผ๋ก ์ฌ๋ฌ ์๋๋ฆฌ์ค๋ฅผ ์ ์ํ ํ ์คํธํด๋ณผ ์ ์์ด ํจ์จ์ ์ธ ๋ก๋ด ์กฐ์์ด ๊ฐ๋ฅํด์ง๋๋ค.
๋ง์ง๋ง์ผ๋ก, PhysTwin์ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ฅผ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ถ๋ถ ๊ด์ฐฐ ์์๋ง์ผ๋ก ์์ ํ ๊ฐ์ฒด ํ์์ ๋ณต์ํ๊ธฐ ์ํด ์ฌ์ ํ์ต๋ ์์ฑ ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๊ณ , ์ ํต ๊ธฐ๋ฒ๊ณผ ๊ฒฐํฉํด ์ ๋ฐํ ์ด๊ธฐ shape์ ์ป์์ต๋๋ค.
- Spring-Mass ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ๋์งํธ ํธ์์ ํตํฉํ์ฌ, ํ์ค ๋ฌผ๋ฆฌ ๋ฒ์น(๋ดํด ์ญํ, ์ถฉ๋, ์ค๋ ฅ ๋ฑ)์ด ๋ฐ์๋ ์๋ฎฌ๋ ์ด์
์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋จ์ ๋ณด๊ฐ์ด ์๋ ์์ธ-๊ฒฐ๊ณผ์ ๊ธฐ๋ฐํ ๊ฐ์ฒด ๊ฑฐ๋ ์์ธก์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.
- ๋ค๋จ๊ณ ์ต์ ํ(framework)๋ฅผ ๊ณ ์ํ์ฌ, ์ด์ฐ์ ํ ํด๋ก์ง ๊ฒฐ์ ๊ณผ ์ฐ์์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ถ์ ์ ์์ฐจ์ ์ผ๋ก ํด๊ฒฐํ์์ต๋๋ค. ํนํ zero-order + differentiable simulation์ ๊ฒฐํฉํ ๊ณ์ธต์ ์ต์ ํ ์ ๋ต์ผ๋ก ๊ฑฐ๋ํ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์ ํจ๊ณผ์ ์ผ๋ก ํ์ํ์ต๋๋ค.
- Segment Anything, CoTracker ๋ฑ์ ๋น์ ๊ธฐ๋ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํ์ฉํ์ฌ, ์ถ๊ฐ์ ์ธ ์ง๋ ์ ํธ(๊ฐ์ฒด ๋ง์คํฌ, 3D ์ถ์ ์ )๋ฅผ ์ป๊ณ ์ด๋ฅผ ์ฝ์คํธ ํจ์์ ํตํฉํจ์ผ๋ก์จ ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ์ต์ ํ ๋์ด๋๋ฅผ ๊ทน๋ณตํ์ต๋๋ค.
- Gaussian splatting ๊ธฐ๋ฐ ํํ์ ๋์ ํ์ฌ, ๋ณต์กํ ๋ผ์ดํ ์์ด๋ ๊ฐ์ฒด์ appearance๋ฅผ ์ฌ์ค์ ์ผ๋ก ๋ณต์ํ๊ณ ์ค์๊ฐ ๋ ๋๋ง์ ์คํํ์ต๋๋ค. ๋ํ LBS๋ฅผ ํตํด ๋ณํ ์ ์ผ๊ด๋ ํ ์ค์ฒ ๋์์ ์ ์งํ๋๋ก ํจ์ผ๋ก์จ, ์๊ฐ์ ํ์ง๊ณผ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ ๋ชจ๋ ์ก์์ต๋๋ค.
PhysTwin์ ์๊ฐ์ ์ฌ๊ตฌ์ฑ๊ณผ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ๊ฐ๊ต ์ญํ ์ ํจ์ผ๋ก์จ, ๋ก๋ด ์ํธ์์ฉ์ด๋ ๊ฐ์ํ์ค ๋ฑ์์ ํ์ค ์ธ๊ณ์ ๋ฌผ์ฒด๋ฅผ ๋ ์ ๋ชจ๋ฐฉํ๊ณ ์์ธกํ๋ ๋ฐฉํฅ์ผ๋ก ํ ๊ฑธ์ ๋์๊ฐ๋ค๋ ํ๊ฐ๋ฅผ ๋ฐ์ต๋๋ค. ํฅํ ๋ ๋ค์ํ ๊ฐ์ฒด๋ ์ ์ฒด์ ๊ฐ์ ๋ณต์กํ ์ฌ์ง์๋ ์ด๋ฌํ ๋ฌผ๋ฆฌ-ํ์ต ๊ฒฐํฉ ๋ฐฉ์์ด ํ์ฅ๋ ์ ์์ ๊ฒ์ด๋ฉฐ, ์ธ๊ฐ๊ณผ ์ํธ์์ฉํ๋ ๊ฐ์ ํ๊ฒฝ ๊ตฌ์ฑ์๋ ๊ธฐ์ฌํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.