๐TF-HOT ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
Inspire Hand ์ฌ์ฉ
- โจ TF-HOT(Training-Free Hand-Object Pose Tracking)๋ ํ๋ จ์ด ํ์ ์๋(training-free) ๋ฐฉ์์ผ๋ก ์ฌ๋ ์๊ณผ ๊ฐ์ฒด์ ํฌ์ฆ๋ฅผ ๋น๋์ค์์ ํจ์จ์ ์ผ๋ก ์ถ์ ํ๊ณ ์ต์ ํํ๋ ์๋ก์ด ํ์ดํ๋ผ์ธ์ ์ ์ํฉ๋๋ค.
- ๐ก ์ด ๋ฐฉ๋ฒ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง๊ณผ ์ฌ์ ํ๋ จ๋ 2D ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(SAM2, MMPose)์ ํ๋ถํ ์ฌ์ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ 2D ๋ฐ 3D ์ ์ฝ ์กฐ๊ฑด๊ณผ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ ํฌํจํ๋ ๋ค์ค ์์ค ํจ์๋ฅผ ์ต์ํํ์ฌ ํฌ์ฆ๋ฅผ ์ต์ ํํฉ๋๋ค.
- ๐ TF-HOT์ ์ค์ ํ๊ฒฝ ๋น๋์ค์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ์ถ์ถ๋ ํฌ์ฆ ๊ถค์ ์ ํ์ฉํ๋ PTF(Pose Trajectory Following) ๋ชจ๋ฐฉ ํ์ต์ ํตํด ์ ๊ตํ ์กฐ์ ์ ์ฑ ํ์ต์์ ๊ธฐ์กด ๊ฐํ ํ์ต ๋ฐ ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํจ์ ์ ์ฆํ์ต๋๋ค.

๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ํ๋ จ ์์ด(Training-Free) ์ธ๊ฐ์ ์๊ณผ ๋ฌผ์ฒด์ ์์ธ๋ฅผ ์ถ์ ํ๊ณ ์ต์ ํํ๋ ํ์ดํ๋ผ์ธ์ธ TF-HOT (Training-Free Hand-Object Pose Tracking and Optimization)์ ์ ์ํ๋ฉฐ, ์ด๋ฅผ ํ์ฉํ์ฌ ๋ก๋ด์ ๋ฅ์ํ ์กฐ์(dexterous manipulation)์ ์ํ ๋ชจ๋ฐฉ ํ์ต(imitation learning) ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
1. ์๋ก ๋ฐ ๋ฐฐ๊ฒฝ
๋ฅ์ํ ์ ์กฐ์(dexterous manipulation)์ ๋์ ์ฐจ์์ ํ๋ ๊ณต๊ฐ๊ณผ ๊ณ ํ์ง ์์ฐ(demonstration) ๋ฐ์ดํฐ์ ๋ถ์กฑ์ผ๋ก ์ธํด ๋ณธ์ง์ ์ผ๋ก ์ด๋ ต์ต๋๋ค. ์ธ๊ฐ์ ์๊ณผ ๋ฌผ์ฒด ๊ฐ์ ์ํธ์์ฉ์ด ๋ด๊ธด ๋ง์ ๋น๋์ค๊ฐ ์กด์ฌํ์ง๋ง, ๋น๋ฒํ๊ณ ์ญ๋์ ์ธ ๊ฐ๋ ค์ง(occlusion) ๋๋ฌธ์ ์๊ณผ ๋ฌผ์ฒด์ ์์ธ๋ฅผ ์ ํํ๊ณ ๊ฒฌ๊ณ ํ๊ฒ ์ถ์ ํ๋ ๊ฒ์ด ์ด๋ ต์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ ๋น๋์ค์์ ๊ณ ํ์ง์ ๋ก๋ด ์กฐ์ ์์ฐ์ ์ถ์ถํ๋ ๊ฒ์ ๋ฐฉํดํฉ๋๋ค. ๊ธฐ์กด์ ์-๋ฌผ์ฒด ์์ธ ์ถ์ ๋ฐฉ๋ฒ์ ๋๊ท๋ชจ ์ฃผ์(annotation) ๋ฐ์ดํฐ์ ์ด ํ์ํ ํ์ต ๊ธฐ๋ฐ(learning-based) ๋ฐฉ์๊ณผ ๋ค์ค ์นด๋ฉ๋ผ ์ค์ ์ ์์กดํ๋ ์ต์ ํ ๊ธฐ๋ฐ(optimization-based) ๋ฐฉ์์ผ๋ก ๋๋๋ฉฐ, ๋ ๋ค ์ค์ ํ๊ฒฝ์์์ ์ ์ฉ์ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ ํ๋ จ๋ 2D ๊ธฐ๋ฐ(foundation) ์ธ์ ๋ชจ๋ธ์ ํ๋ถํ ์ฌ์ ์ง์(prior)๊ณผ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง(differentiable rendering)์ ํ์ฉํ๋ ํ๋ จ ์๋(training-free) ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
2. ํต์ฌ ๋ฐฉ๋ฒ๋ก (TF-HOT)
TF-HOT์ ๋ชฉํ๋ RGB-D ๋น๋์ค ์ ๋ ฅ์ด ์ฃผ์ด์ก์ ๋ ๊ฐ ํ๋ ์์์ ์๊ณผ ๋ฌผ์ฒด์ ์์ธ๋ฅผ ๊ณต๋์ผ๋ก ์ต์ ํํ์ฌ ์ถ์ ํ๋ ๊ฒ์ ๋๋ค.
2.1. ๋ชจ๋ธ๋ง
- ์ ๋ชจ๋ธ: MANO (Romero et al., 2022) ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ 3D ์ ํ์์ ํํํฉ๋๋ค. ์์ ์์ธ(\theta), ํ์(\beta), ์ ์ญ ํ์ (r), ์ ์ญ ๋ณํ(t)์ ํฌํจํ๋ ํ๋ผ๋ฏธํฐ \gamma = \{\theta, \beta, r, t\}๋ฅผ ํตํด ์ ๋ฉ์ M(\gamma)์ 3D ์ ๊ด์ J(\gamma)๋ฅผ ์์ฑํฉ๋๋ค.
- ๋ฌผ์ฒด ๋ชจ๋ธ: ๋ฌผ์ฒด ๋ชจ๋ธ M_{obj}๋ ๋ฏธ๋ฆฌ ์๋ ค์ ธ ์๋ค๊ณ ๊ฐ์ ํ๋ฉฐ, ๋จ์ผ ๋ทฐ ๋๋ ๋ค์ค ๋ทฐ ์ด๋ฏธ์ง๋ก๋ถํฐ ํ์ต ๊ธฐ๋ฐ 3D ์ฌ๊ตฌ์ฑ(reconstruction) ๋ฐฉ๋ฒ์ ํตํด ์ป์ ์ ์์ต๋๋ค. ๋ฌผ์ฒด ์์ธ P๋ ์ฟผํฐ๋์ธ(quaternion)๊ณผ ๋ณํ(translation) ๋ฒกํฐ๋ก ํ๋ผ๋ฏธํฐํ๋ฉ๋๋ค.
2.2. ์ต์ ํ ๋ชฉํ ํจ์
์๊ณผ ๋ฌผ์ฒด์ ์์ธ \{ \gamma, P \}๋ฅผ ๊ฐ ํ๋ ์๋ณ๋ก ๊ณต๋ ์ต์ ํํ๊ธฐ ์ํด ๋ค์ ์์ค ํจ์๋ฅผ ์ต์ํํฉ๋๋ค: L_{total}(\gamma, P) = \lambda_{2d}L_{2d}(\gamma) + \lambda_{render}L_{render}(\gamma, P) + \lambda_{surf}L_{surf}(\gamma, P) + \lambda_{sdf}L_{sdf}(P) + \lambda_{penetr}L_{penetr}(\gamma, P) + \lambda_{attr}L_{attr}(\gamma, P) + \lambda_{reg}L_{reg}(\gamma, P) ์ฌ๊ธฐ์ \lambda ๊ฐ๋ค์ ๊ฐ ์์ค ํญ์ ๊ฐ์ค ๊ณ์์ ๋๋ค. ์ด ์์ค ํญ๋ค์ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋๋ฉ๋๋ค: 2D ์ด๋ฏธ์ง ๊ณต๊ฐ ์ ์ฝ, 3D ์ ๋ณด ํ์ฉ, ๊ทธ๋ฆฌ๊ณ ์ต์ ํ ์์ ์ฑ ๋ฐ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ(physically plausible)์ ์ํ ์ ๊ทํ(regularization) ํญ.
2.2.1. 2D ์ฌ์ ์ง์(Priors)์ผ๋ก๋ถํฐ์ ์ ์ฝ
- 2D ๊ด์ ํฌ์ ์์ค (L_{2d}): 3D ์ ๊ด์ ์ ํฌ์ํ ์์น์ ์ฐธ์กฐ 2D ๊ด์ ์์น(\tilde{j}_{2d}, MMPose๋ก ์์ธก) ์ฌ์ด์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean distance)๋ฅผ ์ต์ํํฉ๋๋ค. L_{2d}(\gamma) = \tilde{w}\|\Pi J(\gamma) - \tilde{j}_{2d}\|^2 ์ฌ๊ธฐ์ \Pi๋ ํฌ์ ์ฐ์ฐ์์ด๋ฉฐ, \tilde{w}๋ 2D ๊ด์ ์์น ์์ธก์ ์ ๋ขฐ๋์ ๋๋ค.
- ๋ ๋๋ง ์์ค (L_{render}): ํฝ์ ๋จ์ ๋ง์คํฌ ์์ค์ ์ฌ์ฉํ์ฌ ๋ ๋ฐ๋ ๋์ ๊ฐ๋ (supervision)์ ์ ๊ณตํฉ๋๋ค. ์๊ณผ ๋ฌผ์ฒด๋ฅผ ํจ๊ป ๋ ๋๋งํ์ฌ ๊ฐ๋ ค์ง์ ๊ณ ๋ คํฉ๋๋ค. M_{hand}, M_{obj} = \pi[M(\gamma), P_tM_{obj}] L_{render} = w_1\|M_{hand} - \tilde{M}_{hand}\|^2 + w_2\|M_{obj} - \tilde{M}_{obj}\|^2 \pi๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ง์คํฌ ๋ ๋๋ฌ์ด๋ฉฐ, ์ฐธ์กฐ ๋ง์คํฌ \tilde{M}_{hand}, \tilde{M}_{obj}๋ SAM2 (Ravi et al., 2024)๋ฅผ ์ฌ์ฉํ์ฌ ์ป์ต๋๋ค.
2.2.2. 3D ์ ๋ณด ํ์ฉ
๊ฐ์ ์์ญ ํ๋ฉด ์์ค (L_{surf}): ๊ธฐ์กด ํ๋ฉด ์์ค์ ํ๊ณ(๋จ์ผ ๋ทฐ์์ ๋ถ๋ถ์ ์ธ ํฌ์ธํธ ํด๋ผ์ฐ๋)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ฉ์ฌ์ ๊ฐ์ ์์ญ ๋ถ๋ถ(S)๋ง ํฌ์ธํธ ํด๋ผ์ฐ๋(P)์ ์ ๋ ฌํ๋๋ก ์ ํํฉ๋๋ค. f(P, S) = (w_3 \sum_{\triangle_i \in S} \min_{p_j \in P} \|p_j - \triangle_i\|^2 + w_4 \frac{|S|}{|P|} \sum_{p_i \in P} \min_{\triangle_j \in S} \|p_i - \triangle_j\|^2) p_i๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ P์ i๋ฒ์งธ ์ ์ด๊ณ , \triangle_j๋ ๊ฐ์ ์์ญ S์ j๋ฒ์งธ ์ผ๊ฐํ์ ๋๋ค.
SDF ์์ค (L_{sdf}): ๋ฌผ์ฒด์ ์ ์ฉ๋๋ ์์ค๋ก, ํฌ์ธํธ ํด๋ผ์ฐ๋์ SDF (Signed Distance Function) ํ๋์ ์ ๋ก ๋ ๋ฒจ ์งํฉ(zero-level set)์ผ๋ก ์ ์๋ ํ๋ฉด ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ต์ํํฉ๋๋ค. ๋ฌผ์ฒด ์์ธ ์ด๊ธฐํ๊ฐ ์ข์ง ์์ ๋๋ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๋ฐ ๋์์ ์ค๋๋ค. L_{sdf}(P) = \sum_{v \in P}\|\phi(P^{-1}v)\|^2
\phi(x)๋ ๋ฌผ์ฒด์ ์บ๋ ธ๋์ปฌ ๊ณต๊ฐ(canonical space)์ผ๋ก ๋ณํ๋ ์์น x์์์ SDF ๊ฐ์ ๋๋ค.
2.2.3. ์ ๊ทํ ๋ฐ ์ด๊ธฐํ
- ์นจํฌ ์์ค (L_{penetr}): ์-๋ฌผ์ฒด ๊ฐ์ ์นจํฌ(penetration)๋ฅผ ๋ฐฉ์งํ๋ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ ๋๋ค. ๋ฌผ์ฒด๋ฅผ ์นจํฌํ ์์ ์ ์ (vertex)์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํฉ๋๋ค. L_{penetr}(\gamma, P) = \sum_{v \in M(\gamma)}(-\mathbf{1}_{\phi(P^{-1}v)<0} \phi(P^{-1}v))
- ์ธ๋ ฅ ์์ค (L_{attr}): ์๊ฐ๋ฝ ๋(fingertips)๊ณผ ๋ฌผ์ฒด ์ฌ์ด์ ์ ์ด์ ์ฅ๋ คํ๋ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ ๋๋ค. ๋ฌผ์ฒด ๋ฐ๊นฅ์ ์๋ ๋ค์ฏ ์๊ฐ๋ฝ ๋์ ์ต์ SDF ๊ฐ์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํฉ๋๋ค. L_{attr}(\gamma, P) = \sum_{i=min}^{n=5} \min_{v \in M(\gamma)_{C_i}}(\mathbf{1}_{\phi(P^{-1}v)>0} \phi(P^{-1}v)) ์์ด ๋ฌผ์ฒด์ ์ ์ดํ ๊ฒ์ผ๋ก ๊ฐ์ฃผ๋ ๋ (์ต๋ ์นจํฌ๊ฐ ํน์ ์๊ณ๊ฐ์ ์ด๊ณผํ ๋) ํ์ฑํ๋ฉ๋๋ค.
- ์ ๊ทํ ์์ค (L_{reg}): ํ๋ ์ ๊ฐ์ 3D ์ ๊ด์ (j_{3d_t})๊ณผ ๋ฌผ์ฒด ์์ธ์ ๋ณํ(T_t) ๋ณํ๋ฅผ ์ต์ํํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ์์ ํํฉ๋๋ค. L_{reg} = w_5 \max(0, \|j_{3d_t} - j_{3d_{t-1}}\|^2 - \epsilon_1) + w_6 \max(0, \|T_t - T_{t-1}\|^2 - \epsilon_2)
- ์ด๊ธฐํ: ์ฒซ ํ๋ ์์ ์ธ๋ถ ๊ฐ์ฒด ์์ธ ์ถ์ ๋คํธ์ํฌ(FoundationPose)๋ก ๋ฌผ์ฒด ์์ธ๋ฅผ, ์์ ์ฌ๋ฌ ์ ์ญ ํ์ ์ ์ํ๋งํ๊ณ ์ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์ค์ฌ์ ๋ง์ถ ํ 2D ๊ด์ ์๋ฌ๊ฐ ๊ฐ์ฅ ๋ฎ์ ์ด๊ธฐํ๋ฅผ ์ ํํฉ๋๋ค. ์ดํ ํ๋ ์์ ์ด์ ํ๋ ์์ ์ต์ ํ๋ ์์ธ๋ฅผ ์ด๊ธฐ๊ฐ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
3. ์์ฉ: ์์ธ ๊ถค์ ์ถ์ (PTF)
TF-HOT์ผ๋ก ์ถ์ถ๋ ์๊ณผ ๋ฌผ์ฒด ์์ธ๋ ๋ก๋ด์ ๋ฅ์ํ ์ ์กฐ์ ์์ ์์ ํ์ฉ๋ฉ๋๋ค. PTF (Pose Trajectory Following)๋ ๋จ์ผ ์์ธ ์ ์ฉ ์์ฐ(pose-only demonstration)์ ํ์ฉํ์ฌ ๋ฅ์ํ ์ ์กฐ์ ์์ ์ ์ํ ์ ์ฑ (policy)์ ์ต์ ํํ๋ ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค. TF-HOT์์ ์ป์ ๋ฌผ์ฒด ๋ฐ ์ ์์ธ ๊ถค์ ์ ์ด์ฉํ์ฌ ์ญ์ด๋ํ(inverse kinematics) ๋ฐ ๋ฆฌํ๊ฒํ (retargeting) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ๋ก๋ด ์์ ์ด๊ธฐ ์์ธ์ ์๊ฐ๋ฝ ์์น๋ฅผ ์์ฐ์ ์ฒซ ํ๋ ์๊ณผ ์ผ์น์ํต๋๋ค. ๊ทธ ํ, ๋ก๋ด ์์ ํ์ฌ ์ํ๊ฐ ๋ชฉํ ์์ธ ๊ถค์ ์ ๋ฐ๋ผ ์ผ๋ง๋ ์งํ๋์๋์ง๋ฅผ ์ธก์ ํ๋ ํน์ ๊ถค์ ์ถ์ ๋ณด์(trajectory-following reward)์ ์ค๊ณํฉ๋๋ค. PPO (Proximal Policy Optimization)๋ฅผ ์ฌ์ฉํ์ฌ ์ด ๊ถค์ ์ถ์ ๋ณด์๊ณผ ์๋ ํ๊ฒฝ ๋ณด์์ ํฉ๊ณ๋ฅผ ์ต๋ํํ๋๋ก ์ ์ฑ ์ ์ต์ ํํฉ๋๋ค.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
๋ณธ ์ฐ๊ตฌ๋ DexYCB ๋ฐ์ดํฐ์ ๊ณผ ์์ฒด ์์งํ In-the-wild ๋ฐ์ดํฐ์ ์์ TF-HOT์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค.
- DexYCB ๋ฐ์ดํฐ์ : MPJPE (์ ๊ด์ ์์น ์ค์ฐจ), J2E (2D ๊ด์ ํฝ์ ์ค์ฐจ), t_{err} (๋ฌผ์ฒด ๋ณํ ์ค์ฐจ), r_{err} (๋ฌผ์ฒด ํ์ ์ค์ฐจ)๋ฅผ ์ฌ์ฉํ์ต๋๋ค. TF-HOT์ HOTrack (Chen et al., 2023)๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ฌผ์ฒด ์์ธ ์ถ์ ์์ ๊ฐ์ฅ ๋ฎ์ ๋ณํ ์ค์ฐจ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
- In-the-wild ๋ฐ์ดํฐ์ : J2E* (MMPose์์ 2D ๊ด์ ํฝ์ ์ค์ฐจ), IoUobj (SAM2์์ ๋ฌผ์ฒด ๋ง์คํฌ IoU), SDobj (๊ฐ์ ์์ญ 3D ํ๋ฉด ๊ฑฐ๋ฆฌ)๋ฅผ ์ฌ์ฉํ์ต๋๋ค. TF-HOT์ HOTrack ๋ฐ HOISDF (Qi et al., 2024)๋ณด๋ค ์ฐ์ํ ์ ๋์ ๋ฐ ์ ์ฑ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ํ์ต ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ HOTrack๊ณผ HOISDF๋ ๊ฐ๊ฐ ํฌ์ธํธ ํด๋ผ์ฐ๋ ํ์ง์ ๋ฏผ๊ฐํ๊ฑฐ๋ ํ์ต ๋ฐ์ดํฐ์ ์๋ ์นด๋ฉ๋ผ ์์ธ ๋ฐ ๊ฐ์ฒด์ ์ผ๋ฐํํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค.
- Ablation Study: ๊ฐ ์์ค ํญ์ ์ํฅ์ ๋ถ์ํ ๊ฒฐ๊ณผ, ์ด๋ค ์์ค ํญ์ด๋ผ๋ ์ ๊ฑฐํ๋ฉด ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๋ฉฐ, ํนํ ๊ฐ์ ์์ญ 3D ํ๋ฉด ์์ค์ด ์๋ ๊ฒฝ์ฐ ์๋นํ ์ค์ ๋ ฌ์ด ๋ฐ์ํ์ต๋๋ค. ์นจํฌ ์์ค์ด ์์ผ๋ฉด ์๊ณผ ๋ฌผ์ฒด๊ฐ ์นจํฌํ๊ณ , ์ธ๋ ฅ ์์ค์ด ์์ผ๋ฉด ๋นํ์ค์ ์ธ ์ก๊ธฐ ์์ธ๊ฐ ๋ํ๋๋ฉฐ, ์ ๊ทํ ์์ค์ด ์์ผ๋ฉด ๊น์ด ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ์ ์ทจ์ฝํด์ง๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
- PTF ์์ฉ ์คํ: ManiSkill 3 ํ๊ฒฝ์์ ๋ฐ๋๋, ์ด์ง-์คํ ์บ, ์ฝ๋ผ๋ฆฌ ํฝ์ (Pickup) ์์ ์ ์ํํ์ต๋๋ค. ์์ PPO(๊ฐํ ํ์ต) ๋ฐ SOIL(์ํ ์ ์ฉ ๋ชจ๋ฐฉ ํ์ต)๊ณผ ๋น๊ตํ์ ๋, PTF๋ TF-HOT์์ ์ถ์ถ๋ ์์ฐ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ์ฌ ๋ ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ์ ์ ์ํ๋ก ์์ ์ ํด๊ฒฐํ์ต๋๋ค. ํนํ, PTF๋ ๋ฌผ์ฒด์ ๋ํ ์์ ์๋์ ์ธ ์์ธ๋ฅผ ์ ํํ๊ฒ ์ ์งํ๋ ๋ฐ ๋์์ ์ฃผ์ด ๋ ํจ๊ณผ์ ์ธ ์ก๊ธฐ(grasping)๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.


5. ๊ฒฐ๋ก ๋ฐ ํ๊ณ
TF-HOT์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ๋๋ง๊ณผ ์ฌ์ ํ๋ จ๋ 2D ์ธ์ ๋ชจ๋ธ์ ์ฌ์ ์ง์์ ํ์ฉํ์ฌ ํ๋ จ ์์ด๋ ์ธ๊ฐ ์๊ณผ ๋ฌผ์ฒด ์์ธ ๊ถค์ ์ ํจ์จ์ ์ผ๋ก ์ต์ ํํ๋ ํ๋ ์์ํฌ์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ค์ ๋น๋์ค์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ์ถ์ถ๋ ์์ธ ๊ถค์ ์ ๋ก๋ด ๋ฅ์ ์กฐ์ ์ ์ฑ ํ์ต์ ์ํ PTF์ ๊ฐ์ ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉ๋ ์ ์์์ ์ ์ฆํ์ต๋๋ค. ํ๊ณ์ ์ผ๋ก๋ ์์ด ์์ ํ ๊ฐ๋ ค์ง๊ฑฐ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๋ํ๋์ง ์๋ ๊ฒฝ์ฐ 3D ์ฌ์ ์ง์์ ๋ถ์กฑ์ผ๋ก ์ ํํ ์์ธ ์ถ์ ์ด ์ด๋ ต๋ค๋ ์ ์ด ์์ต๋๋ค. ์ด๋ ํฅํ ๋ค์ค ์นด๋ฉ๋ผ ์ค์ ์ ํตํด ํด๊ฒฐ๋ ์ ์์ผ๋ฉฐ, TF-HOT์ ์๋ ๋ฐ์ดํฐ ์ฃผ์ ๋๊ตฌ๋ก๋ ํ์ฉ๋ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๋๋ค.