๐AINA ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค AINA๋ Aria Gen 2 ์ค๋งํธ ๊ธ๋ผ์ค๋ก ์์ง๋ in-the-wild ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ์ฌ multi-fingered ๋ก๋ด ์กฐ์ ์ ์ฑ ์ ํ์ตํ๋ ์๋ก์ด ํ๋ ์์ํฌ์ ๋๋ค.
- ๐ก ์ด ํ๋ ์์ํฌ๋ 3D object track ๋ฐ fingertip point๋ฅผ ์ถ์ถํ๊ณ ๋ก๋ด ํ๊ฒฝ์ ์ ๋ ฌํจ์ผ๋ก์จ, ๋ฐฐ๊ฒฝ ๋ณํ์ ๊ฐ์ธํ point-based ์ ์ฑ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๐ AINA๋ ๋ก๋ด ๋ฐ์ดํฐ๋ ์๋ฎฌ๋ ์ด์ ์์ด๋ ๋ค์ํ ์ผ์ ์กฐ์ ์์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ฉฐ, in-the-wild ์ธ๊ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ก๋ด์ผ๋ก์ ํจ๊ณผ์ ์ธ ๊ธฐ์ ์ด์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ Aria Gen 2 ์ค๋งํธ ๊ธ๋ผ์ค๋ฅผ ์ฌ์ฉํ์ฌ ์ผ์(in-the-wild) ํ๊ฒฝ์์ ์์ง๋ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ค์ง ๋ก๋ด ์กฐ์(multi-fingered robot manipulation) ์ ์ฑ ์ ํ์ตํ๋ ํ๋ ์์ํฌ์ธ AINA๋ฅผ ์ ์ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ด๋ ํ ๋ก๋ด ๋ฐ์ดํฐ(์จ๋ผ์ธ ์์ , ๊ฐํ ํ์ต ๋๋ ์๋ฎฌ๋ ์ด์ ํฌํจ)๋ ์๊ตฌํ์ง ์๋๋ค๋ ์ ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ์ฐจ๋ณํ๋ฉ๋๋ค.
์ฃผ์ ๋ชฉํ ๋ฐ ๋ฐฐ๊ฒฝ:
๋ก๋ด์ด ์ผ์ ํ๊ฒฝ์์ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋ค์ง ์กฐ์์ ์ํํ๋๋ก ํ์ต์ํค๋ ๊ฒ์ ์ค๋ ๋ชฉํ์์ต๋๋ค. ํ์ง๋ง ์ธ๊ฐ๊ณผ ๋ก๋ด ๊ฐ์ embodiment gap๊ณผ ์ธ๊ฐ ๋น๋์ค์์ ๋ก๋ด ํ์ต์ ํ์ํ ๊ด๋ จ contextual ๋ฐ motion cue๋ฅผ ์ถ์ถํ๋ ์ด๋ ค์์ด ๋ณ๋ชฉ ํ์์ผ๋ก ์์ฉํ์ต๋๋ค. AINA๋ Aria Gen 2 ๊ธ๋ผ์ค์ ๋ฐ์ ๋ ์ผ์ฑ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ์ด ๊ธ๋ผ์ค๋ ๊ฒฝ๋์ด๋ฉฐ ํด๋ ๊ฐ๋ฅํ๊ณ , ๊ณ ํด์๋ RGB ์นด๋ฉ๋ผ, ์ ํํ ์จ๋ณด๋ 3D head ๋ฐ hand poses, ๊ทธ๋ฆฌ๊ณ depth estimation์ ์ํ wide stereo view๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ ํน์ง๋ค์ ๋ฐฐ๊ฒฝ ๋ณํ์ ๊ฐ์ธํ 3D point-based policy ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๋ก๋ด ๋ฐ์ดํฐ ์์ด ์ง์ ๋ฐฐํฌํ ์ ์์ต๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Methodology):
AINA๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ๋ฐ์ดํฐ ์์ง (Data Collection): ์ธ๊ฐ์ด Aria Gen 2 ๊ธ๋ผ์ค๋ฅผ ์ฐฉ์ฉํ๊ณ ์์์ ๋ฐฐ๊ฒฝ ๋ฐ ์์ ์์ ์ผ์(in-the-wild) ํ๊ฒฝ์์ ๋ค์์ ๋น๋์ค ์์ฐ์ ์์งํฉ๋๋ค. ์ถ๊ฐ๋ก, ๋ก๋ด ๋ฐฐํฌ ๊ณต๊ฐ์์ ๋จ ํ๋์ in-scene ๋น๋์ค ์์ฐ์ ์์งํฉ๋๋ค.
- Aria Gen 2 ๊ธ๋ผ์ค: ์ ๋ฉด RGB ์นด๋ฉ๋ผ, 4๊ฐ์ SLAM ์นด๋ฉ๋ผ, IMU๊ฐ ์ฅ์ฐฉ๋์ด ์ฌ์ฉ์ head pose ๋ฐ hand pose๋ฅผ ์ค์๊ฐ์ผ๋ก ์ถ์ ํฉ๋๋ค. Head pose๋ IMU์ ์ํด ์ธก์ ๋ gravity vector๋ฅผ ์ฌ์ฉํ์ฌ ์๋ ํ๋ ์์ด ์ด๊ธฐํ๋ฉ๋๋ค. ๋ฐ์ดํฐ๋ 10 Hz๋ก ๊ธฐ๋ก๋ฉ๋๋ค.
- In-scene ์์ฐ: ๋ก๋ด ํ๊ฒฝ์ RGB-D ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ ์์ง๋๋ฉฐ, Hamer๋ฅผ ํตํด 2D hand pose๋ฅผ ์ถ์ ํ๊ณ ์ผ๊ฐ์ธก๋(triangulation)์ ํตํด 3D pose๋ฅผ ์ป์ต๋๋ค.
- ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ ์ ๋ ฌ (Processing and Domain Alignment):
- Object Point Clouds ์ถ์ถ: ์ ์ฑ
ํ์ต ์ ๊ด์ธก๊ฐ์ผ๋ก object point clouds๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๋ฐฐ๊ฒฝ ๋ณํ์ ์ธ๊ฐ-๋ก๋ด ๊ฐ์ ์๊ฐ์ ์ฐจ์ด์ ๋ถ๋ณ์ฑ์ ์ ๊ณตํฉ๋๋ค.
- ์ด๊ธฐ ํ๋ ์์์ Grounded-SAM์ ์ฌ์ฉํ์ฌ ์ํธ์์ฉ ๊ฐ์ฒด๋ฅผ ๋ถํ ํฉ๋๋ค.
- CoTracker๋ฅผ ์ฌ์ฉํ์ฌ ๋ถํ ๋ ๊ฐ์ฒด๋ฅผ ํ๋ ์ ๊ฐ 2D object points๋ก ์ถ์ ํฉ๋๋ค.
- ์ด 2D points๋ฅผ 3D๋ก unprojectํฉ๋๋ค. In-scene ์์ฐ์ ๊ฒฝ์ฐ RGB-D ์นด๋ฉ๋ผ์ depth๋ฅผ ์ง์ ์ฌ์ฉํฉ๋๋ค. In-the-wild ์์ฐ์ ๊ฒฝ์ฐ, Aria ๊ธ๋ผ์ค๋ depth๋ฅผ ์ ๊ณตํ์ง ์์ผ๋ฏ๋ก, rectified stereo images์ ์นด๋ฉ๋ผ ๊ฐ์ baseline์ ์ฌ์ฉํ์ฌ Foundation-Stereo๋ฅผ ํตํด disparity map์ ์ถ์ ํฉ๋๋ค.
- Depth ๊ณ์ฐ: Z = \frac{f \cdot B}{d} (์ฌ๊ธฐ์ Z๋ depth, f๋ focal length, B๋ baseline, d๋ disparity map)
- Domain Alignment: Aria ๊ธ๋ผ์ค๋ก ์์ง๋ 3D object tracks๋ ์์ฐ๋ง๋ค ๋์ด์ ์ฌ์ฉ์ ์์ธ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ 3D points๋ฅผ ๋ก๋ด base frame์ผ๋ก ๋ณํํฉ๋๋ค.
- In-scene ์์ฐ์ ์ต์ปค(anchor)๋ก ์ฌ์ฉํ์ฌ, in-the-wild ์์ฐ์ ๊ฐ์ฒด ์ ๊ตฐ(O_t^w)๊ณผ ์๋ ์ ๊ตฐ(F_t^w)์ ๋ณํํฉ๋๋ค.
- ๋จผ์ , ์ฒซ ํ๋ ์์ ๊ฐ์ฒด ์ ๊ตฐ centroid ๊ฐ์ translation(\Delta O = O_0^s - O_0^w)์ ๊ณ์ฐํ์ฌ in-the-wild trajectory์ ์ ์ฉํฉ๋๋ค.
- ๋ค์์ผ๋ก, in-scene(F_0^s) ๋ฐ in-the-wild(F_0^w)์ ์ด๊ธฐ hand pose๋ฅผ ์ฌ์ฉํ์ฌ Kabsch ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ rigid transform์ ๊ณ์ฐํฉ๋๋ค. ์ฌ๊ธฐ์ z-์ถ ์ฃผ๋ณ์ ํ์ (R_z)์ ์ถ์ถํ๊ณ ์ด๋ฅผ in-the-wild ์์ฐ์ ์ ์ฉํฉ๋๋ค.
- ์ต์ข ๋ณํ๋ trajectory๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \hat{O}_t^w = R_z \cdot O_t^w + \Delta O \hat{F}_t^w = R_z \cdot F_t^w + \Delta O \hat{T}^w = \{ \hat{O}_t^w, \hat{F}_t^w \}
- Object Point Clouds ์ถ์ถ: ์ ์ฑ
ํ์ต ์ ๊ด์ธก๊ฐ์ผ๋ก object point clouds๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๋ฐฐ๊ฒฝ ๋ณํ์ ์ธ๊ฐ-๋ก๋ด ๊ฐ์ ์๊ฐ์ ์ฐจ์ด์ ๋ถ๋ณ์ฑ์ ์ ๊ณตํฉ๋๋ค.
- ์ ์ฑ
ํ์ต ๋ฐ ๋ฐฐํฌ (Policy Learning and Deployment):
- ์ ์ฑ
์ํคํ
์ฒ: Point-Policy [7]๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ Transformer-based point-cloud policy๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ์ ๋ ฅ: t-T_o๋ถํฐ t๊น์ง์ ์๋ trajectory F_{t-T_o:t}์ ๊ฐ์ฒด ์ ๊ตฐ O_{t-T_o:t} (์ฌ๊ธฐ์ T_o=10์ ๊ด์ธก ํ์คํ ๋ฆฌ).
- ์ถ๋ ฅ: t๋ถํฐ t+T_p๊น์ง์ ๋ฏธ๋ ์๋ trajectory \hat{F}_{t:t+T_p} (์ฌ๊ธฐ์ T_p=30์ ์์ธก horizon).
- Vector Neuron MLPs [52]๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ์ ์ ๊ด์ธก ํ์คํ ๋ฆฌ๋ฅผ ์ธ์ฝ๋ฉํ๋ฉฐ, ์ด๋ 3D ๊ธฐํํ์ ์ ๋ณด๋ฅผ ์ ํฌ์ฐฉํฉ๋๋ค.
- ์ธ์ฝ๋ฉ๋ ๋ฒกํฐ๋ Transformer Encoder์ ํ ํฐ์ผ๋ก ์ ๋ ฅ๋ฉ๋๋ค.
- ์๋ ํ ํฐ์ ๋ํด์๋ง Positional encoding์ ํ์ตํฉ๋๋ค.
- ์์ค ํจ์: ์์ธก๋ ์๋๊ณผ ground-truth ์๋ ๊ฐ์ Mean Squared Error (L_{MSE} = E[\|F_{t:t+T_p} - \hat{F}_{t:t+T_p}\|^2]).
- ์ผ๋ฐํ ๊ฐ์ : ํ์ต ์ค 3D translation, scaling, z-์ถ ์ฃผ๋ณ rotation์ ๋ฌด์์๋ก ์ ์ฉํ๋ augmentation๊ณผ ์ ๋ ฅ ์๋์ Gaussian noise๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํฉ๋๋ค.
- ๋ก๋ด ๋ฐฐํฌ (Robot Setup): Kinova Gen3 ๋ก๋ด ํ๊ณผ Psyonic Ability Hand (5๊ฐ์ ์๊ฐ๋ฝ)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. RealSense RGB-D ์นด๋ฉ๋ผ ๋ ๋๊ฐ ์์ ๊ณต๊ฐ ์ฃผ๋ณ์ ๋ฐฐ์น๋ฉ๋๋ค.
- ์ญ๊ธฐ๊ตฌํ (Inverse Kinematics, IK): ์ธ๊ฐ๊ณผ ๋ก๋ด์ ํ ๋ฐ ์์ kinematics๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ์ปค์คํ full arm-hand IK ๋ชจ๋ I๋ฅผ ๊ตฌํํฉ๋๋ค. ์ด ๋ชจ๋์ desired fingertips F_{t+1}์ ํ์ฌ ๋ก๋ด ์กฐ์ธํธ J^t๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ค์ ์กฐ์ธํธ ๊ฐ๋ J^{t+1} = I(F_{t+1}, J^t)๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
- ์ค์ฉ์ ๊ตฌํ ์ธ๋ถ์ฌํญ: grasping ์์ ์ ์ํด, ์์ธก๋ ์์ง์๊ฐ๋ฝ๊ณผ ๋ค๋ฅธ ์๊ฐ๋ฝ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ 5cm ๋ฏธ๋ง์ผ ๊ฒฝ์ฐ ์๊ฐ๋ฝ์ด ์๋ก ๊ฐ๊น์์ง๋๋ก ํ๋ grasping threshold๋ฅผ ์ค์ ํ์ฌ ์ธ๊ฐ์ grasping force๋ฅผ ๋ชจ๋ฐฉํฉ๋๋ค.
- ์ ์ฑ
์ํคํ
์ฒ: Point-Policy [7]๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ Transformer-based point-cloud policy๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ (Experimental Evaluation):
AINA๋ 9๊ฐ์ง ์ผ์ ์กฐ์ ์์ ์ ๋ํด ํ๊ฐ๋์์ต๋๋ค.
- ๋ฐ์ดํฐ ์ ํ์ ์ค์์ฑ: In-scene๊ณผ in-the-wild ๋ฐ์ดํฐ์ ๊ณต๋ ํ์ต์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. In-scene ๋จ๋ ์ ์ผ๋ฐํ๊ฐ ๋ถ์กฑํ๊ณ , in-the-wild ๋จ๋ ์ ๋ก๋ด ๋ฐฐํฌ ํ๊ฒฝ๊ณผ์ ๋ถ์ผ์น๋ก ์คํจ์จ์ด ๋์์ต๋๋ค. In-scene ์์ฐ์ in-the-wild ์์ฐ์ ๋ก๋ด ๊ณต๊ฐ์ผ๋ก ๋ณํํ๋ ๋ฐ ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํฉ๋๋ค.
- Image-based ์ ๊ทผ ๋ฐฉ์๊ณผ์ ๋น๊ต: AINA๋ Masked BAKU์ Masked BAKU with History์ ๊ฐ์ image-based baseline๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ธ๊ฐ์ ๋จธ๋ฆฌ ์์ง์์ผ๋ก ์ธํ ์์ ์ฐจ์ด๊ฐ image-based ๋ฐฉ์์ ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ง๋ ๋ฐ๋ฉด, AINA์ point cloud ์ ๋ ฅ๊ณผ alignment๋ ์ด๋ฌํ ๋ถ์ผ์น์ ๊ฐ์ธํจ์ ์ ์ฆํ์ต๋๋ค.
- ์์ ๊ณต๊ฐ ๋์ด ๋ณํ์ ๋ํ ๊ฐ์ธ์ฑ: AINA๋ ์์ ๊ณต๊ฐ์ ๋์ด๊ฐ ๋ฌ๋ผ์ ธ๋ (3๋จ๊ณ ๋์ด ์ค์ ) ๊ฐ์ธํ๊ฒ ์๋ํ๋ฉฐ, in-scene ์์ฐ์ ์ฌ์์งํ๋ฉด ์๋ก์ด ๋์ด์ ๋ง์ถฐ ์กฐ์ ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๋ค๋ฅธ ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ: ์ ์ฌํ ๋ชจ์์ ๊ฐ์ฒด(์: ํ ์คํฐ, ์ง์ฐ๊ฐ)์๋ ์ ์ผ๋ฐํ๋์ง๋ง, ๋ชจ์๊ณผ ๋ฌด๊ฒ๊ฐ ํฌ๊ฒ ๋ค๋ฅธ ๊ฐ์ฒด(์: ํ์ฝ ๋ด์ง, ๋ณด๋ ์ง์ฐ๊ฐ)์๋ ์ผ๋ฐํ์ ์ด๋ ค์์ ๊ฒช๋ ํ๊ณ๋ฅผ ๋ณด์์ต๋๋ค.
์ ํ ์ฌํญ ๋ฐ ๊ฒฐ๋ก (Limitations and Conclusion):
- Force Feedback ํตํฉ์ ์ด๋ ค์: ์ ํฌ์ฆ ์ถ์ ๋ง์ผ๋ก๋ ํ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ๊ธฐ ์ด๋ ค์ ์ ํํ dexterous manipulation์ ํ๊ณ๊ฐ ์์ต๋๋ค. EMG ์ผ์๋ force-estimating ์ฅ๊ฐ ๋ฑ์ ํตํฉ์ผ๋ก ํด๊ฒฐํ ์ ์์ต๋๋ค.
- ์ผ์ ๊ฐ ๋๊ธฐํ ๋ฌธ์ : Aria Gen 2 ๊ธ๋ผ์ค์ RGB์ SLAM ์นด๋ฉ๋ผ ๊ฐ shutter timing์ ๋ฏธ์ธํ ์ฐจ์ด๋ก ์ธํด ๋น ๋ฅธ ๋จธ๋ฆฌ ์์ง์ ์ ์ ๋ ฌ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ์ด๋ ๋ ๊ฒฌ๊ณ ํ 3D object tracking ์๊ณ ๋ฆฌ์ฆ์ด๋ mesh ํํ ์ถ์ ์ ํตํด ๊ฐ์ ๋ ์ ์์ต๋๋ค.
- ๋ฐฐํฌ ์ ๊ด์ธก ๋ถ์ผ์น: ํ์ฌ ๋ฐฐํฌ ์ Realsense ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ๋๋ฐ, Aria ๊ธ๋ผ์ค๋ก ์์ง๋ keypoints์ ์ฝ๊ฐ์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. FoundationStereo๋ฅผ ํตํ ์ค์๊ฐ depth ์ถ์ ์ ์ด๋ ค์ ๋๋ฌธ์ด๋ฉฐ, ์ต์ ํ๋ฅผ ํตํด ํด๊ฒฐ๋ ์ ์์ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, AINA๋ Aria Gen 2 ๊ธ๋ผ์ค์ ๊ธฐ๋ฅ์ ํ์ฉํ์ฌ ์ผ์ ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ๋ค์ง ๋ก๋ด ์ ์ฑ ์ ํ์ตํ๋ ์ ๋งํ ํ๋ ์์ํฌ์ ๋๋ค. ๋ก๋ด ๋ฐ์ดํฐ ์์ด 3D point-based policy๋ฅผ ์ฌ์ฉํ์ฌ ์ธ๊ฐ-๋ก๋ด embodiment gap์ ์ค์ด๊ณ ๋ฐฐ๊ฒฝ ๋ณํ์ ๊ฐ์ธํ ์กฐ์ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ์๋ก : ์ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ๊ฐ?
๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์์ ์ค๋ซ๋์ ๊ฟ๊ฟ์จ ๋ชฉํ๊ฐ ์์ต๋๋ค. ๋ฐ๋ก ์ธ๊ฐ์ด ์ผ์ ํ๊ฒฝ์์ ์ํํ๋ ์์ ์ ๊ด์ฐฐํ์ฌ ๋ก๋ด์ด ๋ค์ง(multi-fingered) ์กฐ์์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ด ๋ชฉํ๊ฐ ์คํ๋๋ค๋ฉด ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ(generalizability)์ด ํฌ๊ฒ ํฅ์๋ ๊ฒ์ด๋ฉฐ, ๋ฌด์๋ณด๋ค ๋ ธ๋ ์ง์ฝ์ ์ธ ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ๋ํ ์์กด๋๋ฅผ ๋ํญ ์ค์ผ ์ ์์ต๋๋ค.
ํ์ง๋ง ์ด ๋ชฉํ๋ฅผ ํฅํ ์ง์ ์ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ณ๋ชฉ์ผ๋ก ์ธํด ์ง์ฒด๋์ด ์์ต๋๋ค:
- ์ฒดํ ๊ฒฉ์ฐจ(Embodiment Gap): ์ธ๊ฐ์ ์๊ณผ ๋ก๋ด ํธ๋ ์ฌ์ด์ ํํํ์ , ์ญํ์ ์ฐจ์ด
- ๋งฅ๋ฝ ๋ฐ ๋ชจ์ ํ ์ถ์ถ์ ์ด๋ ค์: ์์ฐ ํ๊ฒฝ์์ ์ดฌ์๋ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ์์จ ์ ์ฑ ํ์ต์ ํ์ํ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ธฐ์ ์ ํ๊ณ
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ AINA(Autonomous Imitation of Natural Actions) ํ๋ ์์ํฌ๋ Meta์ Aria Gen 2 ์ค๋งํธ ์๊ฒฝ์ด๋ผ๋ ๊ฐ๋ ฅํ๋ฉด์๋ ๊ฐ๋จํ ํ๋์จ์ด์ ํ์ ์ ์ธ ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ๋ฅผ ๊ฒฐํฉํ์ฌ ์ด ๊ฟ์ ํ ๊ฑธ์ ๋ ๊ฐ๊น์ด ๋ค๊ฐ๊ฐ์์ ๋ณด์ฌ์ค๋๋ค.
โThe most profound technologies are those that disappear. They weave themselves into the fabric of everyday life until they are indistinguishable from it.โ - Mark Weiser
๋ ผ๋ฌธ์ ์ ์๋ค์ ์ด ์ธ์ฉ๊ตฌ๋ก ์์ํ๋ฉฐ, AINA๊ฐ ๊ถ๊ทน์ ์ผ๋ก ์ถ๊ตฌํ๋ ๋ฐฉํฅ์ฑ์ ์์ํฉ๋๋ค. ๊ธฐ์ ์ด ์ผ์์ ์ค๋ฉฐ๋ค์ด ์ฌ๋ผ์ง๋ฏ, ๋ก๋ด์ด ์ธ๊ฐ์ ์ผ์์ ํ๋์ ์์ฐ์ค๋ฝ๊ฒ ๊ด์ฐฐํ๊ณ ํ์ตํ ์ ์๋ ๋ฏธ๋๋ฅผ ๊ทธ๋ฆฌ๊ณ ์๋ ๊ฒ์ ๋๋ค.
2. ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ : ์ AINA์ธ๊ฐ?
2.1 ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ํ๊ณ
๋ค์ง ๋ก๋ด ํธ๋์ ์ ์ฑ ํ์ต์ ํฌ๊ฒ ์ธ ๊ฐ์ง ์ ๊ทผ๋ฒ์ผ๋ก ๋๋ ์ ์์ต๋๋ค:
(1) ํ ๋ ์คํผ๋ ์ด์ ๊ธฐ๋ฐ ํ์ต
- ๋์ ํ์ง์ ๋ฐ๋ชจ ๋ฐ์ดํฐ ํ๋ ๊ฐ๋ฅ
- ๋จ์ : ๋ค์ง ํธ๋์ ๋์ ์์ ๋(DoF)๋ก ์ธํด ํ ๋ ์คํผ๋ ์ด์ ์์ฒด๊ฐ ๋งค์ฐ ์ด๋ ค์
- ๋ ์๊ฐ๋ฝ ๊ทธ๋ฆฌํผ๋ ์์ฒ ๊ฐ์ ๋ฐ๋ชจ๊ฐ ํ์ํ๋ฐ, ๋ค์ง ํธ๋๋ ๋์ฑ ๋ง์ ๋ฐ์ดํฐ ์๊ตฌ
- ์ ์ง์ฐ(low-latency) ์ฐ์ ํผ๋๋ฐฑ ์์คํ ๊ตฌ์ถ์ด ๊ธฐ์ ์ ์ผ๋ก ๋ํด
(2) ๊ฐํํ์ต(RL) ๊ธฐ๋ฐ ํ์ต
- ์๋ฎฌ๋ ์ด์ ์์ ์ ์ฑ ํ์ต ํ ์ค์ ๋ก๋ด์ ์ ์ด
- ๋จ์ : sim-to-real ๊ฒฉ์ฐจ, ๋ณด์ ํจ์ ์ค๊ณ์ ์ด๋ ค์
- HuDOR๊ณผ ๊ฐ์ ์ฐ๊ตฌ์์๋ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ๋ณด์์ ์ถ์ถํ์ฌ RL๋ก ์ ์ฑ ๊ฐ์
(3) ์ธ๊ฐ ๋น๋์ค ๊ธฐ๋ฐ ํ์ต
- ๊ฐ์ฅ ํ์ฅ ๊ฐ๋ฅํ(scalable) ์ ๊ทผ๋ฒ
- ๋จ์ : ๋๋ถ๋ถ์ ๊ธฐ์กด ์ฐ๊ตฌ๋ in-domain ๋ฐ์ดํฐ ํ์ (๋ก๋ด ํ๊ฒฝ์์ ์์ง)
- in-the-wild ๋ฐ์ดํฐ ํ์ฉ ์ ๋ฐฐ๊ฒฝ, ์์ , ์กฐ๋ช ๋ณํ์ ์ทจ์ฝ
2.2 AINA์ ํต์ฌ ๊ธฐ์ฌ
AINA๋ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ์ ์ธ ์ฐจ๋ณ์ ์ ์ ์ํฉ๋๋ค:
| ํน์ง | ๊ธฐ์กด ์ฐ๊ตฌ | AINA |
|---|---|---|
| ๋ก๋ด ๋ฐ์ดํฐ ํ์ ์ฌ๋ถ | ํ์ (์จ๋ผ์ธ ๊ต์ , RL, ์๋ฎฌ๋ ์ด์ ) | ๋ถํ์ |
| ๋ฐ์ดํฐ ์์ง ํ๊ฒฝ | In-domain (๋ก๋ด workspace) | In-the-wild (์ด๋์๋ ) |
| ์ ์ฑ ํํ | 2D ์ด๋ฏธ์ง ๊ธฐ๋ฐ | 3D ํฌ์ธํธ ๊ธฐ๋ฐ |
| ๋ฐฐ๊ฒฝ ๋ณํ ๊ฐ๊ฑด์ฑ | ์ทจ์ฝ | ๊ฐ๊ฑด |
| ์ ์ถ์ ๋ฐฉ์ | ์ธ๋ถ ์ผ์/์ถ์ | ์จ๋ณด๋ ์ถ์ (Aria Gen 2) |
| ๊น์ด ์ ๋ณด ํ๋ | RGB-D ์นด๋ฉ๋ผ ํ์ | ์คํ ๋ ์ค ๊น์ด ์ถ์ |
3. ๊ธฐ์ ์ ๊น์ด ํ๊ตฌ: AINA ํ๋ ์์ํฌ ์์ธ ๋ถ์
3.1 ์ ์ฒด ํ์ดํ๋ผ์ธ ๊ฐ์
AINA์ ์ํฌํ๋ก์ฐ๋ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
[1๋จ๊ณ] ๋ฐ์ดํฐ ์์ง
โ Aria Gen 2 ์ค๋งํธ ์๊ฒฝ
โ In-the-wild + ๋จ์ผ In-scene ๋ฐ๋ชจ
[2๋จ๊ณ] ๋ฐ์ดํฐ ์ฒ๋ฆฌ
โ 3D ์ ํฌ์ฆ ์ถ์ถ (์จ๋ณด๋)
โ ์คํ
๋ ์ค ๊น์ด ์ถ์ (FoundationStereo)
โ 2D ๊ฐ์ฒด ์ถ์ โ 3D ์ธํ๋ก์ ์
โ ๋๋ฉ์ธ ์ ๋ ฌ (Translation + Rotation)
[3๋จ๊ณ] ์ ์ฑ
ํ์ต ๋ฐ ๋ฐฐํฌ
โ Vector Neuron MLP (SO(3)-equivariant)
โ Transformer Encoder
โ Fingertip Trajectory Prediction
โ Inverse Kinematics โ Robot Deployment
3.2 Aria Gen 2 ์ค๋งํธ ์๊ฒฝ: ๊ฒ์ ์ฒด์ธ์
AINA์ ์ฑ๊ณต์์ ํต์ฌ์ ์ธ ์ญํ ์ ํ๋ ๊ฒ์ด ๋ฐ๋ก Meta์ Project Aria Gen 2 ์๊ฒฝ์ ๋๋ค. ์ด ๋๋ฐ์ด์ค๊ฐ ์ ์ค์ํ์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
ํ๋์จ์ด ์ฌ์
| ๊ตฌ์ฑ์์ | ์ฌ์ |
|---|---|
| RGB ์นด๋ฉ๋ผ | ๊ณ ํด์๋ ์ ๋ฉด ์นด๋ฉ๋ผ |
| SLAM ์นด๋ฉ๋ผ | 4๊ฐ (6DOF ์์น ์ถ์ ์ฉ) |
| Eye Tracking | ๋ด์ฅ (2๊ฐ ์นด๋ฉ๋ผ) |
| ์จ๋ณด๋ ์ฒ๋ฆฌ | SLAM, Hand Tracking, Eye Tracking |
| ๋ฌด๊ฒ | ์ฝ 75g |
| ๋ฐฐํฐ๋ฆฌ | 6-8์๊ฐ ์ฐ์ ์ฌ์ฉ |
| ํน์ ์ผ์ | PPG (์ฌ๋ฐ), Contact Microphone |
AINA์์์ ํ์ฉ
์จ๋ณด๋ 3D ์ ํฌ์ฆ ์ถ์ : Gen 2๋ ์์ฒด ์นฉ์ ์ผ๋ก ์ค์๊ฐ ์ ์ถ์ ์ ์ํํฉ๋๋ค. ์ด๋ ์ธ๋ถ ์ผ์๋ ๋ณต์กํ ํ์ฒ๋ฆฌ ์์ด๋ ์ ํํ 3D ์ ๊ด์ ์์น๋ฅผ ์ ๊ณตํฉ๋๋ค.
ํค๋ ํฌ์ฆ ์ถ์ : SLAM ์นด๋ฉ๋ผ๋ฅผ ํตํด ์ฐฉ์ฉ์์ ๋จธ๋ฆฌ ์์น์ ๋ฐฉํฅ์ 6DOF๋ก ์ถ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์๋ ํ๋ ์์์์ ์ ์์น๋ฅผ ๊ณ์ฐํ ์ ์์ต๋๋ค.
์คํ ๋ ์ค ๊น์ด ์ถ์ : ์ข์ฐ SLAM ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ฅผ ํ์ฉํ์ฌ ์ฌ์ ๊น์ด ๋งต์ ์ถ์ ํฉ๋๋ค. ๋ ผ๋ฌธ์์๋ FoundationStereo๋ฅผ ์ฌ์ฉํฉ๋๋ค.
ํฌํฐ๋ธ ๋ฐ์ดํฐ ์์ง: ๊ฐ๋ฒผ์ด ๋ฌด๊ฒ์ ๊ธด ๋ฐฐํฐ๋ฆฌ ์๋ช ์ผ๋ก ์ด๋์๋ ์์ฐ์ค๋ฌ์ด ๋ฐ์ดํฐ ์์ง์ด ๊ฐ๋ฅํฉ๋๋ค.
3.3 ๋ฐ์ดํฐ ์์ง ๋ฐ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ
3.3.1 In-the-Wild ๋ฐ์ดํฐ ์์ง
์ฌ์ฉ์๋ Aria Gen 2 ์๊ฒฝ์ ์ฐฉ์ฉํ๊ณ ์์์ ํ๊ฒฝ(๋ถ์, ์ฌ๋ฌด์ค, ์คํ์ค ๋ฑ)์์ ์์ ์ ์ํํฉ๋๋ค. ์ด๋ ํน๋ณํ ๋ง์ปค๋ ํต์ ๋ ์กฐ๋ช ์ด ํ์ ์์ต๋๋ค.
์์ง๋๋ ๋ฐ์ดํฐ: - RGB ๋น๋์ค ์คํธ๋ฆผ - ์จ๋ณด๋ ์ถ์ ๋ 3D ์ ํฌ์ฆ (fingertip ์์น ํฌํจ) - ํค๋ ํฌ์ฆ (์๋ ํ๋ ์ ๊ธฐ์ค) - ์คํ ๋ ์ค SLAM ์นด๋ฉ๋ผ ์ด๋ฏธ์ง
3.3.2 3D ๊ฐ์ฒด ์ถ์
๊ฐ์ฒด์ 3D ์์น๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ๋ค์ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค:
- 2D ๊ฐ์ฒด ๋ถํ : ์ธ์ด ํ๋กฌํํธ ๊ธฐ๋ฐ off-the-shelf ์ปดํจํฐ ๋น์ ๋ชจ๋ธ ์ฌ์ฉ
- ์คํ ๋ ์ค ๊น์ด ์ถ์ : FoundationStereo๋ฅผ ์ฌ์ฉํ์ฌ SLAM ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ก๋ถํฐ ๊น์ด ๋งต ์์ฑ
- 3D ์ธํ๋ก์ ์ : 2D ๊ฐ์ฒด ๋ง์คํฌ๋ฅผ ๊น์ด ๋งต๊ณผ ๊ฒฐํฉํ์ฌ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ ํ๋
FoundationStereo ์ ํ ์ด์ : - NVIDIA์์ ๊ฐ๋ฐํ zero-shot ์คํ ๋ ์ค ๋งค์นญ foundation model - 1M ์คํ ๋ ์ค ์์ผ๋ก ํ์ต, ๋์ ์ผ๋ฐํ ์ฑ๋ฅ - CVPR 2025 Best Paper Nomination - Middlebury, ETH3D ๋ฒค์น๋งํฌ 1์
3.3.3 ๋๋ฉ์ธ ์ ๋ ฌ (Critical Step!)
In-the-wild ๋ฐ์ดํฐ์ ๋ก๋ด ํ๊ฒฝ ์ฌ์ด์ ๊ณต๊ฐ์ ์ ๋ ฌ์ AINA์ ํต์ฌ์ ๋๋ค. ์ด๋ฅผ ์ํด ๋จ์ผ in-scene ๋ฐ๋ชจ๋ฅผ ์ต์ปค๋ก ์ฌ์ฉํฉ๋๋ค.
์ ๋ ฌ ๊ณผ์ :
Translation ์ ๋ ฌ: ๋ชจ๋ ๋ฐ๋ชจ์ ์ง๋ ์ค์ฌ(Center of Mass)์ ์ผ์น์ํด
O_aligned = O - CoM(O) + CoM(O_inscene) F_aligned = F - CoM(F) + CoM(F_inscene)Rotation ์ ๋ ฌ: ์ค๋ ฅ์ถ(gravity axis)์ ๊ธฐ์ค์ผ๋ก ํ์ ์ ๋ ฌ
- ์๋ ํ๋ ์์ด ๋ฐ์ดํฐ ์์ง ์ ์์๋ก ์ด๊ธฐํ๋๋ฏ๋ก ํ์ ๋ณด์ ํ์
- ์์ ๋ฐฉํฅ ๋ฒกํฐ๋ฅผ in-scene ๋ฐ๋ชจ์ ๋ง์ถค
์ ๋ ฌํ์ง ์์ผ๋ฉด ๋ฐ์ํ๋ ๋ฌธ์ : - ๊ฐ์ฒด ์์น๊ฐ ์ฌ๊ฐํ๊ฒ ์ด๊ธ๋จ - ์์ ๋ฐฉํฅ์ด ์์ ํ ๋ฐ๋๊ฐ ๋ ์ ์์ - ์ ์ฑ ์ด ์๋ชป๋ ๊ณต๊ฐ ๊ด๊ณ๋ฅผ ํ์ต
3.4 ์ ์ฑ ๋คํธ์ํฌ ์ํคํ ์ฒ
AINA์ ์ ์ฑ ๋คํธ์ํฌ๋ Point-Policy ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, 3D ํฌ์ธํธ ๊ธฐ๋ฐ ํํ์ ์ฅ์ ์ ์ต๋ํ ํ์ฉํฉ๋๋ค.
3.4.1 ์ ๋ ฅ ํํ
- Fingertip Points: F_{t-T_o:t} \in \mathbb{R}^{T_o \times 5 \times 3}
- T_o = 10: ๊ด์ธก ํ์คํ ๋ฆฌ ๊ธธ์ด
- 5๊ฐ fingertip (์์ง + 4์๊ฐ๋ฝ)
- Object Points: O_{t-T_o:t} \in \mathbb{R}^{T_o \times N \times 3}
- N: ๊ฐ์ฒด ํฌ์ธํธ ๊ฐ์
3.4.2 Vector Neuron MLP
AINA์์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ํคํ ์ฒ ์ ํ ์ค ํ๋๋ Vector Neuron MLP์ ์ฌ์ฉ์ ๋๋ค. ์ด๋ SO(3)-equivariant ์ ๊ฒฝ๋ง์ผ๋ก, 3D ํ์ ์ ๋ํ ๋ฑ๋ณ์ฑ์ ๋ณด์ฅํฉ๋๋ค.
Vector Neuron์ ํต์ฌ ์์ด๋์ด: - ๊ธฐ์กด MLP: ์ค์นผ๋ผ ๋ด๋ฐ z \in \mathbb{R} - Vector Neuron: ๋ฒกํฐ ๋ด๋ฐ \mathbf{v} \in \mathbb{R}^3
์ํ์ ์ ์:
์ฌ๊ธฐ์ \mathbf{V} \in \mathbb{R}^{C \times 3}๋ ๋ฒกํฐ ๋ด๋ฐ๋ค์ ํ๋ ฌ์ ๋๋ค.
SO(3)-Equivariance ์ฆ๋ช :
์ฆ, ์ ๋ ฅ์ ํ์ \mathbf{R}์ ์ ์ฉํ๋ฉด ์ถ๋ ฅ์๋ ๋์ผํ ํ์ ์ด ์ ์ฉ๋ฉ๋๋ค.
VN-ReLU (๋น์ ํ ํ์ฑํ): ์ผ๋ฐ์ ์ธ ReLU๋ ๋ฑ๋ณ์ฑ์ ๊นจ๋จ๋ฆฝ๋๋ค. ๋ฐ๋ผ์ ํน์ํ๊ฒ ์ค๊ณ๋ VN-ReLU๋ฅผ ์ฌ์ฉํฉ๋๋ค:
์ฌ๊ธฐ์ \mathbf{k} = \mathbf{U}\mathbf{V}๋ ํ์ต๋ ๋ฐฉํฅ ๋ฒกํฐ์ ๋๋ค.
AINA์์์ ํจ๊ณผ: - ๋ฐฐ๊ฒฝ clutter์ ๋ํ ๊ฐ๊ฑด์ฑ ํฅ์ - ๋ค์ํ ์์ ์์ ์์ง๋ ๋ฐ์ดํฐ ํ์ฉ ๊ฐ๋ฅ - ๋ก๋ด ๋ฐฐํฌ ํ๊ฒฝ์ ๋ณํ์ ์ ์
3.4.3 Transformer Encoder
Vector Neuron MLP๋ก ์ธ์ฝ๋ฉ๋ ํฌ์ธํธ ํน์ง๋ค์ Transformer Encoder์ ์ ๋ ฅ๋ฉ๋๋ค.
์ํคํ ์ฒ ์ธ๋ถ์ฌํญ: - ๊ฐ ํฌ์ธํธ์ ํ์คํ ๋ฆฌ๋ฅผ ๋จ์ผ ๋ฒกํฐ๋ก ์์ถ (VN-MLP) - Fingertip๊ณผ Object ํฌ์ธํธ๋ฅผ ๋ณ๋ ํ ํฐ์ผ๋ก ์ฒ๋ฆฌ - ํต์ฌ: Fingertip ํ ํฐ์๋ง learned positional encoding ์ ์ฉ - ์ด์ : Fingertip๋ง ๋ฐ๋ชจ ๊ฐ ๋์(correspondence) ๊ด๊ณ๊ฐ ์กด์ฌ - Object ํฌ์ธํธ๋ ๋ฐ๋ชจ๋ง๋ค ๋ค๋ฅผ ์ ์์
์ถ๋ ฅ: - Transformer ์ถ๋ ฅ์ MLP์ ํต๊ณผ์์ผ ๋ฏธ๋ fingertip trajectory ์์ธก - ์์ธก horizon: T_p = 30 steps
3.4.4 ์์ค ํจ์
๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ MSE ์์ค ์ฌ์ฉ:
3.5 ๋ก๋ด ๋ฐฐํฌ
3.5.1 Fingertip to Joint Angle ๋ณํ
์์ธก๋ fingertip trajectory๋ฅผ ๋ก๋ด์ ๋ฐฐํฌํ๊ธฐ ์ํด:
- Allegro Hand Forward Kinematics (FK)๋ฅผ ์ฌ์ฉํ์ฌ ํ์ฌ fingertip ์์น ๊ณ์ฐ
- Inverse Kinematics (IK) ์ต์ ํ๋ก ๋ชฉํ fingertip ์์น์ ํด๋นํ๋ ๊ด์ ๊ฐ ๊ณ์ฐ
- ๊ด์ ๊ฐ์ ๋ก๋ด ์ปจํธ๋กค๋ฌ์ ์ ์ก
3.5.2 Grasping Threshold
์ธ๊ฐ ๋ฐ๋ชจ์๋ ํ(force) ์ ๋ณด๊ฐ ์์ผ๋ฏ๋ก, grasping ์์ ์ ์ํ ํด๋ฆฌ์คํฑ ์ ์ฉ: - Fingertip ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ์๊ณ๊ฐ ์ดํ๋ก ๊ฐ์ํ๋ฉด grasping ์์ - Grasping ์ค์๋ fingertip ์์น๋ฅผ ๊ณ ์
4. ์คํ ๊ฒฐ๊ณผ ๋ถ์
4.1 ํ์คํฌ ๋ฐ ์ค์
AINA๋ 9๊ฐ์ง ์ผ์ ์กฐ์ ํ์คํฌ์์ ํ๊ฐ๋์์ต๋๋ค:
| ํ์คํฌ | ์ค๋ช | ๋์ด๋ |
|---|---|---|
| Stowing | ๋ฌผ์ฒด๋ฅผ ์์์ ๋ฃ๊ธฐ | ์ค |
| Oven Turning | ์ค๋ธ ๋ค์ด์ผ ๋๋ฆฌ๊ธฐ | ์ค |
| Oven Opening | ์ค๋ธ ๋ฌธ ์ด๊ธฐ | ๊ณ |
| Drawer Opening | ์๋ ์ด๊ธฐ | ๊ณ |
| Cup Pouring | ์ปต ๊ธฐ์ธ์ฌ ๋ถ๊ธฐ | ๊ณ |
| Planar Reorientation | ํ๋ฉด์์ ๊ฐ์ฒด ํ์ | ์ค |
| Toaster Press | ํ ์คํฐ ๋ ๋ฒ ๋๋ฅด๊ธฐ | ์ |
| Toy Picking | ์ฅ๋๊ฐ ์ง์ด์ ์ฎ๊ธฐ๊ธฐ | ์ |
| Wiping | ๋ฆ๊ธฐ ๋์ | ์ |
๋ก๋ด ์ค์ : - 6-DoF Kinova JACO ๋ก๋ด ํ - 16-DoF Allegro Hand (4์๊ฐ๋ฝ)
4.2 ๋ฒ ์ด์ค๋ผ์ธ ๋น๊ต
Table I: ๋ฐ์ดํฐ ๊ตฌ์ฑ๋ณ ์ฑ๋ฅ ๋น๊ต
| ๋ฐฉ๋ฒ | Toaster Press | Toy Picking |
|---|---|---|
| In-Scene Only | 3/10 (30%) | 1/10 (10%) |
| In-The-Wild Only | 0/10 (0%) | 0/10 (0%) |
| In-Scene Transform & In-The-Wild | 0/10 (0%) | 1/10 (10%) |
| In-Scene Training & In-The-Wild | 6/10 (60%) | 2/10 (20%) |
| AINA | 13/15 (87%) | 13/15 (87%) |
ํต์ฌ ํต์ฐฐ: - In-the-wild ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ํ์ต ๋ถ๊ฐ (๋๋ฉ์ธ ๊ฒฉ์ฐจ) - In-scene ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋ฐ์ดํฐ ๋ถ์กฑ - AINA์ ์ ๋ ฌ ์ ๋ต์ด ๋ ๋ฐ์ดํฐ์ ์๋์ง๋ฅผ ์ฐฝ์ถ
Table II: RGB ์ ๋ ฅ ๋ฒ ์ด์ค๋ผ์ธ ๋น๊ต
| ๋ฐฉ๋ฒ | Oven Opening | Drawer Opening |
|---|---|---|
| Masked BAKU | 6/15 (40%) | 1/15 (7%) |
| Masked BAKU with History | 0/15 (0%) | 0/15 (0%) |
| AINA | 12/15 (80%) | 11/15 (73%) |
๋ถ์: - RGB ๊ธฐ๋ฐ ์ ์ฑ (BAKU)์ ๋ฐฐ๊ฒฝ ๋ณํ์ ๋ฏผ๊ฐ - ๋ง์คํน์ ์ ์ฉํด๋ ์ฑ๋ฅ ์ ํ์ - 3D ํฌ์ธํธ ๊ธฐ๋ฐ ํํ์ ์ฐ์์ฑ ์ ์ฆ
4.3 ์ผ๋ฐํ ์คํ
4.3.1 ๋์ด ์ผ๋ฐํ
์์ ๊ณต๊ฐ์ ๋์ด๊ฐ ๋ณํ ๋ AINA์ ์ ์๋ ฅ์ ํ๊ฐ:
Toy Picking: - Height 1: 5/10 (50%) - Height 2: 6/10 (60%) - Height 3: 2/10 (20%)
Wiping: - Height 1: 5/10 (50%) - Height 2: 5/10 (50%) - Height 3: 8/10 (80%)
๋ถ์: - ์๋ก์ด ๋์ด์์ ์ถ๊ฐ in-scene ๋ฐ๋ชจ 1๊ฐ๋ก ์ ์ฑ ์ฌํ์ต - ์ต์ํ์ ์ธ๊ฐ ๋ ธ๋ ฅ์ผ๋ก ๋์ด ๋ณํ์ ์ ์ - Height 3์์ Toy Picking ์ฑ๋ฅ ์ ํ๋ ์์ ๋์ด๋ ์ฆ๊ฐ ๋๋ฌธ
4.3.2 ๊ฐ์ฒด ์ผ๋ฐํ
ํ์ต ์ ๋ณด์ง ๋ชปํ ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ:
Toy Picking: - Popcorn Package, Bowl: 1/10 (10%) - Toy, Bowl: 2/10 (20%)
Wiping: - Sponge: 7/10 (70%) - Eraser: 5/10 (50%)
Toaster: - Different Toaster: 6/10 (60%)
๋ถ์: - ๋น์ทํ ํํ/๋ฌด๊ฒ์ ๊ฐ์ฒด์๋ ์๋์ ์ผ๋ก ์ ์ผ๋ฐํ - ํํ/๋ฌด๊ฒ๊ฐ ํฌ๊ฒ ๋ค๋ฅธ ๊ฒฝ์ฐ ์คํจ ์ฆ๊ฐ - ์ธ์ด ํ๋กฌํํธ๋ฅผ ํตํ ๊ฐ์ฒด ๋ถํ ์ด ์ผ๋ฐํ์ ๊ธฐ์ฌ
5. ๊ธฐ์ ์ ์ฌ์ธต ๋ถ์
5.1 ์ 3D ํฌ์ธํธ ๊ธฐ๋ฐ ํํ์ธ๊ฐ?
AINA๊ฐ RGB ์ด๋ฏธ์ง ๋์ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋ฅผ ๊น์ด ๋ถ์ํด๋ณด๊ฒ ์ต๋๋ค.
(1) ๋ฐฐ๊ฒฝ ๋ถ๋ณ์ฑ (Background Invariance)
RGB ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ทผ๋ณธ์ ๋ฌธ์ :
์
๋ ฅ: I_rgb โ R^(HรWร3)
โ ๋ฐฐ๊ฒฝ, ์กฐ๋ช
, ํ
์ค์ฒ ๋ชจ๋ ํฌํจ
โ ์ ์ฑ
์ด ๋ฐฐ๊ฒฝ ํจํด์ ๊ณผ์ ํฉ
โ ์๋ก์ด ํ๊ฒฝ์์ ์คํจ
3D ํฌ์ธํธ ๊ธฐ๋ฐ ์ ๊ทผ:
์
๋ ฅ: P_object โ R^(Nร3), P_fingertip โ R^(5ร3)
โ ๊ธฐํํ์ ์ ๋ณด๋ง ํฌํจ
โ ๋ฐฐ๊ฒฝ ์ ๋ณด ์๋ ๋ฐฐ์
โ ํ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑด
(2) ์ฒดํ ๊ฒฉ์ฐจ ์ต์ํ
์ธ๊ฐ ์๊ณผ ๋ก๋ด ํธ๋์ ์ฐจ์ด: - ํํํ์ ์ฐจ์ด (์๊ฐ๋ฝ ๊ฐ์, ๊ธธ์ด, ๊ด์ ๊ตฌ์กฐ) - ์ด๋ํ์ ์ฐจ์ด (์์ ๊ณต๊ฐ, ๊ด์ ๋ฒ์)
Fingertip ํํ์ ์ฅ์ : - ์ ์ ์ฒด๊ฐ ์๋ ์ ์ด์ (fingertips)์๋ง ์ง์ค - ์ธ๊ฐ 5๊ฐ ์๊ฐ๋ฝ โ Allegro 4๊ฐ ์๊ฐ๋ฝ + ์์ง ๋งคํ ๊ฐ๋ฅ - ํํ๋ณด๋ค ๊ธฐ๋ฅ์ ์ ์ฌ์ฑ์ ๊ธฐ๋ฐ
(3) SO(3) Equivariance์ ์์ฐ์ค๋ฌ์ด ํตํฉ
3D ํฌ์ธํธ๋ Vector Neuron๊ณผ ์์ฐ์ค๋ฝ๊ฒ ๊ฒฐํฉ:
P โ R^(Nร3) โ VN-MLP โ F โ R^(Cร3)
์ ๋ ฅ ํฌ์ธํธ์ ํ์ R ์ ์ฉ:
PR โ VN-MLP โ FR
์ฆ, ํ์ ๋ ์ ๋ ฅ์ ํ์ ๋ ์ถ๋ ฅ์ ์์ฑ โ ์์ ๋ณํ์ ์๋ ์ ์
5.2 In-Scene ๋ฐ๋ชจ์ ์ญํ
AINA์์ ๋จ์ผ in-scene ๋ฐ๋ชจ๋ ๊ฒฐ์ ์ ์ญํ ์ ํฉ๋๋ค:
- ๊ณต๊ฐ์ ์ต์ปค ์ ๊ณต: In-the-wild ๋ฐ๋ชจ์ ์ขํ๊ณ๋ฅผ ๋ก๋ด ํ๊ฒฝ์ ์ ๋ ฌ
- ์ค์ผ์ผ ์ฐธ์กฐ: ์ ๋์ ํฌ๊ธฐ ์ ๋ณด ์ ๊ณต
- ํ๊ฒฝ ์ปจํ ์คํธ: ๋ก๋ด ๋ฐฐํฌ ํ๊ฒฝ์ ํน์ฑ ๋ฐ์
๋น์ : > In-scene ๋ฐ๋ชจ ์๋ AINA = ์ง๋ ์์ด ์ธ๊ตญ ์ฌํ > In-scene ๋ฐ๋ชจ ์๋ AINA = ํ์ง์ธ ๊ฐ์ด๋์ ํจ๊ปํ๋ ์ฌํ
5.3 FoundationStereo ์ ํ์ ์๋ฏธ
AINA๊ฐ ๊น์ด ์ถ์ ์ FoundationStereo๋ฅผ ์ ํํ ๊ฒ์ ์ ๋ต์ ์ ๋๋ค:
๊ธฐ์กด ๋์๋ค์ ํ๊ณ: - Monocular depth: ์ค์ผ์ผ ๋ชจํธ์ฑ, ์ ํ๋ ์ ํ - RGB-D ์นด๋ฉ๋ผ: ์ถ๊ฐ ํ๋์จ์ด ํ์, ํด๋์ฑ ์ ํ - ๊ธฐ์กด ์คํ ๋ ์ค ๋งค์นญ: ๋๋ฉ์ธ ํนํ, ์ผ๋ฐํ ์ด๋ ค์
FoundationStereo์ ์ฅ์ : - Zero-shot ์ผ๋ฐํ: in-the-wild ํ๊ฒฝ์์ ์ฆ์ ์๋ - ๋์ ์ ํ๋: KITTI, Middlebury, ETH3D ๋ฒค์น๋งํฌ SOTA - Side-tuning adapter: DepthAnythingV2์ ์ฌ์ ํ์ต ์ง์ ํ์ฉ
5.4 ์คํจ ๋ชจ๋ ๋ถ์
๋ ผ๋ฌธ์์ ๋ช ์์ ์ผ๋ก ์ธ๊ธํ์ง ์์ง๋ง, ์์ธก ๊ฐ๋ฅํ ์คํจ ๋ชจ๋๋ค:
- Occlusion: ์์ด๋ ๊ฐ์ฒด๊ฐ ๊ฐ๋ ค์ง ๋ 3D ์ถ์ ์คํจ
- Fast Motion: ๋น ๋ฅธ ๋์์์ ๋ชจ์ ๋ธ๋ฌ๋ก ์ธํ ์ถ์ ์ค๋ฅ
- Transparent/Reflective Objects: ๊น์ด ์ถ์ ์ ๊ทผ๋ณธ์ ํ๊ณ
- Novel Object Shapes: ํ์ต ๋ถํฌ์์ ํฌ๊ฒ ๋ฒ์ด๋ ๊ฐ์ฒด
- Force-sensitive Tasks: ํ ์ ๋ณด ์์ด ์ ๋ฐ ์กฐ๋ฆฝ ๋ฑ์ ์ด๋ ค์
6. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
6.1 HuDOR (Human Demonstration to Robot)
HuDOR๋ AINA์ ๊ฐ์ฅ ์ง์ ์ ์ผ๋ก ๋น๊ต๋๋ ์ฐ๊ตฌ์ ๋๋ค.
| ์ธก๋ฉด | HuDOR | AINA |
|---|---|---|
| ๋ฐ์ดํฐ ์์ค | ๋จ์ผ in-scene ์ธ๊ฐ ๋น๋์ค | In-the-wild + In-scene |
| ํ์ต ๋ฐฉ์ | RL ๊ธฐ๋ฐ ์ ์ฑ ๊ฐ์ | ์์ Imitation Learning |
| ๋ก๋ด ๋ฐ์ดํฐ | ํ์ (RL ๊ณผ์ ) | ๋ถํ์ |
| ๋ณด์ ์ค๊ณ | ๊ฐ์ฒด ๋ชจ์ ์ ์ฌ๋ ๊ธฐ๋ฐ | N/A (supervised) |
| ํ์ฅ์ฑ | ์ ํ์ (RL ๋น์ฉ) | ๋์ (๋ฐ๋ชจ ์ ์ฆ๊ฐ๋ง) |
HuDOR์ ๊ฐ์ : - RL์ ํตํด ๋ก๋ด ์ญํ์ ์ ์ - ๋จ์ผ ๋น๋์ค๋ก๋ ์๋
AINA์ ๊ฐ์ : - ๋ก๋ด ์ํธ์์ฉ ์์ด ์คํ๋ผ์ธ ํ์ต - In-the-wild ๋ฐ์ดํฐ ํ์ฉ์ผ๋ก ๋ค์์ฑ ์ฆ๊ฐ - ๋ ๋จ์ํ ํ์ดํ๋ผ์ธ
6.2 UMI (Universal Manipulation Interface)
UMI๋ ๋ฒ์ฉ ์กฐ์ ์ธํฐํ์ด์ค๋ฅผ ์ ์ํ ์ฐ๊ตฌ์ ๋๋ค.
| ์ธก๋ฉด | UMI | AINA |
|---|---|---|
| ์ธํฐํ์ด์ค | ์ปค์คํ ํธ๋ํฌ๋ ๊ทธ๋ฆฌํผ | Aria Gen 2 ์๊ฒฝ |
| ํ๊ฒ ๋ก๋ด | ์ฃผ๋ก 2D ๊ทธ๋ฆฌํผ | ๋ค์ง ํธ๋ |
| ๋ฐ์ดํฐ ์์ง ๋ฐฉ์ | ํธ๋ํฌ๋ ์กฐ์ | ์์ฐ์ค๋ฌ์ด ์ ์ฌ์ฉ |
| 3D ํํ | Diffusion Policy | Point-Policy |
UMI์ ๊ฐ์ : - ๋ ๋ค์ํ ๋ก๋ด ์๋์ดํํฐ ์ง์ - ์ฐ์ ํ๊ฒฝ์ ์ ํฉ
AINA์ ๊ฐ์ : - ํธ์ฆํ๋ฆฌ ๋ฐ์ดํฐ ์์ง - ๋ค์ง ์กฐ์์ ํนํ - ๋ ์์ฐ์ค๋ฌ์ด ์ธ๊ฐ ๋์ ์บก์ฒ
6.3 DexCap
DexCap์ ์ฐฉ์ฉํ ๋ฐ์ดํฐ ์์ง ์์คํ ์ ์ ์ํ ์ฐ๊ตฌ์ ๋๋ค.
| ์ธก๋ฉด | DexCap | AINA |
|---|---|---|
| ์ผ์ฑ | ๋ชจ์ ์บก์ฒ ๊ธ๋ฌ๋ธ + SLAM | Aria Gen 2 (์ฌ์ธ์) |
| ํ์ต ๋ฐฉ์ | Diffusion Policy + ์จ๋ผ์ธ ๊ต์ | Point-Policy (์คํ๋ผ์ธ) |
| ์จ๋ผ์ธ ๊ต์ | ํ์ | ๋ถํ์ |
| 3D ํํ | ๋ค์ํ ์ ๋ ฅ | ํฌ์ธํธ ํด๋ผ์ฐ๋ |
DexCap์ ๊ฐ์ : - ์ ๋ฐํ ์ ์ถ์ (MoCap) - Diffusion Policy์ ๋ค๋ชจ๋ฌ ํ์ต ๋ฅ๋ ฅ
AINA์ ๊ฐ์ : - ๋ ๊ฐ๋จํ ํ๋์จ์ด (์๊ฒฝ๋ง) - ์จ๋ผ์ธ ๊ต์ ์์ด ๋ฐฐํฌ ๊ฐ๋ฅ - ๋ฎ์ ์ง์ ์ฅ๋ฒฝ
7. ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
7.1 ํ์ฌ ํ๊ณ์
(1) ๋จ์ผ ๊ฐ์ฒด ์กฐ์ ์ ํ
- ํ์ฌ ํ์ดํ๋ผ์ธ์ ๋จ์ผ ๊ฐ์ฒด ์ถ์ ์ ์ต์ ํ
- ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ์ ์ถ๊ฐ ์ฐ๊ตฌ ํ์
(2) Force/Tactile ์ ๋ณด ๋ถ์ฌ
- ์ธ๊ฐ ๋ฐ๋ชจ์์ ํ ์ ๋ณด ํ๋ ๋ถ๊ฐ
- ์ ๋ฐ ์กฐ๋ฆฝ, ๋ถ๋๋ฌ์ด ๊ฐ์ฒด ์กฐ์์ ์ ํ
(3) ๋ฐ์ดํฐ ํจ์จ์ฑ
- ํ์คํฌ๋น ํ๊ท 15๋ถ์ ๋ฐ๋ชจ ํ์
- Foundation model๊ณผ์ ๊ฒฐํฉ์ผ๋ก ๊ฐ์ ๊ฐ๋ฅ
(4) ์ค์๊ฐ์ฑ
- ํ์ฌ ์ถ๋ก ์๋ ๋ฏธ๊ณต๊ฐ
- ์ค์๊ฐ ๋ฐ์ํ ํ์คํฌ์ ๋ํ ๊ฒ์ฆ ํ์
(5) Bimanual ์กฐ์
- ์์ ์กฐ์์ ๋ํ ํ์ฅ ๋ฏธ๊ฒ์ฆ
7.2 ์ ๋งํ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
(1) Foundation Model ํตํฉ
ํ์ฌ: Task-specific ์ ์ฑ
ํ์ต
๋ฏธ๋: VLM/LLM ๊ธฐ๋ฐ ๋ฒ์ฉ ์กฐ์ ์ ์ฑ
์: GPT-4V, Gemini ๋ฑ์ ํ์ฉํ ์ธ์ด ์กฐ๊ฑด๋ถ ์กฐ์
(2) Sim-to-Real ํ์ด๋ธ๋ฆฌ๋
AINA์ in-the-wild ๋ฐ์ดํฐ + ์๋ฎฌ๋ ์ด์
ํฉ์ฑ ๋ฐ์ดํฐ
โ ๋ ๊ฐ๊ฑดํ ์ ์ฑ
ํ์ต
(3) Tactile Sensing ํตํฉ
DIGIT, GelSight ๋ฑ ์ด๊ฐ ์ผ์์์ ๊ฒฐํฉ
โ ํ ์ ๋ณด ํ๋ โ ์ ๋ฐ ์กฐ์ ๊ฐ๋ฅ
(4) Continuous Learning
๋ฐฐํฌ ์ค ์คํจ ์ผ์ด์ค ์์ง
โ ์จ๋ผ์ธ ์ ์ฑ
์
๋ฐ์ดํธ
โ ์ง์์ ๊ฐ์
(5) Multi-Robot Learning
๋ค์ํ ๋ก๋ด ํ๋ซํผ์์ ๋์ผ ์ธ๊ฐ ๋ฐ๋ชจ ํ์ฉ
โ ๋ฒ์ฉ ์กฐ์ ์ ์ฑ
8. ์ค๋ฌด์ ์์ฌ์
8.1 ๋ก๋ด๊ณตํ์๋ฅผ ์ํ ์ฒดํฌ๋ฆฌ์คํธ
AINA ์คํ์ผ ์์คํ ๊ตฌ์ถ ์ ๊ณ ๋ ค์ฌํญ:
ํ๋์จ์ด: - [ ] Egocentric ์นด๋ฉ๋ผ (์/๊ฐ์ฒด ๋์ ์บก์ฒ) - [ ] ์จ๋ณด๋ ์ ์ถ์ ๋๋ ๊ณ ํ์ง ์ถ์ ๊ธฐ - [ ] ์คํ ๋ ์ค ๊น์ด ์ถ์ ๊ฐ๋ฅ ์นด๋ฉ๋ผ ๋ฐฐ์น - [ ] ํฌํฐ๋ธ/๊ฒฝ๋ ํผํฉํฐ
์ํํธ์จ์ด: - [ ] ๊ฐ๊ฑดํ ๊ฐ์ฒด ๋ถํ ๋ชจ๋ธ - [ ] Zero-shot ์คํ ๋ ์ค ๊น์ด ์ถ์ - [ ] SO(3)-equivariant ๋คํธ์ํฌ ๊ตฌํ - [ ] ํจ์จ์ ์ธ IK ์๋ฒ
๋ฐ์ดํฐ: - [ ] In-the-wild ๋ฐ๋ชจ ์์ง ํ๋กํ ์ฝ - [ ] In-scene ์ต์ปค ๋ฐ๋ชจ ์์ง - [ ] ๋๋ฉ์ธ ์ ๋ ฌ ํ์ดํ๋ผ์ธ - [ ] ๋ฐ์ดํฐ ํ์ง ๊ฒ์ฆ ์ ์ฐจ
8.2 ์ธ์ AINA ์ ๊ทผ๋ฒ์ ์ฌ์ฉํด์ผ ํ๋๊ฐ?
์ ํฉํ ๊ฒฝ์ฐ: - ๋ค์ง ํธ๋ ์กฐ์ ์ฐ๊ตฌ - ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ด ์ด๋ ค์ด ํ๊ฒฝ - ๋ค์ํ ํ๊ฒฝ์์ ์ผ๋ฐํ ํ์ - ๋น์ ๋ฌธ๊ฐ์ ๋ฐ๋ชจ ์์ง์ด ํ์ํ ๊ฒฝ์ฐ
๋ถ์ ํฉํ ๊ฒฝ์ฐ: - ์ ๋ฐ ํ ์ ์ด๊ฐ ํ์์ธ ํ์คํฌ - ์ค์๊ฐ ๋ฐ์์ด criticalํ ํ์คํฌ - 2D ๊ทธ๋ฆฌํผ (๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ ์กด์ฌ) - ๋ฐ์ดํฐ๊ฐ ์ด๋ฏธ ํ๋ถํ ๊ฒฝ์ฐ
9. ๊ฒฐ๋ก
AINA๋ ๋ก๋ด ์กฐ์ ํ์ต ๋ถ์ผ์์ ์ค์ํ ์ด์ ํ๋ฅผ ์ธ์ด ์ฐ๊ตฌ์ ๋๋ค. ์ธ๊ฐ์ in-the-wild ๋น๋์ค๋ก๋ถํฐ ๋ค์ง ๋ก๋ด ์ ์ฑ ์ ํ์ตํ๋ค๋ ์ค๋๋ ๊ฟ์ ํ ๊ฑธ์ ๋ ๋ค๊ฐ๊ฐ์ต๋๋ค.
ํต์ฌ ๊ธฐ์ฌ ์์ฝ
- ํจ๋ฌ๋ค์ ์ ํ: ๋ก๋ด ๋ฐ์ดํฐ ์์ด ์ธ๊ฐ ๋ฐ๋ชจ๋ง์ผ๋ก ๋ค์ง ์กฐ์ ํ์ต
- ์ค์ฉ์ ํ๋์จ์ด: Aria Gen 2๋ผ๋ ์์ฉํ ๊ฐ๋ฅํ ๋๋ฐ์ด์ค ํ์ฉ
- 3D ํฌ์ธํธ ํํ: ๋ฐฐ๊ฒฝ ๋ถ๋ณ์ฑ๊ณผ ์ฒดํ ๊ฒฉ์ฐจ ์ต์ํ ๋์ ๋ฌ์ฑ
- ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ : ๋ณต์กํ RL์ด๋ ์จ๋ผ์ธ ๊ต์ ์์ด ์๋
๋ก๋ด๊ณตํ์ ๋ฏธ๋๋ฅผ ์ํ ์์ฌ์
โ๋ก๋ด์ด ์ธ๊ฐ์ ๊ด์ฐฐํ๋ฉฐ ๋ฐฐ์ฐ๋ ์ธ์โ
์ด๊ฒ์ด AINA๊ฐ ๊ทธ๋ฆฌ๋ ๋ฏธ๋์ ๋๋ค. ๋ฌผ๋ก ์์ง ๊ฐ ๊ธธ์ด ๋ฉ๋๋ค. ํ์ง๋ง ์ด ์ฐ๊ตฌ๋ ๊ทธ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ ๊ตฌ์ฒด์ ์ด๊ณ ์ค์ฉ์ ์ธ ๊ฒฝ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
Aria Gen 2์ ๊ฐ์ ์จ์ด๋ฌ๋ธ ๋๋ฐ์ด์ค์ ๋ฐ์ , FoundationStereo ๊ฐ์ foundation model์ ์ฑ์, ๊ทธ๋ฆฌ๊ณ AINA ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ํ์ ์ด ๊ฒฐํฉ๋ ๋, ์ฐ๋ฆฌ๋ ์ง์ ์ผ๋ก ๋ฒ์ฉ์ ์ธ ๋ก๋ด ์กฐ์ ์์คํ ์ ๋ ๊ฐ๊น์์ง ๊ฒ์ ๋๋ค.
- Guzey, I., et al. (2025). โDexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations.โ arXiv:2511.16661.
- Deng, C., et al. (2021). โVector Neurons: A General Framework for SO(3)-Equivariant Networks.โ ICCV 2021.
- Wen, B., et al. (2025). โFoundationStereo: Zero-Shot Stereo Matching.โ CVPR 2025 (Best Paper Nomination).
- Meta. (2025). โIntroducing Aria Gen 2: Unlocking New Research in Machine Perception, Contextual AI, Robotics, and More.โ
- Guzey, I., et al. (2024). โHuDOR: Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards.โ arXiv:2410.23289.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
ํต์ฌ ๊ธฐ์ฌ ์์ฝ: ๋ณธ ์ฐ๊ตฌ๋ Aria Gen 2 ์ค๋งํธ ์๊ฒฝ์ ํ์ฉํ ์๋ก์ด AINA ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ์ผ์ ํ๊ฒฝ์์ ์์ง๋ ์ธ๊ฐ ์์ฐ๋ง์ผ๋ก ๋ค์ง ์กฐ์ ์ ์ฑ ์ ํ์ตํ๋ ์ต์ด์ ์์คํ ์์ ๋ณด์๋ค. Aria Gen 2 ์๊ฒฝ์ ๊ณ ํด์๋ RGB ์นด๋ฉ๋ผ, ์จ๋ณด๋ 3D ์/๋จธ๋ฆฌ ์์ธ ์ถ์ , ๊ด๊ฐ ์คํ ๋ ์ค ๋ทฐ ๋ฑ์ ๊ฐ์ถ์ด ์์์ ๋ฐฐ๊ฒฝ์์๋ ๊น์ด ์ ๋ณด๋ฅผ ์์ ์ ์ผ๋ก ํ๋ํ ์ ์๋ค. AINA๋ ๋ก๋ด ๋ฐ์ดํฐ(์๋ฎฌ๋ ์ด์ ๋๋ ๊ฐํํ์ต ํฌํจ) ์์ด ์ค์ง โ์ธ๊ฐ ๋น๋์คโ๋ก๋ถํฐ ์ง์ ๋ค์ง ๋ก๋ด ์ ์ฑ ์ ํ์ตํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ข ์ ์ ๋ฐฉ๋ฒ๋ค์ด ํ์๋ก ํ๋ ๋๊ท๋ชจ ๋ก๋ด ์ ์ด ๋ฐ์ดํฐ ์์ง ๋ถ๋ด์ ํ๊ธฐ์ ์ผ๋ก ์ค์๋ค.
- ๋๊ตฌ๋ ์ด๋์๋ ์์ง ๊ฐ๋ฅํ ๋ฐ์ดํฐ: Aria Gen 2 ์๊ฒฝ์ ์ฐ๋ฉด ์ฃผ๋ฐฉ, ์ฌ๋ฌด์ค, ์คํ์ค ๋ฑ ๋ค์ํ ์ค์ ํ๊ฒฝ์์ ์์ฝ๊ฒ ์ธ๊ฐ์ ์กฐ์ ์ฅ๋ฉด์ ์ดฌ์ํ ์ ์๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด ํ๊ท 15๋ถ์ ์ธ๊ฐ ์์ฐ ๋ นํ๋ก๋ ์์จ ๋ก๋ด ์ ์ฑ ํ์ต์ ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ์ป์ ์ ์๋ค.
- ๋ก๋ด ๋ฐ์ดํฐ ๋ถํ์: AINA๋ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ๋ฉฐ, ์๋ฎฌ๋ ์ด์
์ด๋ ๋ก๋ด ์์ฒด ๋ฐ์ดํฐ(์: ๊ฐํํ์ต, ์จ๋ผ์ธ ๋ณด์ ๋ฑ)๋ฅผ ์ ํ ์ฌ์ฉํ์ง ์๋๋ค. ์ด๋ ์ธ๊ฐ-๋ก๋ด ๊ฐ ๊ฒฉ์ฐจ(
embodiment gap)๋ฅผ ๊ทน๋ณตํ๋ ค๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ ๋๋น๋๋ ์ ์ด๋ค. - ๋๋ฉ์ธ ์ ๋ ฌ ๊ธฐ๋ฒ: ํ์ต ์ ์ฒ๋ฆฌ์์ ํ ์ฅ์ in-scene ์์ฐ ์์์ ๊ธฐ์ค์ผ๋ก ๋ชจ๋ in-the-wild ์์ฐ์ ์ ๋ ฌํ๋ค. ๊ฐ ์์ฐ์ ๊ฐ์ฒด์ ์ ์์น๋ฅผ ๋ฌด๊ฒ์ค์ฌ ๊ธฐ์ค์ผ๋ก ํํ ์ด๋์ํค๊ณ ์์ ์ค๋ ฅ์ถ์ ์ค์ฌ์ผ๋ก ํ์ ์์ผ, ์๋ก ๋ค๋ฅธ ํ๊ฒฝ ๊ฐ ์ขํ๊ณ๋ฅผ ์ผ์น์ํจ๋ค.
- 3D ์ ๊ธฐ๋ฐ ์ ์ฑ ์ํคํ ์ฒ: ์๋(fingertip)๊ณผ ๊ฐ์ฒด์ 3D ํคํฌ์ธํธ ๊ถค์ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ๋ ์ฐฝ์ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ๋ค. ์ ๋ ฅ ํฌ์ธํธ๋ค์ ๋ฒกํฐ-๋ด๋ฐ MLP(3D ์ ๋ณด์ SO(3) ๋ฑ๋ณ ๋์ ๋ ์ด์ด ์ ์ฉ)๋ก ์๋ฒ ๋ฉ๋ ํ, ํธ๋์คํฌ๋จธ ์ธ์ฝ๋์ ํ ํฐ์ผ๋ก ์ฒ๋ฆฌ๋๋ค. ํธ๋์คํฌ๋จธ ์ถ๋ ฅ์ MLP๋ฅผ ํตํด ํฅํ ์๋ ๊ถค์ ์ ์์ธกํ๊ณ , MSE ์์ค๋ก ํ์ต๋๋ค. ์ด๋ ๊ฒ 3D ์ ๋ณด๋ง์ ์ฌ์ฉํจ์ผ๋ก์จ, ์ฌ๋๊ณผ ๋ก๋ด ๊ด์ฐฐ ๊ฐ์ ์๊ฐ์ ์ฐจ์ด๋ฅผ ์ค์ด๊ณ ๋ฐฐ๊ฒฝ ๋ณํ์ ๊ฐํ ์ ์ฑ ์ ๊ตฌํํ๋ค.
- ๋ฐ์ด๋ ์ฑ๋ฅ: 9๊ฐ์ง ์ผ์ ์กฐ์ ๊ณผ์ (์: ํ ์คํฐ ํ๋ ์ค, ์ฅ๋๊ฐ ์ง๊ธฐ, ์ค๋ธ ์ด๊ธฐ, ์๋ ๋ฐ๊ธฐ ๋ฑ)์์ ์คํ์ ์ํํ๋ค. AINA๋ ํ ์คํฐ ํ๋ ์ค์ ์ฅ๋๊ฐ ์ง๊ธฐ์์ ์ฑ๊ณต๋ฅ 86%(13/15)๋ฅผ ๋ฌ์ฑํด, ๋จ์ผ ํ๊ฒฝ ํ์ต(30% ์ดํ)์ด๋ ๋จ์ in-the-wild ํ์ต(0%) ๋๋น ์๋ฑํ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค. ๋ํ ์ค๋ธ ์ด๊ธฐ์ ์๋ ์ด๊ธฐ ๊ณผ์ ์์๋ Masked-BAKU ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์ ์ฑ (์ต๋ 6/15)๋ณด๋ค ํ์ ํ ๋์ 80% ์ด์ ์ฑ๊ณต๋ฅ (12/15, 11/15)์ ๊ธฐ๋กํ๋ค.
Meta์ Aria Gen 2 ์ค๋งํธ ์๊ฒฝ(์ด๋ฏธ์ง): 3D ์/๋จธ๋ฆฌ ์์ธ ์ถ์ ๋ฐ ๊ณ ํด์๋ ์คํ ๋ ์ค ์นด๋ฉ๋ผ๋ฅผ ๊ฐ์ถ ํด๋ํ ์ค๋งํธ ๊ธ๋์ค. AINA๋ ์ด ์๊ฒฝ์ ํตํด ์์ ํ๊ฒฝ์ ์ธ๊ฐ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค.
๋ฐฉ๋ฒ๋ก ๋ถ์
- ๋ฐ์ดํฐ ์์ง ๋ฐ ์ฒ๋ฆฌ: ์ฐ๊ตฌ์๋ Aria Gen 2 ์๊ฒฝ์ ์ฐฉ์ฉํ๊ณ ์นด๋ฉ๋ผ ์์ผ ์์์ ์ธ๊ฐ์ ์กฐ์ ์์ฐ์ ๋ นํํ๋ค. ์ด ๊ณผ์ ์์ Grounded-SAM ๋ฑ์ ์ธ์ด-ํ๋กฌํํธ ๊ธฐ๋ฐ ๊ฐ์ฒด ๋ถํ /์ถ์ ๋ชจ๋ธ์ ์ด์ฉํด ํ๋ ์๋ณ๋ก ๊ฐ์ฒด๋ฅผ ์๋ณใป์ถ์ ํ๋ค. ๋์์ Aria ๊ธ๋์ค์ SLAM ์นด๋ฉ๋ผ๋ฅผ ํ์ฉํด FoundationStereo ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊น์ด ๋งต์ ์ถ์ ํ๋ค. ์ด๋ ๊ฒ ์ป์ 2D ๊ฐ์ฒด ๊ถค์ ์ ๋์ ๊น์ด ๋งต๊ณผ ๊ฒฐํฉํ์ฌ 3D ๊ฐ์ฒด ์์น์ ์ ๊ด์ ๊ถค์ ์ ํ๋ํ๋ค. ์๋ฅผ ๋ค์ด ์ปต์ ์ฅ์ด๋๋ ์ฅ๋ฉด์ด๋ผ๋ฉด, ์ปต๊ณผ ์๋์ 3D ๊ถค์ ์ด ๋ชจ๋ ๊ณ์ฐ๋์ด ๋ค์ ๋จ๊ณ๋ก ๋์ด๊ฐ๋ค.
- ๋๋ฉ์ธ ์ ๋ ฌ (Domain Alignment): In-the-wild ์์ฐ๋ค์ ์๋ก ๋ค๋ฅธ ๋ฐฐ๊ฒฝยท๋์ดยท์นด๋ฉ๋ผ ์์น์์ ์์ง๋๋ฏ๋ก, ๋ก๋ด ์์ ๊ณต๊ฐ๊ณผ ์ขํ๊ณ๊ฐ ๋ง์ง ์๋๋ค. AINA๋ ๋ก๋ด ํ๊ฒฝ์์ ๋จ์ผ ์์ฐ์ ์ต์ปค(๊ธฐ์ค)๋ก ์ผ์, ๋๋จธ์ง ์์ฐ๋ค์ ์ขํ๊ณ๋ฅผ ์ผ์น์ํจ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๊ฐ ์์ฐ์ ๊ฐ์ฒด ๋ฐ ์ ํคํฌ์ธํธ๋ฅผ ๊ทธ ๋ฌด๊ฒ ์ค์ฌ์ผ๋ก ํํ์ด๋ํ๊ณ , ์์ ์ค๋ ฅ์ถ(์์ง์ถ)์ ๊ธฐ์ค์ผ๋ก ํ์ ์ํจ๋ค. ์ด ๊ณผ์ ์ ํตํด ๋ชจ๋ ์์ฐ์ ๋์ผํ ์ฐธ์กฐ ํ๋ ์์ผ๋ก ์ ๋ ฌ๋๋ฉฐ, ์ด๊ธฐ ์ขํ ๋ถ์ผ์น์ ์ํ ์ค๋ฅ๋ฅผ ์ค์ผ ์ ์๋ค.
- ์ ์ฑ ํ์ต: ์ ๋ ฌ๋ 3D ์๋๊ณผ ๊ฐ์ฒด ํคํฌ์ธํธ ํ์คํ ๋ฆฌ๋ฅผ ์ ๋ ฅ๋ฐ์ ํฅํ ์๋ ๊ถค์ ์ ์์ธกํ๋ ํ์ํ ์ ์ฑ ์ ํ์ตํ๋ค. ์ ๋ ฅ๋ ๊ฐ ํฌ์ธํธ๋ ๋ฒกํฐ-๋ด๋ฐ MLP๋ก ์ธ์ฝ๋ฉ๋์ด 3์ฐจ์ ๋ถ๋ณ ํํ์ ์ป๊ณ , ์ด ๋ฒกํฐ๋ค์ Transformer ์ธ์ฝ๋์ ํ ํฐ์ผ๋ก ์ฌ์ฉํ๋ค. ํนํ ์๋ ํคํฌ์ธํธ์๋ ์์น ์ธ์ฝ๋ฉ์ด ์ ์ฉ๋๋ค. Transformer์ ์ถ๋ ฅ ๋ฒกํฐ๋ MLP๋ฅผ ํตํด ๋ฏธ๋์ ์๋ ์ขํ๋ฅผ ์์ธกํ๋ฉฐ, ์์ธก๋ ์๋ ๊ถค์ ๊ณผ ์ค์ ๊ถค์ ๊ฐ MSE ์์ค๋ก ๋คํธ์ํฌ๋ฅผ ์ข ๋ฃ(end-to-end) ํ์ตํ๋ค. ์ด ๊ตฌ์กฐ๋ 3D ์ (point) ๊ธฐ๋ฐ ์ ๋ ฅ์ ์ฌ์ฉํ์ฌ ๋ฐฐ๊ฒฝ์ด๋ ์กฐ๋ช ๋ณํ์ ๊ฐ์ธํ ์ ์ฑ ์ ๊ตฌํํ๋ค. ํ์ต ์์๋ ๋ฌด์์ 3D ํํ์ด๋, ํ์ , ์ค์ผ์ผ๋ง ๋ฑ์ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํตํด ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ธ๋ค.
์ถ๊ฐ๋ก, ๋ ผ๋ฌธ์์๋ ๋ก๋ด ๋ฐฐ์น ํ๊ฒฝ์ ๋ง์ถ ์ดํ ๊ณผ์ ์ ๊ณ ๋ คํ๋ค. ์ค์ ์คํ์๋ Kinova Gen3 ๋ก๋ด ํ(7DOF)๊ณผ Psyonic Ability 5-์ง ์์ด ์ฌ์ฉ๋์์ผ๋ฉฐ, ํ์ ์ ์ด๋ค ๊ด์ ๊ฐ์ ๋ง๊ฒ ์๋ ์์น๋ฅผ ๋ก๋ด ๋ชจํฐ ๋ช ๋ น์ผ๋ก ๋ณํํ๋ ์ปค์คํ IK ๋ชจ๋์ ๋์ ํ๋ค. ์กฐ์ ๋์ ๋์ค ๊ทธ๋ฆฝ ์ฌ๋ถ๋ ์๊ฐ๋ฝ ๊ฐ ๊ฑฐ๋ฆฌ ๊ธฐ์ค์ผ๋ก ์ค์ ํ์ฌ, ์ธ๊ฐ ์์ฐ์ ํ ์ ๋ณด๋ฅผ ์ด๋ ์ ๋ ๋ชจ๋ฐฉํ๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ ํด์
์คํ์ ์ด 9๊ฐ ์ผ์ ์กฐ์ ๊ณผ์ (์: ๋ฆ๊ธฐ, ์ฅ๋๊ฐ ์ง๊ธฐ/๋ฐฐ์น, ์ค๋ธ ์ด๊ธฐ, ์๋ ์ด๊ธฐ, ํ ์คํฐ ๋๋ฅด๊ธฐ ๋ฑ)์ ๋ํด ์ค์ ๋ก๋ด์์ ์ํ๋์๋ค. ์ฃผ์ ๋น๊ต ์คํ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค:
- ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๋น๊ต: Table I์์ AINA(์ธ-์ฌ+์ธ-์์ผ๋)๋ ํ ์คํฐ ํ๋ ์ค์ ์ฅ๋๊ฐ ์ง๊ธฐ์์ ๊ฐ๊ฐ 86%(13/15)์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ๋ค. ๋ฐ๋ฉด, ๋จ์ผ ํ๊ฒฝ ์์ฐ๋ง์ ์ฌ์ฉํ ์ ์ฑ ์ ๊ฐ๊ฐ 30%์ 10%์ ๊ทธ์ณค๊ณ , ์์ ์ธ-์์ผ๋ ์์ฐ๋ง ์ฌ์ฉํ ๊ฒฝ์ฐ 0%๋ฅผ ๊ธฐ๋กํ๋ค. ์ด๋ ์ธ-์์ผ๋ ๋ฐ์ดํฐ๊ฐ ๋ฐฐ์น ๊ณต๊ฐ์ ๋ค์์ฑ์ ํ๋ณดํด์ฃผ๊ณ , ์ธ-์ฌ ์์ฐ์ด ์ ์ฑ ํ์ต์ ์์ ํ์ํด์ ๋ณด์ฌ์ค๋ค.
- RGB ์ด๋ฏธ์ง vs 3D ํฌ์ธํธ: Table II์์ ๊ธฐ์กด์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ Transformer(imitation) ๋ฐฉ๋ฒ์ธ Masked-BAKU๋ ์ค๋ธ ์ด๊ธฐ/์๋ ์ด๊ธฐ ๊ณผ์ ์์ ์ฑ๊ณต๋ฅ ์ด ๊ฐ๊ฐ 40% ๋ฏธ๋ง(6/15, 1/15)์ ๋ถ๊ณผํ๋ค. ๋ฐ๋ฉด AINA๋ ๊ฐ๊ฐ 80%(12/15)์ 73%(11/15)๋ก ํจ์ฌ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค. ์ด๋ ์ฌ๋ ์์ฐ ์นด๋ฉ๋ผ์ ์์ ๋ณํ์ 3D ํฌ์ธํธ ๊ธฐ๋ฐ ์ ์ฑ ์ด ๋ณด๋ค ๊ฐ์ธํจ์ ์์ฌํ๋ค.
- ๋์ด ๋ณํ ์คํ: ์ฑ ์ ๋์ด๋ฅผ ๋ณํ์์ผ ํ ์คํธํ ๊ฒฐ๊ณผ, AINA๋ ์ฌ์ ํ์ต ์์ด ์๋ก์ด ๋์ด์์๋ ๋น๊ต์ ๋์ ์ฑ๊ณต๋ฅ ์ ์ ์งํ๋ค. ์๋ฅผ ๋ค์ด ์ฅ๋๊ฐ ์ง๊ธฐ ๊ณผ์ ์์ ๋์ด 1~3(์ โ๊ณ )์์ ์ฑ๊ณต๋ฅ ์ 50%, 60%, 20%์๊ณ , ๋ฆ๊ธฐ ๊ณผ์ ๋ 50%, 50%, 80%๋ก ๋ํ๋ฌ๋ค. ์ด๋ ๋ก๋ด ์์ ๊ณต๊ฐ ๋์ด๊ฐ ๋ณ๋๋ ๋์๋, ์ต์ํ์ ์ถ๊ฐ ์์ฐ(๋์ด๋ณ ์ธ-์ฌ)๋ง์ผ๋ก ์ ์ฑ ์ด ์ผ๋ฐํ๋ ์ ์์์ ๋ณด์ฌ์ค๋ค.
- ์๋ก์ด ๊ฐ์ฒด ์ผ๋ฐํ: ํ์ต๋ ์ ์ฑ ์ ๋์ผ ๊ณผ์ ์ง๋ง ๋ค๋ฅธ ๋ฌผ์ฒด์ ์ ์ฉํ์ ๋๋ ์ฑ๊ณต๋ฅ ์ ํ๊ฐํ๋ค. ํํ์ ๋ฌด๊ฒ๊ฐ ์ ํ์ต ๋์๊ณผ ์ ์ฌํ ๊ฒฝ์ฐ(์: ์คํ์งโ๋น์ทํ ์คํ์ง, ํ ์คํฐโ๋ค๋ฅธ ํ ์คํฐ)์๋ ์ฑ๊ณต๋ฅ (70% ์ด์)์ด ๋น๊ต์ ๋์์ผ๋, ํฌ๊ฒ ๋ค๋ฅธ ๋ฌผ์ฒด(์: ์ธํ ๋์ ํ์ฝ ํฉ ์ฌ์ฉ)์์๋ ์ฑ๋ฅ์ด ๊ธ๊ฐํ๋ค(์ฑ๊ณต๋ฅ 20% ์ดํ). ์ด๋ ๊ฐ์ฒด์ ๋ฌผ๋ฆฌ์ ํน์ฑ์ด ๋ค๋ฅผ ๋ ํ์ฌ ๋ฐฉ์์ด ํ๊ณ๊ฐ ์์์ ์์ฌํ๋ค.
๊ธฐ์ ์ ์์ฉ ๊ฐ๋ฅ์ฑ
AINA์ ์ ๊ทผ๋ฒ์ ๋ค์ํ ์ค์ ๋ก๋ด ์์คํ ์ ์์ฉ๋ ์ ์๋ค. ๊ฐ์ ์ฉ ์๋น์ค ๋ก๋ด์ ๊ฒฝ์ฐ, ์ค๋งํธ ์๊ฒฝ์ ์ฐฉ์ฉํ ์ฌ์ฉ์๊ฐ ์ฃผ๋ฐฉ ๋๊ตฌ ์ฌ์ฉ, ์ ๋ฆฌ, ์ฒญ์ ๋ฑ์ ์์ ์ ์์ฐ์ค๋ฝ๊ฒ ์์ฐํ๋ฉด, ๊ทธ ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ก๋ด์ด ์ ์ฌ ์์ ์ ์๋ํํ ์ ์๋ค. ์๋ฅผ ๋ค์ด ์ปต ๋ฐ๋ฅด๊ธฐ, ์๋ ๋ฆ๊ธฐ ๋ฑ ์คํ ๊ณผ์ ๋ ์ผ์์ ์ด๋ฏ๋ก ๊ฐ์ฌ ๋ก๋ด์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ๋ค. ์ฐ์ ์ฉ ํ๋๋ก๋ด ๋ถ์ผ์์๋ ์ํ ๋ถํ ์กฐ๋ฆฝ์ด๋ ํด ์กฐ์์ ํ์ฉ๋ ์ ์๋ค. ๊ธฐ์กด์ ๋จ์ ๊ทธ๋ฆฌํผ ๋์ ๋ค์ง ์์ ์ด์ฉํด, ๋ณต์กํ ์กฐ๋ฆฝ๋ฌผ์ด๋ ์ ๊ธฐ๋ฅผ ๋ค๋ฃจ๋ ์์ ์ ์ฐ์ผ ์ ์๋ค. ๋ํ, ์ ๋ฌธ๊ฐ์ ๋์์ AR/VR ํ๊ฒฝ์์ ๋ นํํ์ฌ ์ด๋ฅผ ์ด์ฉํ ์๊ฒฉ ์กฐ์ ์์คํ ๊ตฌ์ถ๋ ๊ฐ๋ฅํ๋ค.
์ด๋ฌํ ์์ฉ์ ์คํ ๊ฐ๋ฅ์ฑ์ โํ๊ท 15๋ถโ๋ง์ ๋ฐ์ดํฐ๋ก๋ ์ ์ฑ ์ ํ์ตํ ์ ์๋ค๋ ๊ฒฐ๊ณผ์์ ์ ๋๋ฌ๋๋ค. ์ฆ, ๋น์ ๋ฌธ๊ฐ๋ ์ค๋งํธ ์๊ฒฝ ํ ๋๋ก ์์ฝ๊ฒ ์กฐ์ ์์ฐ์ ์ ๊ณตํ ์ ์์ด, ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง ๋ถ๋ด์ด ํฌ๊ฒ ์ค์ด๋ ๋ค. Meta์ Aria Gen 2 ์์ฒด๊ฐ ๋ก๋ดโAR ์ฐ๊ตฌ๋ฅผ ์ํ ์ฐ๊ตฌ์ฅ๋น๋ก ๊ฐ๋ฐ๋๊ณ ์๋ค๋ ์ ๋ ์ด ์ ๊ทผ์ ์ค์ฉ์ฑ์ ๋ท๋ฐ์นจํ๋ค. ํฅํ์๋ ๋ ๋ง์ ์์ ๊ตฐ(์: ๋ค์ํ ๋๊ตฌ ์กฐ์, ๋ณตํฉ ๋์ ์์)๊ณผ ์๋ก ๋ค๋ฅธ ๋ก๋ด ํธ๋ ํ๋ซํผ์ AINA๋ฅผ ์ ์ฉํด ๋ฒ์ฉ์ฑ์ ๊ฒ์ฆํด ๋ณผ ์ ์๋ค.
ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๋ณธ ์ฐ๊ตฌ๋ ํ์ ์ ์ด์ง๋ง ๋ช ๊ฐ์ง ์ ์ฝ์ด ์๋ค. ์ฒซ์งธ, ํ(feedback) ์ ๋ณด ๋ถ์ฌ๋ค. ์ค๋งํธ ์๊ฒฝ์ผ๋ก๋ ์ค์ง ์์ ๊ด์ ์์น๋ง ์ธก์ ํ ์ ์์ด, ์๊ฐ๋ฝ ์ฌ์ด์ ์ ์ด๋ ฅ์ด๋ ๋ฌผ์ฒด์ ์ด๊ฐ ์ ๋ณด๋ ์ป์ง ๋ชปํ๋ค. ์ด๋ ์ ๋ฐํ ์ฌ์ธ ์กฐ์์ด๋ ๋ฏธ์ธํ ๊ทธ๋ฆฝ ๋์์์ ํ๊ณ๋ฅผ ์ผ๊ธฐํ๋ค. ๋์งธ, ์นด๋ฉ๋ผ ๋๊ธฐํ ๋ฌธ์ ๊ฐ ์๋ค. ์๋ฆฌ์ ๊ธ๋์ค์ RGB ์นด๋ฉ๋ผ์ SLAM ์นด๋ฉ๋ผ ์ฌ์ด์ ์ ํฐ ํ์ด๋ฐ ์ฐจ์ด๊ฐ ์์ด, ๋น ๋ฅธ ๋จธ๋ฆฌ ์์ง์ ์ RGB ์ด๋ฏธ์ง์ ๊น์ด ๋งต ๊ฐ์ ์ค์ฐจ๊ฐ ๋ฐ์ํ ์ ์๋ค. ์ ํฐ ๊ฐ ๋ถ์ผ์น๋ก ์ธํด ๊ฐ์ฒด ํฝ์ ๊ณผ ์ค์ 3D ์์น๊ฐ ์ด๊ธ๋ ์ ์๊ธฐ ๋๋ฌธ์, ํ์ฌ๋ ์ดฌ์์๊ฐ ๊ธ๊ฒฉํ ๊ณ ๊ฐ ์์ง์์ ํผํ๋๋ก ์๋ดํ๋ค. ์ ์งธ, ์ค์๊ฐ ์ ์ฉ์ฑ์ด๋ค. ์คํ์์๋ ํ์ต ๋ฐ์ดํฐ ์์ง ์ Aria ์๊ฒฝ์, ๋ฐฐ์น ์์๋ RealSense RGB-D๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ก ์ธํด ์ ๋ ฅ ๋ฐ์ดํฐ ๋ถํฌ ์ฐจ์ด๊ฐ ์ฝ๊ฐ ๋ฐ์ํ ์ ์์ผ๋ฉฐ, ํ์ฌ Aria์์ ์ค์๊ฐ ๊น์ด ์ถ์ ์ ์ต์ ํ ์ค์ด๋ค. ์ถ๊ฐ์ ์ผ๋ก, ํ์ฌ ๋ฐฉ์์ ์ฌ์ ๋ นํ๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ๋ฏ๋ก, ๋์ ํ๊ฒฝ ๋ณํ๋ ์ฌ๋ ํ๋์ ๋ณ๋์ ์ค์๊ฐ ์ ์ํ๊ธฐ ์ด๋ ต๋ค.
ํฅํ์๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๋ณด์ํ๊ธฐ ์ํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค. ์๋ฅผ ๋ค์ด, ์๋ ฅ ์ผ์๋ ๊ทผ์ ๋(EMG) ์ผ์๋ฅผ ๋ถ์ฐฉํ์ฌ ์์ ํ ์ ๋ณด๋ฅผ ํจ๊ป ์์งํ ์ ์๋ค. ๋น ๋ฅธ ๋จธ๋ฆฌ ์์ง์์ ๊ฒฌ๋๋ 3D ๊ฐ์ฒด ์ถ์ ์ด๋ ๋ฉ์ฌ ๊ธฐ๋ฐ ๊ฐ์ฒด ๋ชจ๋ธ๋ง ๊ธฐ๋ฒ์ ๋์ ํ๋ฉด ๋์ ์๋๋ฆฌ์ค์์๋ ์์ ์ ์ธ ์ ํฉ์ ๊ธฐ๋ํ ์ ์๋ค. ๋ํ, ์๋ฆฌ์ ๊ธ๋์ค ์์ฒด์ ์ค์๊ฐ ๊น์ด ์ฒ๋ฆฌ ๊ธฐ๋ฅ์ ์ต์ ํํ์ฌ, ์์ง๋ถํฐ ๋ฐฐ์น๊น์ง ๋์ผํ ์ผ์๋ฅผ ์ฌ์ฉํ ์ ์๊ฒ ๋๋ฉด ๋๋ฉ์ธ ๊ฐ ์ฐจ์ด๋ฅผ ๋์ฑ ์ค์ผ ์ ์๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ณด๋ค ๋ค์ํ ์์ ๊ณผ ์ค์๊ฐ ๋ณด์ (์: ๊ฐํํ์ต ์ฐ๊ณ) ๋ฑ์ผ๋ก AINA์ ๋ฒ์ฉ์ฑ์ ํ์ฅํ๋ฉด, ์ค์ธ๊ณ ๋ก๋ด ์์ฉ์ ํ๊ณ๋ฅผ ๋์ฑ ๊ทน๋ณตํ ์ ์์ ๊ฒ์ด๋ค.