πWelcome to the Era of Experience
- π€ μ΄ λ Όλ¬Έμ μΈκ³΅μ§λ₯μ΄ μΈκ° λ°μ΄ν°μ μμ‘΄νλ λ¨κ³λ₯Ό λμ΄ κ²½νμ ν΅ν΄ μ€μ€λ‘ νμ΅νλ βκ²½νμ μλβλ‘ μ§μ νκ³ μλ€κ³ μ£Όμ₯ν©λλ€.
- π κ²½νμ μλμλ μμ΄μ νΈκ° νκ²½κ³Όμ μνΈμμ©μ ν΅ν΄ μ»λ λ°μ΄ν°κ° μΈκ°μ΄ μ 곡νλ λ°μ΄ν°λ³΄λ€ ν¨μ¬ μ€μν΄μ§λ©°, μ΄λ μ₯κΈ°μ μΈ λͺ©ν λ¬μ±, νμ€ μΈκ³μμ μ°κ²°, νκ²½ κΈ°λ° λ³΄μ, μΈκ°μ μ΄μνλ μΆλ‘ λ₯λ ₯μΌλ‘ μ΄μ΄μ§ κ²μ λλ€.
- π κ²½ν κΈ°λ° νμ΅μ κ³Όνμ λ°κ²¬μ κ°μννκ³ κ°μΈ λ§μΆ€ν μλΉμ€λ₯Ό μ 곡νλ λ± κΈμ μ μΈ κ²°κ³Όλ₯Ό κ°μ Έμ¬ μ μμ§λ§, μΌμ리 κ°μμ μ μ¬μ μΈ μ€μ© λ± μλ‘μ΄ λμ κ³Όμ μ μνμ μΌκΈ°νλ―λ‘ μμ νκ³ μ± μκ° μλ AI κ°λ°μ μν μ μ€ν μ κ·Όμ΄ νμν©λλ€.
μ΄ λ Όλ¬Έμ μΈκ³΅μ§λ₯(AI)μ μλ‘μ΄ μλ, μ¦ κ²½νμ μλκ° λλνκ³ μμμ μ£Όμ₯ν©λλ€. νμ¬ AIλ μΈκ°μ΄ μμ±ν λλμ λ°μ΄ν°λ‘ νμ΅νκ³ , μ λ¬Έκ°μ μμμ μ νΈλλ₯Ό ν΅ν΄ λ―ΈμΈ μ‘°μ νλ λ°©μμ λ°λ₯΄κ³ μμ΅λλ€. μ΄λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μμ μ λλ¬λλ©°, LLMμ μ, 물리ν λ¬Έμ ν΄κ²°, μλ£ μ§λ¨, λ²λ₯ λ¬Έμ μμ½ λ± λ€μν μμ μ μνν μ μμ΅λλ€. νμ§λ§ μ΄λ¬ν μΈκ° λͺ¨λ°© λ°©μμ νΉμ μμ€μ λ₯λ ₯μ μ¬ννλ λ°λ μΆ©λΆνμ§λ§, μν, μ½λ©, κ³Όνκ³Ό κ°μ λΆμΌμμλ μ΄μΈμ μΈ μ§λ₯μ λ¬μ±νκΈ° μ΄λ ΅μ΅λλ€. κ³ νμ§ λ°μ΄ν°λ μ΄λ―Έ μλΉλμκ±°λ κ³§ μλΉλ κ²μ΄λ©°, μΈκ° λ°μ΄ν°μ μμ‘΄ν μ§λ νμ΅μ λ°μ μλλ λνλκ³ μμ΅λλ€.
λ°λΌμ μλ‘μ΄ λ°μ΄ν° μμ€κ° νμνλ©°, μ΄λ μμ΄μ νΈκ° νκ²½κ³Ό μνΈμμ©νλ©° μμ±νλ κ²½ν λ°μ΄ν°κ° λμ΄μΌ ν©λλ€. κ²½νμ μλμλ μμ΄μ νΈμ νκ²½μ΄ λ€μκ³Ό κ°μ νΉμ§μ κ°μ§ κ²μ λλ€.
μ€νΈλ¦Ό(Streams): μμ΄μ νΈλ μ§§μ μνΈμμ©μ΄ μλ, μ§μμ μΈ κ²½νμ νλ¦ μμμ μ΄μκ°λλ€. μ΄λ RLμ μνΌμλ κ°λ κ³Όλ λμ‘°μ μ λλ€.
νλ λ° κ΄μ°°(Actions and Observations): μμ΄μ νΈμ νλκ³Ό κ΄μ°°μ μΈκ°κ³Όμ λνκ° μλ, νκ²½μ κΈ°λ°ν©λλ€. μΈκ°μ΄ μ¬μ©νλ μΈν°νμ΄μ€λΏλ§ μλλΌ κΈ°κ³ μΉνμ μΈ μ½λ μ€ν λ° API νΈμΆμ ν΅ν΄ λμ± μμ¨μ μΈ μνΈμμ©μ΄ κ°λ₯ν©λλ€.
보μ(Rewards): 보μμ μΈκ°μ μ μ κ²¬μ΄ μλ, νκ²½ μ체μμ λΉλ‘―λ©λλ€. μλ₯Ό λ€μ΄, κ±΄κ° κ΄λ¦¬ μμ΄μ νΈλ ν΄μ μ¬λ°μ, μλ©΄ μκ°, νλλ λ±μ μ νΈλ₯Ό κΈ°λ°μΌλ‘ 보μμ μ»μ μ μμ΅λλ€. μ¬μ©μμ νΌλλ°±μ reward functionμ κ°μ νλ λ° μ¬μ©λ μ μμ΅λλ€.
κ³ν λ° μΆλ‘ (Planning and Reasoning): μμ΄μ νΈλ μΈκ°μ μ¬κ³ λ°©μμ΄ μλ, κ²½νμ κΈ°λ°νμ¬ κ³ννκ³ μΆλ‘ ν©λλ€. μΈκ³ λͺ¨λΈ(World Model)μ ꡬμΆνμ¬ μμ΄μ νΈμ νλμ΄ μΈμμ λ―ΈμΉλ μν₯, νΉν 보μμ λν μμΈ‘μ κ°λ₯νκ² ν©λλ€. μ΄λ₯Ό ν΅ν΄ μμ΄μ νΈλ νλμ κ³ννκ³ μ€ννλ©°, κ²½νμ ν΅ν΄ λͺ¨λΈμ μ§μμ μΌλ‘ μ λ°μ΄νΈν©λλ€.
μ΄λ¬ν νΉμ§λ€μ κΈ°μ‘΄μ μΈκ° μ€μ¬ AI μμ€ν μ νκ³λ₯Ό 극볡νλ λ° λμμ μ€ κ²μ λλ€. LLMμ μΈκ°μ μ¬κ³ λ°©μμ λͺ¨λ°©νλλ‘ μ€κ³λμμ§λ§, μΈκ°μ μΈμ΄κ° μ΅μ μ μ¬κ³ λ°©μμ΄λΌκ³ λ¨μ ν μ μμ΅λλ€. μμ΄μ νΈλ κ²½νμ ν΅ν΄ μκ°νλ λ°©λ²μ λ°°μ°κ³ , μΈκ³ λͺ¨λΈμ ꡬμΆνμ¬ μμ μ νλμ΄ μΈμμ λ―ΈμΉλ μν₯μ μμΈ‘ν μ μμ΅λλ€.
μ΄ λ Όλ¬Έμμλ κ°ν νμ΅(RL) λ°©λ²μ΄ μ΄λ¬ν κ²½ν κΈ°λ° νμ΅μ μ€μν μν μ ν κ²μ΄λΌκ³ μ£Όμ₯ν©λλ€. κ°ν νμ΅μ μμ΄μ νΈκ° νκ²½κ³Όμ μνΈμμ©μ ν΅ν΄ μ€μ€λ‘ νμ΅νλ μμ¨ νμ΅μ λΏλ¦¬λ₯Ό λκ³ μμ΅λλ€. RLHFμ κ°μ μΈκ° μ€μ¬ RL κΈ°μ μ μΈκ°μ μ§μμ νμ©νλ λ° ν¨κ³Όμ μ΄μμ§λ§, μμ΄μ νΈκ° κΈ°μ‘΄ μΈκ° μ§μμ λ°μ΄λμ μ μλ€λ νκ³λ₯Ό κ°μ§κ³ μμ΅λλ€. κ²½νμ μλμλ κ΄μ°° λ°μ΄ν°μ κΈ°λ°ν μ μ°ν reward function, λΆμμ ν μνμ€λ₯Ό κ°μ§ κΈ΄ μ€νΈλ¦Όμμ κ°μΉ ν¨μλ₯Ό μΆμ νλ λ°©λ², μΈκ°μ μ¬μ μ§μκ³Ό λ€λ₯Έ μλ‘μ΄ νλμ λ°κ²¬νλ νμ λ°©λ², 볡μ‘ν μνΈμμ©μ ν¬μ°©νλ μΈκ³ λͺ¨λΈ, λ κΈ΄ μκ° λ²μμ κ±Έμ³ μΆλ‘ ν μ μλ μκ° μΆμν λ°©λ² λ±μ΄ μ€μν΄μ§ κ²μ λλ€.
κ²½νμ μλλ κΈμ μ μΈ μΈ‘λ©΄κ³Ό λΆμ μ μΈ μΈ‘λ©΄ λͺ¨λλ₯Ό κ°μ§κ³ μμ΅λλ€. κΈμ μ μΌλ‘λ κ°μΈ λ§μΆ€ν μ§μ, κ³Όνμ λ°κ²¬ κ°μν λ± μ λ‘ μλ λ₯λ ₯μ λ°νν μ μμ΅λλ€. λΆμ μ μΌλ‘λ μΌμ리 λ체, AI μ€μ© λ± μνμ΄ λ°μν μ μμ΅λλ€. λ°λΌμ κ²½ν κΈ°λ° νμ΅μΌλ‘ μμ νκ² μ ννκΈ° μν΄μλ μ μ€ν κ³ λ €μ μ°κ΅¬κ° νμν©λλ€.
κ²°λ‘ μ μΌλ‘, κ²½νμ μλλ AIκ° μΈκ° λ°μ΄ν°λ₯Ό λμ΄ μ€μ€λ‘ νμ΅νλ μλλ₯Ό μλ―Έν©λλ€. κ°ν νμ΅μ μκ³ λ¦¬μ¦ λ°μ κ³Ό ν¨κ» μ΄λ¬ν ν¨λ¬λ€μ μ νμ λ§μ μμμμ μΈκ°μ λ₯λ ₯μ λ°μ΄λλ μλ‘μ΄ λ₯λ ₯μ κ°λ₯νκ² ν κ²μ λλ€.