LLM과 모방학습의 누적 오차
learning from demostration에서는 오차가 궤적 길이의 제곱의 상한을 갖는다.
offline RL, imitation learning등등 model based RL(LfD는 아니지만)도 roll out이 너무 길어지면 문제가 발생한다...
그 이유는 간단하게는 data와 test distribution의 차이에 발생한다. action을 했는데 좋지 못한 action을 했다. -> 그 다음 state가 좋지 못한 state가 입력된다. 좋지 못한것은 학습시 못봤던 state일 확률이 높아진다는 뜻이다. 못봤던 입력에 대해서 출력을 내야하므로 출력의 부정확도가 올라가고 계속 이런 과정을 시간에 대해 반복한다.
강화학습의 특징은 next input이 이 전의 action에 대해 causality를 갖는다는 것이기 때문에 이런 누적 오차(compound error)가 발생하는데
LM은 잘 모르지만 LM을 policy로 본다면 next token prediction도 모방학습 세팅으로 나타낼 수 있다. 이 또한 다연히 auto-regressive하다. 이 출력이 자신의 입력으로 들어간다. 강화학습과 마찬가지로 output이 next step input과 causality를 갖는다.
특이한 점은 state space와 action space가 같지는 않지만 동일한 set을 이용한다 state space는 token의 tuple이고 action space는 token의 집합들이다. dynamics는 s_t ,a_t를 붙이는거 정도가 될 것이다.
만약 next-token-prediction을 할 때 학습시에 없던 좋지 못한 단어를 출력하고 다시 입력으로 들어간다. 그럼 이 입력은 학습시 못봤을 입력일 확률이 커진다. 이걸 계속 반복하면 시간에 따라서 이상한 문장이 출력될 확률이 늘어나는 것이 아닐까?
모방학습의 대표적인 알고리즘인 DAgger가 있다. 이는 학습 중간 expert 즉 사람의 개입이 필요한 알고리즘이다. 하지만 이를 통해 error를 크게 낮출 수 있다.
LLM의 RLHF에 대해서는 사실 잘 모른다. 어떤식으로 하는지도, 근데 이름만 들어봐도 사람의 피드백을 통한 강화학습이다. 모델이 언어를 만들고 그걸 피드백해서 reward를 만들어서 강화학습 세팅으로 바꾼다는 것이다. 근데 개인적으로는 supervised learning을 조금 틀어서 학습하는거 아닐까 생각한다. 그러니까 imitation learning에서는 expert가 개입할 때 새로 dataset을 만들어 내는데 이건 preference로 optimal action을 대신 하는 것이다. 그런 관점에서 보면 두 방법을 어떻게 엮어 낼 수 있을거 같다...특히 levine의 control as inference처럼 얼마나 optimal 한지에따라 reward를 주는거니까 RLHF도 어쩌면 SAC처럼 optimal의 lower bound를 maximize할지도 모른다는 생각
아무튼 GPT와 imitation learning을 생각 해보자면 GPT가 학습한 데이터들의 expert는 사람이다. 다시 expert가 개입하는 것인데 어쩌면 이는 DAgger의 접근법과 매우 유사하다고 생각되어진다.