Devin - power harassment & RLHF

Devinとは
Devin(https://devin.ai/)は、自律駆動型AI Agentで、、、という説明は省いて。
Cognition AI SWE, as is well known ...
Devin自体の開発には、競プロ界では聞いたことがない人がいないであろうtouristも開発に参画しているらしい。
Power harassment prompt make devin to return ACUs.
あとバズってたこれ
実際にパワハラプロンプトを投げるとACUを返してくれる
褒めプロンプトでもACU (Agent Compute Unit; 課金単位。1ACU-人間の15分と言われている?)を返してくれた。
RHLF: Reinforcement Learning from Human Feedback
なぜDevinにACUの権限が移譲されてるか考えてて、RHLF (Reinforcement Learning from Human Feedback)をしているんではないかと思った。OpenAIのChatGPTもたまに2個回答出してどっちがいい?みたいな聞いてくるあれ。
トレーニングにおける人間のフィードバックはコストのかかるものだと言われている(ref: https://www.ibm.com/jp-ja/think/topics/rlhf)。Uberもこの事業に最近参入している。(ref: https://forbesjapan.com/articles/detail/80141)
自分たちのサービスを使っているそのユーザーにFeedbackをしてもらうことで、よくあるトレーニングのためのclick workerを大量に雇うより安価で高品質なフィードバックは得られそう。
かつ、ACUを返却するというインセンティブを与えることでよりフィードバックの機会を促しているようにも思える。
人間からのフィードバックによる強化学習は、LLMにおいて有効であると、OpenAIもarXivに投稿している (ref:https://openai.com/ja-JP/index/instruction-following/?utm_source=chatgpt.com, https://arxiv.org/abs/2203.02155)
ときメモ使ったRLHFを使ったLLMの学習手法の検討というシュールすぎる論文もあった。(ref: https://www.jstage.jst.go.jp/article/pjsai/JSAI2024/0/JSAI2024_4A1GS602/_article/-char/ja/)