Reward models 1

Revolutionizing Large Language Models: Active Preference Elicitation for Online Alignment

Large Language Models Online Alignment Reinforcement Learning Human Feedback Reward Models

•4 Jun, 2024

Revolutionizing Large Language Models: Active Preference Elicitation for Online Alignment

By Desmond Morales