{"chosen": xxx, "rejected": xxx}
注意:
xxx文本已经添加了正确的提示,用于区别人类和bot,如 Human: \n{text}\n\nAssistant: \n{text}
bash scripts/run_rm.sh
注意:
configs/accelerate_config_rm.yaml
中"distributed_type"从"DEEPSPEED"改为"MULTI_GPU"{"text": xxx}
注意:xxx文本已经添加了正确的提示,用于区别人类和bot,如 Human: \n{text}\n\nAssistant: \n
bash scripts/run_ppo.sh
注意:
num_processes * batch_size
,否则部分进程拿不到数据,出现报错,输出中 Train dataset length
可以看到经过长度过滤的数据集大小num_processes * batch_size
,每个进程只会从自己的 batch
中采样,而不是从全局的 num_processes * batch_size
中采样,这会导致每个gpu采到的 mini_batch
不是完全随机的,mini_batch
不包含其它进程 batch
中的样本格式:
{"chosen":xxx, "reject":xxx, "prompt":xxx}
一条数据样例:
{"chosen": "水的化学式是H2O。这意味着每个水分子由两个氢原子(H)和一个氧原子(O)组成。在这个结构中,氢原子和氧原子通过共价键相连。", "rejected": "H2O.", "prompt": "Human: \n水的化学式是什么?\n\nAssistant: \n"}
首先,请将“train/scripts”下“run_dpo.sh”脚本中的“...”改成所需参数值
其次:
cd train/scripts
bash run_dpo.sh
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )