寂静城° 发表于 2025-3-20 11:10:45

吧友有用纯RL方法grpo训练医疗数据集或者金融股票数据集的吗

目前想让本地部署的deepseek用纯RL方法grpo在医疗领域或者其他领域训练,但我目前在github上看到的用grpo训练的基本都是用数学数据集,没看到用grpo训练医疗或者其他领域数据集的,拜托各位帮忙




半个朋友 发表于 2025-3-20 11:41:32

懂了谢谢大佬
页: [1]
查看完整版本: 吧友有用纯RL方法grpo训练医疗数据集或者金融股票数据集的吗