代码之家 › 专栏 › 技术社区 › oakca

用强化学习代替差分进化实现网络优化控制

black-box differential-evolution reinforcement-learning python

oakca · 技术社区 · 5 月前

我目前正在优化一个控制问题,试图将网络从随机状态移动到所需状态。

决策变量如下:

n个连续变量的向量
m个二元变量的向量

目前,我对连续变量使用标准差分进化,对二进制向量使用特殊的二进制解算算法。我想知道我是否可以为此设置实现RL模型?

更多信息: n通常为10-20,m通常为80-100。我正在收敛到某种期望的状态,大约10000-20000次不同的进化尝试,这需要一些时间。主要是因为每次迭代,我都需要做一些耗时的物理计算。对于差分进化算法,这种计算可以并行处理,但由于许可,它需要花费很多钱。因此,目前我一次只能进行一次计算,大约需要1到1.5秒。总共需要10000-30000秒才能完成。

你认为我学习RL并尝试通过RL解决这个问题值得吗?请记住,RL算法还需要为每次交互等待1.5秒,因为我会将其操作发送到许可软件并接收其输出。

电流: