代码之家  ›  专栏  ›  技术社区  ›  oakca

用强化学习代替差分进化实现网络优化控制

  •  0
  • oakca  · 技术社区  · 5 月前

    我目前正在优化一个控制问题,试图将网络从随机状态移动到所需状态。

    决策变量如下:

    • n个连续变量的向量
    • m个二元变量的向量

    目前,我对连续变量使用标准差分进化,对二进制向量使用特殊的二进制解算算法。我想知道我是否可以为此设置实现RL模型?

    更多信息: n通常为10-20,m通常为80-100。我正在收敛到某种期望的状态,大约10000-20000次不同的进化尝试,这需要一些时间。主要是因为每次迭代,我都需要做一些耗时的物理计算。对于差分进化算法,这种计算可以并行处理,但由于许可,它需要花费很多钱。因此,目前我一次只能进行一次计算,大约需要1到1.5秒。总共需要10000-30000秒才能完成。

    你认为我学习RL并尝试通过RL解决这个问题值得吗?请记住,RL算法还需要为每次交互等待1.5秒,因为我会将其操作发送到许可软件并接收其输出。

    电流:

    1. 从初始猜测开始算法
    2. 将所有初始猜测发送到黑板软件1by1
    3. 接收黑体软件1by1的所有输出
    4. 启动差分进化循环
    5. 创建新的猜测1by1,将它们发送到黑板,获取输出并评分
    6. 如果得分更高,则用新猜测替换旧猜测
    7. 做5-6次,10000次,得到最好的分数猜测
    0 回复  |  直到 5 月前