代码之家 › 专栏 › 技术社区 › erip Jigar Trivedi

如何确保并行化随机种子实验时的可重复性?

mydia multiprocessing random algorithm python-3.x

erip Jigar Trivedi · 技术社区 · 6 年前

我在用 Mydia 从视频中提取随机帧。因为我有很多视频,我想在保持可重复性的同时并行化这个工作流程。 mydia.Videos 接受随机种子,这对于确保重复性很重要。现在我需要处理并行化部分。

鉴于 n 视频和随机种子, r ,如何确保每个视频的提取帧是相同的,而不考虑工人的数量?我对算法组件特别感兴趣,不一定是代码。

我最初的想法是 multiprocessing.Pool . 然而,如果进程的完成时间是不确定的,则在对帧进行采样时将存在竞争条件;i、例如,如果proc1花费的时间比proc0长,则 Videos 类将不同于过程0比过程1花费的时间。

1 回复 | 直到 6 年前

erip Jigar Trivedi 6 年前

我的解决方案有点不合常规,因为它是特定于库的。Mydia允许传递帧以提取,而不是强制 Videos 客户直接取样。这使我有机会预先计算要在父进程中采样的帧。通过这样做,我可以通过实例化一个新的用那些框架。例如:

class MySampler:
   def __init__(self, input_directory: Path, total_frames: int, num_frames: int, fps: int):
       self.input_directory = Path(input_directory)

       self.frames_per_video = [
            self.__get_frame_numbers_for_each_video(total_frames, num_frames, fps)
            for _ in self.input_directory.glob("*.mp4")
        ]

    @staticmethod
    def get_reader(num_frames: int, frames: List[int]):
        # ignores the inputs and returns samples the frames that its constructed with
        return Videos(target_size=(512, 512), num_frames=num_frames, mode=lambda *_: frames)

   def sample_frames(self, number_of_workers: int):
        pool = Pool(processes=number_of_workers)    
        videos = list(self.input_directory.glob("*.mp4"))

        pool.starmap_async(self.read_video, zip(self.frames_per_video, videos))    

        pool.close()
        pool.join()

哪里 read_video 是调用 get_reader 做阅读。

推荐文章

Matthew Thomas · 在每个决策中给出多个选择的所有可能的决策路径/结果

6 月前

feasega · 聚合物模拟-2个节点之间的最短路线,适用于所有节点

7 月前

Alisa Petrova · 在有向图中更改一对顶点以创建循环

7 月前

Matvey Androsyuk · 如何使用React在树结构中呈现我的组件,就像IDE中的默认文件结构一样

8 月前

Pengcheng · 这个简单的递归函数的输出是什么?你能详细解释一下吗?

8 月前

b39b332d · 使用C++标准库实现高效间隔存储

12 月前

Paul C · 在维基百科上,将二叉搜索树转换为排序链表的算法是否存在错误?

12 月前

ABGR · 二叉树的直径——当最长路径不通过根时的失败案例

1 年前

SHUBHAM KUMAR · 这两个是否完全相同-->“下限(股份有限公司rbegin(),股份有限公司rend(),i,更大<int>())”和“下限(dec.begin(

1 年前

EpicAshman · 数独棋盘程序中同一列和同一行出现两次的数字

1 年前