代码之家  ›  专栏  ›  技术社区  ›  ircmaxell

用概率分布生成随机数

  •  8
  • ircmaxell  · 技术社区  · 15 年前

    好吧,这是我的问题。我们正在考虑从一家公司购买一个数据集来扩充我们现有的数据集。就这个问题而言,假设这个数据集用一个有机数字对位置进行排序(也就是说,分配给一个位置的数字与分配给另一个位置的数字没有关系)。技术范围是0到无穷大,但从我看到的样本集来看,它是0到70。从样本来看,这绝对不是一个统一的分布(在10000个样本中,可能有5个地方的得分超过40,50个地方的得分超过10,1000个地方的得分超过1)。在我们决定购买这个集合之前,我们想模拟一下它,这样我们就能知道它有多有用。

    所以,为了模拟它,我一直在考虑为每个地方生成一个随机数(大约150000个随机数)。但是,我也希望保持数据的精神,保持分布相对相同(或至少合理接近)。我一整天都在绞尽脑汁,想办法做到这一点,结果却一无所获。

    有人认为我必须将随机数平方(0到sqrt(70))。但这对小于1和大于1的数字都有利。

    我想他在第一象限的实际分布应该是双曲线的…我只是想知道如何将随机数的线性、偶数分布转化为双曲线分布(如果我首先想要的是双曲线)。

    有什么想法吗?

    所以,总而言之,这是我想要的分布(大约):

    • 40-70:0.02%-0.05%
    • 10-40:0.5%-1%
    • 1-10:10%-20%
    • 0-1:余数(78.95%-89.48%)
    4 回复  |  直到 15 年前
        1
  •  10
  •   Aniko    15 年前

    Look at distributions used in reliability analysis - they tend to have these long tails. A relatively simply possibility is the Weibull distribution with P(X>x)=exp[-(x/b)^a].

    将您的值拟合为p(x>1)=0.1和p(x>10)=0.005,我得到a=0.36和b=0.1。这意味着p(x>40)*10000=1.6,这有点低,但p(x>70)*10000=0.2这是合理的。

    编辑 为了从一个统一的(0,1)值u生成一个威布尔分布随机变量,只需计算b*[-log(1-u)]^(1/a)。这是1-p(x>x)的逆函数,以防我计算错误。

        2
  •  8
  •   Mark Baker    15 年前

    几年前为php4编写的,只需选择您的发行版:

    <?php
    
    define( 'RandomGaussian',           'gaussian' ) ;          //  gaussianWeightedRandom()
    define( 'RandomBell',               'bell' ) ;              //  bellWeightedRandom()
    define( 'RandomGaussianRising',     'gaussianRising' ) ;    //  gaussianWeightedRisingRandom()
    define( 'RandomGaussianFalling',    'gaussianFalling' ) ;   //  gaussianWeightedFallingRandom()
    define( 'RandomGamma',              'gamma' ) ;             //  gammaWeightedRandom()
    define( 'RandomGammaQaD',           'gammaQaD' ) ;          //  QaDgammaWeightedRandom()
    define( 'RandomLogarithmic10',      'log10' ) ;             //  logarithmic10WeightedRandom()
    define( 'RandomLogarithmic',        'log' ) ;               //  logarithmicWeightedRandom()
    define( 'RandomPoisson',            'poisson' ) ;           //  poissonWeightedRandom()
    define( 'RandomDome',               'dome' ) ;              //  domeWeightedRandom()
    define( 'RandomSaw',                'saw' ) ;               //  sawWeightedRandom()
    define( 'RandomPyramid',            'pyramid' ) ;           //  pyramidWeightedRandom()
    define( 'RandomLinear',             'linear' ) ;            //  linearWeightedRandom()
    define( 'RandomUnweighted',         'non' ) ;               //  nonWeightedRandom()
    
    
    
    function mkseed()
    {
        srand(hexdec(substr(md5(microtime()), -8)) & 0x7fffffff) ;
    }   //  function mkseed()
    
    
    
    
    /*
    function factorial($in) {
        if ($in == 1) {
            return $in ;
        }
        return ($in * factorial($in - 1.0)) ;
    }   //  function factorial()
    
    
    function factorial($in) {
        $out = 1 ;
        for ($i = 2; $i <= $in; $i++) {
            $out *= $i ;
        }
    
        return $out ;
    }   //  function factorial()
    */
    
    
    
    
    function random_0_1()
    {
        //  returns random number using mt_rand() with a flat distribution from 0 to 1 inclusive
        //
        return (float) mt_rand() / (float) mt_getrandmax() ;
    }   //  random_0_1()
    
    
    function random_PN()
    {
        //  returns random number using mt_rand() with a flat distribution from -1 to 1 inclusive
        //
        return (2.0 * random_0_1()) - 1.0 ;
    }   //  function random_PN()
    
    
    
    
    function gauss()
    {
        static $useExists = false ;
        static $useValue ;
    
        if ($useExists) {
            //  Use value from a previous call to this function
            //
            $useExists = false ;
            return $useValue ;
        } else {
            //  Polar form of the Box-Muller transformation
            //
            $w = 2.0 ;
            while (($w >= 1.0) || ($w == 0.0)) {
                $x = random_PN() ;
                $y = random_PN() ;
                $w = ($x * $x) + ($y * $y) ;
            }
            $w = sqrt((-2.0 * log($w)) / $w) ;
    
            //  Set value for next call to this function
            //
            $useValue = $y * $w ;
            $useExists = true ;
    
            return $x * $w ;
        }
    }   //  function gauss()
    
    
    function gauss_ms( $mean,
                       $stddev )
    {
        //  Adjust our gaussian random to fit the mean and standard deviation
        //  The division by 4 is an arbitrary value to help fit the distribution
        //      within our required range, and gives a best fit for $stddev = 1.0
        //
        return gauss() * ($stddev/4) + $mean;
    }   //  function gauss_ms()
    
    
    function gaussianWeightedRandom( $LowValue,
                                     $maxRand,
                                     $mean=0.0,
                                     $stddev=2.0 )
    {
        //  Adjust a gaussian random value to fit within our specified range
        //      by 'trimming' the extreme values as the distribution curve
        //      approaches +/- infinity
        $rand_val = $LowValue + $maxRand ;
        while (($rand_val < $LowValue) || ($rand_val >= ($LowValue + $maxRand))) {
            $rand_val = floor(gauss_ms($mean,$stddev) * $maxRand) + $LowValue ;
            $rand_val = ($rand_val + $maxRand) / 2 ;
        }
    
        return $rand_val ;
    }   //  function gaussianWeightedRandom()
    
    
    function bellWeightedRandom( $LowValue,
                                 $maxRand )
    {
        return gaussianWeightedRandom( $LowValue, $maxRand, 0.0, 1.0 ) ;
    }   //  function bellWeightedRandom()
    
    
    function gaussianWeightedRisingRandom( $LowValue,
                                           $maxRand )
    {
        //  Adjust a gaussian random value to fit within our specified range
        //      by 'trimming' the extreme values as the distribution curve
        //      approaches +/- infinity
        //  The division by 4 is an arbitrary value to help fit the distribution
        //      within our required range
        $rand_val = $LowValue + $maxRand ;
        while (($rand_val < $LowValue) || ($rand_val >= ($LowValue + $maxRand))) {
            $rand_val = $maxRand - round((abs(gauss()) / 4) * $maxRand) + $LowValue ;
        }
    
        return $rand_val ;
    }   //  function gaussianWeightedRisingRandom()
    
    
    function gaussianWeightedFallingRandom( $LowValue,
                                            $maxRand )
    {
        //  Adjust a gaussian random value to fit within our specified range
        //      by 'trimming' the extreme values as the distribution curve
        //      approaches +/- infinity
        //  The division by 4 is an arbitrary value to help fit the distribution
        //      within our required range
        $rand_val = $LowValue + $maxRand ;
        while (($rand_val < $LowValue) || ($rand_val >= ($LowValue + $maxRand))) {
            $rand_val = floor((abs(gauss()) / 4) * $maxRand) + $LowValue ;
        }
    
        return $rand_val ;
    }   //  function gaussianWeightedFallingRandom()
    
    
    function logarithmic($mean=1.0, $lambda=5.0)
    {
        return ($mean * -log(random_0_1())) / $lambda ;
    }   //  function logarithmic()
    
    
    function logarithmicWeightedRandom( $LowValue,
                                        $maxRand )
    {
        do {
            $rand_val = logarithmic() ;
        } while ($rand_val > 1) ;
    
        return floor($rand_val * $maxRand) + $LowValue ;
    }   //  function logarithmicWeightedRandom()
    
    
    function logarithmic10( $lambda=0.5 )
    {
        return abs(-log10(random_0_1()) / $lambda) ;
    }   //  function logarithmic10()
    
    
    function logarithmic10WeightedRandom( $LowValue,
                                          $maxRand )
    {
        do {
            $rand_val = logarithmic10() ;
        } while ($rand_val > 1) ;
    
        return floor($rand_val * $maxRand) + $LowValue ;
    }   //  function logarithmic10WeightedRandom()
    
    
    function gamma( $lambda=3.0 )
    {
        $wLambda = $lambda + 1.0 ;
        if ($lambda <= 8.0) {
            //  Use direct method, adding waiting times
            $x = 1.0 ;
            for ($j = 1; $j <= $wLambda; $j++) {
                $x *= random_0_1() ;
            }
            $x = -log($x) ;
        } else {
            //  Use rejection method
            do {
                do {
                    //  Generate the tangent of a random angle, the equivalent of
                    //      $y = tan(pi * random_0_1())
                    do {
                        $v1 = random_0_1() ;
                        $v2 = random_PN() ;
                    } while (($v1 * $v1 + $v2 * $v2) > 1.0) ;
                    $y = $v2 / $v1 ;
                    $s = sqrt(2.0 * $lambda + 1.0) ;
                    $x = $s * $y + $lambda ;
                //  Reject in the region of zero probability
                } while ($x <= 0.0) ;
                //  Ratio of probability function to comparison function
                $e = (1.0 + $y * $y) * exp($lambda * log($x / $lambda) - $s * $y) ;
            //  Reject on the basis of a second uniform deviate
            } while (random_0_1() > $e) ;
        }
    
        return $x ;
    }   //  function gamma()
    
    
    function gammaWeightedRandom( $LowValue,
                                  $maxRand )
    {
        do {
            $rand_val = gamma() / 12 ;
        } while ($rand_val > 1) ;
    
        return floor($rand_val * $maxRand) + $LowValue ;
    }   //  function gammaWeightedRandom()
    
    
    function QaDgammaWeightedRandom( $LowValue,
                                     $maxRand )
    {
        return round((asin(random_0_1()) + (asin(random_0_1()))) * $maxRand / pi()) + $LowValue ;
    }   //  function QaDgammaWeightedRandom()
    
    
    function gammaln($in)
    {
        $tmp = $in + 4.5 ;
        $tmp -= ($in - 0.5) * log($tmp) ;
    
        $ser = 1.000000000190015
                + (76.18009172947146 / $in)
                - (86.50532032941677 / ($in + 1.0))
                + (24.01409824083091 / ($in + 2.0))
                - (1.231739572450155 / ($in + 3.0))
                + (0.1208650973866179e-2 / ($in + 4.0))
                - (0.5395239384953e-5 / ($in + 5.0)) ;
    
        return (log(2.5066282746310005 * $ser) - $tmp) ;
    }   //  function gammaln()
    
    
    function poisson( $lambda=1.0 )
    {
        static $oldLambda ;
        static $g, $sq, $alxm ;
    
        if ($lambda <= 12.0) {
            //  Use direct method
            if ($lambda <> $oldLambda) {
                $oldLambda = $lambda ;
                $g = exp(-$lambda) ;
            }
            $x = -1 ;
            $t = 1.0 ;
            do {
                ++$x ;
                $t *= random_0_1() ;
            } while ($t > $g) ;
        } else {
            //  Use rejection method
            if ($lambda <> $oldLambda) {
                $oldLambda = $lambda ;
                $sq = sqrt(2.0 * $lambda) ;
                $alxm = log($lambda) ;
                $g = $lambda * $alxm - gammaln($lambda + 1.0) ;
            }
            do {
                do {
                    //  $y is a deviate from a Lorentzian comparison function
                    $y = tan(pi() * random_0_1()) ;
                    $x = $sq * $y + $lambda ;
                //  Reject if close to zero probability
                } while ($x < 0.0) ;
                $x = floor($x) ;
                //  Ratio of the desired distribution to the comparison function
                //  We accept or reject by comparing it to another uniform deviate
                //  The factor 0.9 is used so that $t never exceeds 1
                $t = 0.9 * (1.0 + $y * $y) * exp($x * $alxm - gammaln($x + 1.0) - $g) ;
            } while (random_0_1() > $t) ;
        }
    
        return $x ;
    }   //  function poisson()
    
    
    function poissonWeightedRandom( $LowValue,
                                    $maxRand )
    {
        do {
            $rand_val = poisson() / $maxRand ;
        } while ($rand_val > 1) ;
    
        return floor($x * $maxRand) + $LowValue ;
    }   //  function poissonWeightedRandom()
    
    
    function binomial( $lambda=6.0 )
    {
    }
    
    
    function domeWeightedRandom( $LowValue,
                                 $maxRand )
    {
        return floor(sin(random_0_1() * (pi() / 2)) * $maxRand) + $LowValue ;
    }   //  function bellWeightedRandom()
    
    
    function sawWeightedRandom( $LowValue,
                                $maxRand )
    {
        return floor((atan(random_0_1()) + atan(random_0_1())) * $maxRand / (pi()/2)) + $LowValue ;
    }   //  function sawWeightedRandom()
    
    
    function pyramidWeightedRandom( $LowValue,
                                   $maxRand )
    {
        return floor((random_0_1() + random_0_1()) / 2 * $maxRand) + $LowValue ;
    }   //  function pyramidWeightedRandom()
    
    
    function linearWeightedRandom( $LowValue,
                                   $maxRand )
    {
        return floor(random_0_1() * ($maxRand)) + $LowValue ;
    }   //  function linearWeightedRandom()
    
    
    function nonWeightedRandom( $LowValue,
                                $maxRand )
    {
        return rand($LowValue,$maxRand+$LowValue-1) ;
    }   //  function nonWeightedRandom()
    
    
    
    
    function weightedRandom( $Method,
                             $LowValue,
                             $maxRand )
    {
        switch($Method) {
            case RandomGaussian         :
                $rVal = gaussianWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomBell             :
                $rVal = bellWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomGaussianRising   :
                $rVal = gaussianWeightedRisingRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomGaussianFalling  :
                $rVal = gaussianWeightedFallingRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomGamma            :
                $rVal = gammaWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomGammaQaD         :
                $rVal = QaDgammaWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomLogarithmic10    :
                $rVal = logarithmic10WeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomLogarithmic      :
                $rVal = logarithmicWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomPoisson          :
                $rVal = poissonWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomDome             :
                $rVal = domeWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomSaw              :
                $rVal = sawWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomPyramid          :
                $rVal = pyramidWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            case RandomLinear           :
                $rVal = linearWeightedRandom( $LowValue, $maxRand ) ;
                break ;
            default                     :
                $rVal = nonWeightedRandom( $LowValue, $maxRand ) ;
                break ;
        }
    
        return $rVal;
    }
    
    ?>
    
        3
  •  2
  •   demeteloaf    15 年前

    按照给定分布生成随机数的最简单(但不是非常有效)方法是一种称为 Von Neumann Rejection .

    对这项技术的简单解释就是这样。创建一个完全封闭分发内容的框。(让我们呼叫您的分发 f )然后选择一个随机点 (x,y) 盒子里。如果 y < f(x) 然后使用 x 作为随机数。如果 y > f(x) ,然后丢弃两者 X y 再选一个点。继续,直到有足够的值可供使用。价值观 X 如果您不拒绝,将根据 f .

        4
  •  0
  •   Jonas Elfström    15 年前

    这种幼稚的做法很可能会以我目前看不到的方式扭曲分布。其思想是简单地迭代第一个数据集,排序并成对。然后在每对之间随机化15个新数字,得到新的数组。

    Ruby示例,因为我不会说太多PHP。希望这样一个简单的想法应该很容易翻译成PHP。

    numbers=[0.1,0.1,0.12,0.13,0.15,0.17,0.3,0.4,0.42,0.6,1,3,5,7,13,19,27,42,69]
    more_numbers=[]
    numbers.each_cons(2) { |a,b| 15.times { more_numbers << a+rand()*(b-a) } }
    more_numbers.sort!
    
    推荐文章