Görev tamamlanma süresindeki varyans telafi etkisini nasıl etkiler?

16

Diyelim ki geniş bir görev koleksiyonumuz var $\tau_1, \tau_2, ..., \tau_n$ ve işlemci (performans açısından) özdeş bir koleksiyon $\rho_1, \rho_2, ..., \rho_m$ tamamen paralel çalışır. İlgilendiğiniz senaryolar için olduğunu varsayabiliriz $m \leq n$ . Her $\tau_i$ bir işlemci atanan bir kez tamamlamak için zaman / döngü bir miktar alır $\rho_j$ ve bir kez atandığında, tamamlanana kadar yeniden atanamaz (işlemciler her zaman sonunda atanan görevleri tamamlar). Birbirlerinin olduğunu varsayalım $\tau_i$ gibi bir süre alır / devir $X_i$ değil, önceden bilinen bazı ayrık rasgele dağılımından alınan. Bu soru için, hatta basit bir dağılım kabul edilebilir $P(X_i = 1) = P(X_i = 5) = 1/2$ , ve tüm $X_i$ olan ikili bağımsız. Bu nedenle $\mu_i = 3$ ve $\sigma^2 = 4$ .

Statik olarak, zaman / döngü 0'da, tüm görevlerin tüm işlemcilere olabildiğince eşit olarak, eşit olarak rastgele atandığını varsayalım; böylece her işlemciye görevleri $\rho_j$ atanır (aynı zamanda sorunun amaçları için olduğunu da varsayabiliriz ). Makaraya, son işlemcinin atanan çalışmasını bitirdiği, atanan işi bitirdiği zaman / döngü diyoruz . İlk soru: $n/m$ $m | n$ $\rho^*$

, ve 'nin bir fonksiyonu olarak , markası nedir? Özellikle, nedir? ? $m$ $n$ $X_i$ $M$ $E[M]$ $Var[M]$

İkinci soru:

Varsayalım , ve , yani ikili bağımsız ve . , ve bu yeni bir fonksiyonu olarak $P(X_i = 2) = P(X_i = 4) = 1/2$ $X_i$ $\mu_i = 3$ $\sigma^2 = 1$ $m$ $n$ $X_i$ 'nin marka nedir? Daha ilginç olarak, ilk bölümün cevabı ile nasıl karşılaştırılır?

Bazı basit düşünce deneyleri, ikincisinin cevabının, üreticinin daha uzun olduğunu göstermektedir. Peki bu nasıl ölçülebilir? Eğer (a) tartışmalı ya da (b) belirsizse örnek göndermekten mutluluk duyacağım. Bunun başarısına bağlı olarak, aynı varsayımlar altında dinamik bir atama şeması hakkında bir takip sorusu göndereceğim. Şimdiden teşekkürler!

Kolay bir vakanın analizi: $m = 1$

Eğer , tüm görevi aynı işlemciye yapılmaktadır. markası , görevi tamamıyla sıralı bir şekilde tamamlamanın tam zamanı . Bu nedenle, $m = 1$ $n$ $M$ $n$ ve

\begin{aligned} E [M] & = E [X_{1} + X_{2} + . . . + X_{n}] \\ = E [X_{1}] + E [X_{2}] + . . . + E [X_{n}] \\ = μ + μ + . . . + μ \\ = n μ \end{aligned}

$\begin{align*} E[M] &= E[X_1 + X_2 + ... + X_n] \\ &= E[X_1] + E[X_2] + ... + E[X_n] \\ &= \mu + \mu + ... + \mu \\ &= n\mu \end{align*}$

\begin{aligned} V a r [M] & = V a r [X_{1} + X_{2} + . . . + X_{n}] \\ = V a r [X_{1}] + V a r [X_{2}] + . . . + V a r [X_{n}] \\ = σ^{2} + σ^{2} + . . . + σ^{2} \\ = n σ^{2} \end{aligned}

$\begin{align*} Var[M] &= Var[X_1 + X_2 + ... + X_n] \\ &= Var[X_1] + Var[X_2] + ... + Var[X_n] \\ &= \sigma^2 + \sigma^2 + ... + \sigma^2 \\ &= n\sigma^2 \\ \end{align*}$

Bu sonucu sorusunu cevaplamak için kullanmak mümkün görünebilir ; basitçe için bir ifade (veya yakın bir yaklaşım) bulmalıyız burada $m > 1$ $\max(Y_1, Y_2, ..., Y_m)$ ,ile rastgele bir değişken $Y_i = X_{i\frac{n}{m} + 1} + X_{i\frac{n}{m} + 2} + ... + X_{i\frac{n}{m} + \frac{n}{m}}$ ve $\mu_Y = \frac{n}{m}\mu_X$ . Bu doğru yönde mi gidiyor? $\sigma_Y^2 = \frac{n}{m}\sigma_X^2$

probability-theory scheduling parallel-computing

— Patrick87
kaynak

Güzel soru. Bugün sadece bir son tarih olmasaydı ...

— Dave Clarke

8

As , biz açısından bu bakabilirsiniz ve yerine ve . Diyelim ki , işlemcinin işini bitirmesi için geçen süredir . $m = k \times n$ $k$ $n$ $n$ $m$ $T_i$ $i$

Olarak büyür, bu olasılık = (işlemci sadece verildiği bazı görevler) yaklaşımlar çok tamamlanma zamanı olarak tanımlanır, , yaklaşımlar . $n$ $T_i$ $5k$ $T=5$ $i$ $1$ $\mathrm{max}(T_i)$ $E[M]$ $5k$

İkinci senaryoda bu bu nedenle işlemci sayısını artırmak 4–2 bölünmesini daha iyi hale getirir. $4k$

- işlemci başına görev sayısını arttırmaya ne dersiniz ? Artan ters etkisi vardır, şanssız görevlere sahip bir işlemciye sahip olma olasılığını azaltır. Şimdi eve gidiyorum ama buna daha sonra geri döneceğim. Benim "önsezi" olarak olmasıdır büyür, farkı 4-2 bölünmüş ve 5-1 bölünmüş kaybolana arasında, ikisi için de aynı olur. Bu nedenle, belki de olsa, bazı özel durumlar ( ve çok küçük spesifik değerleri) dışında 4–2'nin her zaman daha iyi olduğunu varsayabilirim . $k$ $k$ $k$ $E[M]$ $E[M]$ $k$ $n$

Özetlemek gerekirse:

Düşük varyans daha iyidir, diğer her şey eşittir.
İşlemci sayısı arttıkça daha düşük varyans daha önemli hale gelir.
İşlemci başına görev sayısı arttıkça daha düşük sapma daha az önem kazanır.

— svinja
kaynak

+1 Excellent intuition, and this helps to clarify my thinking as well. So increasing processor counts tends to increase makespan under a weak scaling assumption; and increasing task counts tends to decrease makespan under a strong scaling assumption (of course it takes longer; I mean the work/makespan ratio improves). These are interesting observations, and they seem true;

— Patrick87

the first is justified by the fact that

1 - (1 - P (X = 5)^{k})^{n}

$1 - (1 - P(X = 5)^k)^n$ tends to

1

$1$ for fixed

k

$k$ and increasing

n

$n$ ; the latter by the fact that

V a r [X + X] = V a r [X] + V a r [X] = 2 σ^{2} \leq 4 σ^{2} = 4 V a r [X] = V a r [2 X]

$Var[X + X] = Var[X] + Var[X] = 2\sigma^2 \leq 4\sigma^2 = 4Var[X] = Var[2X]$ ... so the variance doesn't increase linearly as a function of

k

$k$ . Is that compatible with your thinking (that's how I'm interpreting what you have so far)?

— Patrick87

I don't know where the "hunch" came from; it is not consistent with the rest of the heuristic reasoning.

— András Salamon

2

I find that heuristic arguments are often quite misleading when considering task scheduling (and closely related problems like bin packing). Things can happen that are counter-intuitive. For such a simple case, it is worthwhile actually doing the probability theory.

Let $n = km$ with $k$ a positive integer. Suppose $T_{ij}$ is the time taken to complete the $j$ -th task given to processor $i$ . This is a random variable with mean $\mu$ and variance $\sigma^2$ . The expected makespan in the first case is

E [M] = E [max {\sum_{j = 1}^{k} T_{i j} ∣ i = 1, 2, \dots, m}] .

$E[M] = E[\max \left\{\sum_{j=1}^k T_{ij} \mid i=1,2,\dots,m \right\}].$ The sums are all iid with mean

k μ

$k\mu$ and variance

k σ^{2}

$k\sigma^2$ , assuming that

T_{i j}

$T_{ij}$ are all iid (this is stronger than pairwise independence).

Now to obtain the expectation of a maximum, one either needs more information about the distribution, or one has to settle for distribution-free bounds, such as:

Peter J. Downey, Distribution-free bounds on the expectation of the maximum with scheduling applications, Operations Research Letters 9, 189–201, 1990. doi:10.1016/0167-6377(90)90018-Z

which can be applied if the processor-wise sums are iid. This would not necessarily be the case if the underlying times were just pairwise independent. In particular, by Theorem 1 the expected makespan is bounded above by

E [M] \leq k μ + σ \sqrt{k} \frac{n - 1}{\sqrt{2 n - 1}} .

$E[M] \le k\mu + \sigma\sqrt{k}\frac{n-1}{\sqrt{2n-1}}.$ Downey also gives a particular distribution achieving this bound, although the distribution changes as

n

$n$ does, and is not exactly natural.

Note that the bound says that the expected makespan can increase as any of the parameters increase: the variance $\sigma^2$ , the number of processors $n$ , or the number of tasks per processor $k$ .

For your second question, the low-variance scenario resulting in a larger makespan seems to be an unlikely outcome of a thought experiment. Let $X = \max_{i=1}^m X_i$ denote the makespan for the first distribution, and $Y = \max_{i=1}^m Y_i$ for the second (with all other parameters the same). Here $X_i$ and $Y_i$ denote the sums of $k$ task durations corresponding to processor $i$ under the two distributions. For all $x \ge k\mu$ , independence yields

P r [X \leq x] = \prod_{i = 1}^{m} P r [X_{i} \leq x] \leq \prod_{i = 1}^{m} P r [Y_{i} \leq x] = P r [Y \leq x] .

$Pr[X \le x] = \prod_{i=1}^m Pr[X_i \le x] \le \prod_{i=1}^m Pr[Y_i \le x] = Pr[Y \le x].$ Since most of the mass of the probability distribution of the maximum will be above its mean,

E [X]

$E[X]$ will therefore tend to be larger than

E [Y]

$E[Y]$ . This is not a completely rigorous answer, but in short, the second case seems preferable.

— András Salamon
kaynak