1

В "A", строки 1-1000, я генерирую случайные числа, используя RAND(). Я хочу выбрать числа между 1-100.

В "B" для 1000 строк у меня есть =RAND()*(100-1)+1

В "C" для 1000 строк я использую числа, которые я сгенерировал в "A", поэтому =A1*(100-1)+1

Средние значения в B и C такие же, как и ожидалось.

Я хочу использовать значения только для 20% времени, поэтому для каждой из 1000 строк:

Для B я использую =IF(A1<0.2,B1,0)
Для C я использую =IF(A1<0.2,C1,0)

Если я сделаю это, средние значения для каждого из двух столбцов сильно различаются.

Кто-нибудь может объяснить, почему?

Оба подхода используют случайные числа. В первом подходе используются два разных случайных числа (из столбца "A" и из столбца "B").

2 ответа2

3

Столбцы A и B имеют одинаковое равномерное распределение, кроме линейного преобразования, но независимы. Функция плотности вероятности B (PDF) для A <0,2 такая же, как PDF для любого другого выбора A.

Столбцы А и С не являются независимыми. На самом деле они полностью детерминированы. Если вы выбираете строки, где A <0,2, вы выбираете только строки, где C <20,8. Вероятность найти значение C больше 20,8 в пределах этого выбора упала до нуля. Очевидно, что распределение изменилось.

Для более наглядного примера рассмотрим бросок двух кубиков (A и B) и их общее количество (C). Я бы ожидал увидеть в среднем 3,5 в столбцах A и B и в среднем 7 в столбце C. Если из этой таблицы я выберу только те строки, в которых выпало A на 1, я все равно получу среднее значение 3,5 в B (независимый), но просто 4,5 вместо 7 в столбце C (зависимый).

0

Для выборки 1 из 5 из ColumnC вместо выбора значения C на основе значения A для соответствующей строки (т. Е. Значений A менее 0,2) попробуйте выбрать образец 1 из 5 C из соседней строки. Скажем, использовать =IF(A1<0.2,C2,0) . Это должно дать вам одинаковые средние значения для двух столбцов (хотя =A1(100-1)+1 не правильно).

Тогда у вас должен быть более или менее репрезентативный показатель 1 из 5 ColumnC, а не просто (приблизительно) увеличенная версия значений, предварительно выбранных в качестве нижних 20%.

Другими словами, ваш «ColumnB» «сильно отличающийся» (но, вероятно, ожидаемый, т. Е. Около 50) средний, вероятно, примерно в пять раз превышает средний показатель выборки ColumnC. Выберите 1 из 10 на основе выше и будет ~ 10 раз.

Вместо того, чтобы увеличивать масштаб, если вы хотите сгенерировать 1000 приблизительно случайных чисел в диапазоне 1-100, вы можете применить =RANDBETWEEN(1,100) .

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .