1

У меня есть данные уровня фирмы по различным переменным, но большой набор данных отсутствует. Поэтому я хочу уменьшить размер моего набора данных, исключив фирмы, у которых очень мало наблюдений. Я не хочу делать это вручную. Есть ли эффективный способ решить эту проблему в Excel?

2 ответа2

3

Создайте копию своей книги, чтобы вы могли изменить ее

  1. Создайте новый лист в вашей новой книге.

  2. Получите уникальный список названий компаний и поместите его в новый лист. Вы можете сделать это, используя команду фильтра без дубликатов.

  3. Теперь используйте функцию countif(), чтобы подсчитать, сколько раз появляется каждая компания. Выясните, на чем будет основываться ваше сокращение, то есть решите, сколько раз компания должна иметь запись для ее включения.

  4. Предположим, вы хотите вести компании только с 10 или более наблюдениями. На исходном листе со всеми наблюдениями создайте новую переменную COUNT в столбце и используйте функцию VLOOKUP, где вы хотите найти название компании на новом листе и импортировать счетчик того, сколько раз эта компания появлялась. Это должно дать вам столбец, в котором для каждой компании у вас есть значение в столбце COUNT, соответствующее тому, сколько раз эта компания появлялась (значение должно быть одинаковым для всех наблюдений этой компании).

  5. Сортируйте исходный лист по переменной COUNT в порядке убывания. Это означает, что компании с наибольшим количеством наблюдений будут на вершине.

  6. Удалить все компании с менее чем десятью наблюдениями.

Подводя итог: выясните, сколько раз появляется каждая компания. Отсортируйте наблюдения по этому значению. Отбросьте компании, у которых слишком мало наблюдений.

Я не знаю, действительно ли это вопрос статистики, а не вопрос Excel.

0

Я бы сделал что-то похожее на ответ @ Deathkill14, но я бы построил шаги 1-5, используя сводную таблицу. В области списка полей сводной таблицы я перетащил бы название компании в метки строк и снова перетащил его в область значений, чтобы получить счетчик по имени.

Затем я щелкнул бы по любой ячейке с названием компании в сводной таблице и на ленте данных нажмите Сортировка, затем выберите «По убыванию по количеству названий компаний».

Если вы пытаетесь управлять большими наборами данных в Excel, вам следует обратиться к Power Pivot, также известной как Модель данных Excel. Это сжимает данные для производительности и поддерживает табличные отношения и формулы.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .