Н.Д. Кликунов (klikunov_nd) wrote,
Н.Д. Кликунов
klikunov_nd

Рандомизация, сегментирование, группировка, кластеризация и подобная хрень...

Вот есть статистическая задача. По выборке сделать некоторое заключение о генеральной совокупности. Генеральная совокупность и, следовательно, выборка неоднородна. Она характеризуется некоторым набором, как это сейчас модно, адресов. Если мы ведем речь о людях (пациентах, респондентах, потребителях и т.д.), то таким типичными адресами являются возраст, пол, место проживания, доход. Причем эти адреса могут быть устойчивыми во времени (например, пол), могут меняться непонятно как (например, доход), могут меняться постепенно (возраст)
Вопрос -  можем ли мы подобрать идеальную выборку, воздействуя на которую мы бы получили представление с заданной вероятностью о поведении генеральной совокупности? Ответ нет. Ввиду условности любой из наших группировок.
В институте просто учат. Приходит препод и говорит -  делай так. Например, сначала сегментируй по месту жительства, потом по полу, потом по доходу. На другие адреса забей, они не значимы... Почему я должен ему верить? Потому, что он так уже делал и метода работает. С погрешностью, но работает. А если мы пересегментируем, например в качестве первого фактора возьмем доход, то метода будет работать лучше или хуже? Практик ответит - не знаю, проверять надо. И начнутся исследования стандартных отклонений, коэффициентов детерминации и т.п.
На эту тему писал еще Аристотель. Любая группировка условна! Невозможна идеальная каталогизация. Нет, идеальная каталогизация предполагает уникальность каждой книги. Тогда зачем вся эта хрень?
Для выработки дедуктивной гипотезы. Вся статистика с эконометрикой сами по себе ничего особенного не значат. Ну сгруппировали не совсем так, ну и чо?  Важно то, как меняется наша выборка под воздействием, желательно, одного внешнего фактора. Выборка не может быть устойчивой во времени, если в выборке люди. Поэтому допуски и погрешности будут достаточно велики, т.е. несопоставимы с химией, физикой и другими науками, имеющими дело с неживым. Не в этом задача. Задача состоит в попытке фальсификации модели, т.е. попытке опровергнуть гипотезу о влиянии фактора Х на фактор Y. Посмотрели как люди вели себя до, поставили эксперимент, если возможно, сопоставили результаты в контрольной и экспериментальной группе, сделали вывод. Повторили эксперимент. Не работает? Отбросили дедуктивную гипотезу, сформулировали новую...
А если трудности с экспериментом? Тогда степень достоверности снижается, индукции-то нет, а временной ряд по определению неустойчив. Но это не значит, что нужно ограничится исключительно априорными рассуждениями. Все равно нужно считать, только понимать при этом, что достоверность прогнозов будет ниже. И ничего в этом страшного нет, люди разные и чем они более разные, тем сложнее предсказывать их поведение. 
Tags: Наука, Хреньология
Subscribe

  • Post a new comment

    Error

    default userpic
    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments