Skip to content
C, PHP, VB, .NET

 Парадоксът на Симпсън

   от C, PHP, VB, .NET


Парадоксът на Симпсън е една от най-лесните за разгадаване статистически заблуди. За съжаление тя е често прилагана от политиците и е рядко забелязвана от журналисти и общество. Ще го демонстрирам с един измислен пример.

Нека имаме един учебен предмет и две различни методики на преподаване. Например това може да е експеримент за промяна на начина на провеждане на едно от упражненията в курса. Желаем да съпоставим методиките и да преценим коя от тях води до по-добри резултати при обучението студентите. За целта пускаме обучението паралелно в две различни групи, а в края на годината извършваме общ изпит, при който мерим подготовката на студентите чрез тест. На тестът могат да се съберат максимум 100 точки от всеки студент. Ако даден студент е изкарал 68 точки, ще казваме, че неговата успеваемост е 68%. Ние обаче се интересуваме от успеваемостта на цялата група. Ако тя например се състои от 10 човека, те биха могли да съберат общо максимум 1000 точки. Ако те са събрали общо 700, ще казваме, че успеваемостта на групата е 70%. Експериментът се провел в четири последователни години и отчел следните резултати:

Година

Методика 1

Методика 2

Максимален брой точки

Получени точки

Успеваемост

Максимален брой точки

Получени точки

Успеваемост

2010

1500

975

65%

1300

819

63%

2011

1800

1170

65%

1100

660

60%

2012

1000

800

80%

2000

1550

77,5%

2013

1200

864

72%

1400

994

71%

Виждаме, че през всяка една от учебните години имаме по-висока успеваемост при методика 1 спрямо методика 2 – винаги има налични между 1% и 5% преднина в полза на методика 1. Виждаме и общите тенденции – явно през 2010г. и 2011г. випуските са били по-слаби спрямо тези след тях (и двете групи имат по-ниски резултати през 2010 и 2011 спрямо 2012 и 2013). Това е нормално при подобни експерименти, които се провеждат с живи хора. Дотук бихме направили логичен извод, че методика 1 все пак е по-добра от методика 2.

Ако обаче направим обобщение за четирите години, ще видим следните:

  • Методика 1: Събрани са 3809 точки от 5500 възможни или успеваемост от 69,25%
  • Методика 2: Събрани са 4023 точки от 5800 възможни или успеваемост от 69,36%

Виждаме, че все пак методика 2 е дала по-добри обобщени резултати, макар и с минимална (с такива малки извадки бих казал напълно пренебрежима) разлика. И сега кое е вярното – няма разлика между методиките или пък методика 1 е по-добра? По важното в случая не е да гледаме конкретния пример, а математическата му основа – имаме категорична демонстрация за това как заради грешно моделиране един по-лош във всички частни случаи експеримент може да даде положителни резултати като цяло. Това естествено се получава тогава, когато в отделните частни случаи групите не са равнопоставени. От примерът през 2012г. в методика 1 групата е наполовина по-малка от групата на методика 2, а именно тогава резултатите са най-високи и обратно – при най-ниските резултати през 2011г. групата на методика 1 е със значително повече студенти. В този конкретен случай можем да твърдим, че отделни експерименти са проведени некоректно, откъдето и обобщените резултати също би трябвало да приемем за некоректни.

Подобни казуси, освен както споменах с любимото превръщане на статистиката в „стъкмистика“ от страна на политиците, изникват нерядко и в ежедневния живот в най-различни сфери. Има примери в медицината, където експериментални лечения показват отлични резултати в частни случаи, но лоши като цяло. Може да се моделират, че дори и намерят реални примери в спорта, демографията (преброявания на населението в различни години), и къде ли още не. Ето хубавият пример от Уикипедия, в който се съпоставят две различни лечения на камъни в бъбреците:

Лечение 1

Лечение 2

Малки камъни

Група 1.1

Група 2.1

93% (81/87)

87% (234/270)

Големи камъни

Група 1.2

Група 2.2

73% (192/263)

69% (55/80)

Обобщен резултат

78% (273/350)

83% (289/350)

Изводът от подобни примери трябва да е ясен за всеки човек – не съдете за ефективността на дадена мярка по лошо моделирани частни случаи, защото техните резултати ще бъдат некоректни, а от там и обобщенията няма как да са вярни.

П.П. Нееднократната ми препратка към политиката е свързана с наскоро гръмналите сензационни „новини“, че в България се е случила тотална и непреодолима демографска катастрофа, а до Х години тук всичко ще се обитава от цигани. Демографска криза има, но начините, по които тези хора я измерват, е меко казано скандално некоректен…