Tag Archives: катастрофи

Новите данни на МВР за катастрофите

от Боян Юруков
лиценз CC BY-SA

През май Мартин пусна картата Черна писта, която показва нагледно данни получени по ЗДОИ от МВР за катастрофите в България с информация за местоположение, време, ситуация и жертви. Данните покриваха периода от 1-ви януари 2021 до 13-ти април 2025. Това прави 162.3 средно на ден. Съдържаха 253674 записа от които 75929 или 30% нямат известно местоположение. Пуснах анализ на тези данни показващи недостатъци в методологията на МВР като например координатите на инцидентите.

Два месеца по-късно Мартин писа, че получава отказ от МВР за последните данни. Малко по-късно сподели комуникацията с тях. Накратко МВР отказва да изпрати същата справка от последните месеци, тъй като работила върху собствена карта. Тази карта виждате долу. Представлява табло, което дава статистика и информация с последните случаи. Има филтри за райони, видове ПТП-та и периоди.

Таблото не е лошо и като плюс има отворени данни като линк долу вдясно. Това е важно, защото както съм изтъквал многократно, трябват ни суровите данни, а не интерпретация или статистика подбрана от институцията създаваща данните. Това създава риск от изкривяване на фактите и предотвратява възможността да проверяваме твърденията им и да си вадим изводи за работата. Спира ни да задаваме и въпроси, като например защо част от данните липсват или ПТП-та се намират в средата на парк или море.

Настоящите данни на МВР може да свалим са под формата на SHP файл, който е труден за използване от повечето хора. Отделно самият сайт предотвратява автоматичното сваляне, а гео сървърът им е затворен, което спира доста интерактивни приложения.

Затова направих скрипт, който всеки ден да сваля данните и да ги обръща в нещо по-използваемо. Може да ги свалите на този линк. Техния архив се обновява ежедневно и съдържа данни от началото на 2024-та. Към този момент съдържа 64255 записа между 1-ви януари 2024 и 4-ти ноември 2025. Това прави 95.5 на ден. От тях 3992 или 6.2% са без известно местоположение.

Тъй като и двете справки покриват цялата 2024-та г. може да направим бързо сравнение. Докато данните получени от Мартин и налични в Черна писта съдържат 63183 записа от които 58051 или почти 92% са с известно местоположение. За сравнение, наличните катастрофи на картата на МВР и отворените им данни са 34664 или почти наполовина по-малко. От тях 31541 или 91% са с известно местоположение.

Това означава, че по някаква причина отворените сега данни от МВР съдържат доста по-малко случаи от тези, които са предоставили на Мартин. Подробно вглеждане в разликите би помогнало да се разбере какво липсва, дали е имало дублиране преди или просто са изчистили грешки. Положителното поне е, че данните на МВР съдържат повече параметри и са публикували описание на номенклатурите и какво означават. Липсва номенклатура за crashtype, но съм я извадил от кода им във файла METADATA. Данните на Черна писта са публикувани на страницата. Ако някой открие различията и има обяснение кои катастрофи липсват и защо, ще се радвам да сподели в коментарите.

The post Новите данни на МВР за катастрофите first appeared on Блогът на Юруков.

Неразбиране и лобизъм срещу глобите за висока средната скорост

от Боян Юруков
лиценз CC BY-SA

Тия дни излезе становище за следенето на средната скорост, което ми се стори толкова абсурдно, че веднага реших, че е излязло от Диана Русинова. Това е същата, която дежури в медиите с фалшива жилетка и още по-измислени тези, но известна с това, че стои зад „експертно“ становище проправил пътя за онзи 215 метров небостъргач в София. Не, в случая става дума за друга организация нямаща общо с официалните институции, която настоява, че системата за следене на средна скорост била пред провал, защото тол камерите не били направени за тази цел. Повтарят и една отколешна теза, че трябвало да се сертифицират камерите, за да можело да следят така движението.

Твърдението беше публикувано от БТА и цитирано от Сега, БНР, Дарик News и много други. Зад института стои Богдан Милчев. Той е бивш шеф на МВР София и е отстранен от поста преди 12 години от тогавашния министър Йовчев от кабинета на Орешарски за несправяне с многото жертви по пътя. Същият Милчев отново преди два дни настоява, че „война по пътищата няма“, а през април възхвалява Пеевски като спасение за безопасността по пътищата. Критикува участието на Русинова в медии и покани от институции, но видимо нивото на компетентност, популизъм и търговия с медийно влияние и експертизи е на същото ниво.

По-важно тук е твърдението за преброителните камерите и следенето на средната скорост. То нито е негово, нито е ново, нито е вярно. Всъщност, както виждаме доста често в последните седмици, поемат се нашумели теми, извъртат се в нещо сензационно и несвързано и се яхват къде за политически, къде за бизнес цели.

Нека го обясня просто, така че дори Русинова и Милчев да го разберат.

Представете си, че си правите селфи разклона на Ветрен при Бургас и го пускате в инста и фейса, защото без content накъде сме. След точно два часа си правите ново селфи на влизане в София и пускате веднага във фейса, защото бързате за поредното дежурене по студията. Всичко шест.

Проблемът е, че имаме две точки, където се знае кога сте били, защото цялата ви работа е да сте пред камерите и соцалките. А разстоянието между тези две точки е грубо 356 км. При нормално каране това ще отнеме поне три часа, но да приемем, че няма ремонти, хранилките на ГЕРБ и ДПС не са крали от дебелината на пътя, та е качествен и няма натоварване и други граничения. Та да кажем, че карате неотклонно със 140 км/ч както е разрешено. Тогава ви трябват точно 2 часа и 32 минути. Минали сте го обаче по-бързо – средно с около 178 км/ч. Браво, юнаци! Има ли значение какъв модел е телефона ви, колата и прочие? Има значение единствено да е ясно в колко часа сте били на дадено място.

Преброителните камерите имат една единствена функция и са сертифицирани отдавна за нея. Те записват номер на кола, която е минала в даден час на дадено място. Това е. Всъщност, записват и доста други параметри, но това е най-важното в случая. Това значи, че въпросните камери си вършат работата и технически данните им могат да се използват за административни процедури и актове за разлика от споделянето в социалките или снимки от лични телефони, тъй като системата е в тол агенцията и е сетрифицирана.

Следенето дали някой има винетка (или тол такса за камионите), гражданска и технически прегледи съответно автоматичното им глобяване е въпрос единствено на използване на тези нормативно издържани данни като се установи, че превозно средство е било на пътя в даден ден при наличието или липсата на друго обстоятелства. С малко повече работа по снимките може да се приложи същото за камините за боклук, дървесен материал и опасни материали , карането в сервизната лента, карането на тирове в забранени части на деня (шум, жега, натоварено движение) и прочие.

Аналогично, по примера горе, тези данни могат да се използват да се установи, че една кола е изминала определено разстояние непонятно бързо. Технически това винаги е било възможно. Оправданието до преди няколко години беше липсата на нормативна уредба да го позволи на КАТ. Всъщност, още преди две години беше готово технически да се следи средната скорост. Тогава именно МВР блокира усилията с аналогични на горните непонятни изисквания за някакво сертифициране. Освен, че пилеят публични ресурси, липсва и обяснение кое налага това технически или нормативно извън желанието на самата полиция да протака тази мярка.

Нещо повече, от самото начало на тол агенцията и преброителните камери, МВР винаги е могла да следи за средна скорост с малко усилия. Има всички данни за всеки минавал някога през дадено място. Това включва както коли на службите и НСО, така и колите на всички, които четем всяка седмица, че са размазали някого на пътя. Да, тези данни не включват камерите от градовете и не включват цялата пътна мрежа, но това е най-вече заради нежелание на МВР. Това означава, че ако е искала, МВР е можела винаги да контролира средна скорост, ако не за глоби, то поне за оценка на риска и маркиране на редовно нарушаващи скоростта номера.

Всичко това следва да ви говори за огромно нежелание и лобиране да се спре тази мярка, както и да се следят системните нарушители. При това идва именно от институции и говорещи глави с редовни заявки в посока намаляване на жертвите по пътищата. Макар сега законът да предвижда следене само на 50 участъка, дори със сегашните камери е възможно много повече, а с добавянето на още, включително общинските, ще може да се покрият и градовете.

Не мислих да се занимавам с темата за следенето на средната скорост и глобите за превишаването ѝ. Питаха ме дори дали няма да правя карта на отсечките. Не писах до сега и не направих карта не защото липсваше разбиране по темата, а защото ми се стори, че именно това неразбиране може би ще подтикне хората все пак да спазват ограниченията.

Наистина, в последните две седмици прекосих България и се виждаше именно това – почти липсваха мигащите, пресвяткащите и натискащите се да карат със 180 докато изпреварваш колона от тирове, например. Едно пътуване е, възможно да е краткотрайно или да съм имал късмет. Вие забелязвате ли разлика?

The post Неразбиране и лобизъм срещу глобите за висока средната скорост first appeared on Блогът на Юруков.

За данните на МВР в Черна писта, проблемите с тях и защо са ни нужни

от Боян Юруков
лиценз CC BY-SA

В разговори и интервюта съм споменавал, че публикувам около 30% от всички данни, които събирам. Обработвам ги, защото искам да разбера по-добре някакъв проблем. Публикувам онези, които виждам, че показват нещо ясно, където съм запознат с ограниченията и мога да ги обясня. Не на последно място – където имам време да направя визуализация или друг начин помагащ на останалите да разберат данните както аз ги виждам в главата си. Друга основна причина е, че често има доста и/или неясни проблеми с качеството при източника, което поставя всякакви анализи и изводи под въпрос.

Когато Мартин пусна Черна писта, той публикува и оригиналната справка предоставена от МВР за катастрофите между 2021 и март 2025-та. Инструментът, който е направил показва лесно точно какво му е предоставено с възможност за филтриране, което е правилния начин и дава добра представа за измеренията на проблема. Всичко, което е направил той е супер.

Когато се вгледах в картата му няколко неща изпъкнаха и исках да се вгледам по-дълбоко. Вкарах данните в няколко мои инструмента и съмненията ми се потвърдиха. Бях обещал да ги опиша по-рано, но честно казано се бях разсеял с демографски данни от Германия показващи, че диаспората ни там намалява, както и crowdsourcing-а на данни за строящи се и довършени сгради в София.

Вникване в проблемите на данните

Снимките, които виждате долу са по-специално от Mapbox heatmap. Коригирах малко формата на справката оправяйки дати, часове и разделителите, за да е нормален csv файл. Може да го свалите тук. Махнах и 30% от записите, които нямат географски координати. Така остават почти 178 хиляди записа за 4 години.

Концентрация на инциденти с пострадали или починали в София
Места с висока концентрация на инциденти в София

Надеждата при използването на такива данни е да откриваме къде са проблемите места и да помогнем да се намалят ранени и жертви. Първата карта горе показва всички катастрофи в София, където е имало поне един ранен или смъртен случай в последните четири години. Виждаме няколко „горещи точки“ оградени. Те са … дворът на КАТ в Дианабад, паркингът пред Пирогов, едно конкретно крило на УМБАЛ Св. Анна и сградата на СДВР. Увеличение на тези места виждате на втората снимка.

Веднага се разбира, че въвеждането на координатите е ставало не при катастрофата, а в офиса на съответните полицаи или където са откарани жертвите. Тук виждаме най-честият проблем при такива данни – лоша или неясна методология на събиране и недобро следене на качеството. Аналогичен проблем показах с данните от регистъра на ражданията. Виждаме го и по веригата между болниците, РЗИ-тата и НСИ при смъртните актове и данните за причини за смърт, особено когато са свързани с бременност.

Това, разбира се, далеч не се ограничава до София. Колкото и критика да търпи СДВР заради отказа им да приемат сигнали за проблеми в движението в София или да съблюдават закона за пиротехниката, аналогични концентрации на координати за инциденти виждаме в Пловдив и Варна – около КАТ, РПУ и болница.

Места с висока концентрация на инциденти с пострадали или починали в Пловдив
Места с висока концентрация на инциденти с пострадали или починали във Варна

Това може да се обясни просто с грешно въвеждане на данните за местоположението. Докато тези случаи са ясни различни, няма начин да знаем дали патрулките не засичат географски координати просто докато са в движение за друго място ефективно „премествайки“ инцидент с убийство другаде. Друг, често независещ от самите патрулки, а по-скоро с техниката въпрос, е точността на засичането. При лошо време, липса на търпение или лоша техника е възможно точката, която виждаме да е на десетки или дори стотици метри от правилното място. Затова виждаме инциденти в средата на паркове, градинки, блокове и въобще места където коли няма.

Всичко това постава под въпрос доколкото може да си правим изводи за конкретни кръстовища или пешеходни пътеки. Особено, когато пресеем данните за блъскания на пешеходци не се откроява някакъв модел или място и това може да се дължи именно на тези недъзи. Въвеждането на категорията и други метаданни също може да е засегната от такива проблеми и зависи изцяло от обученията, колко лесно се използва формуляра за въвеждане и контрола на качеството, какъвто не се забелязва.

Полезни изводи от данните

Нищо от това не значи обаче, че данните не са полезни. Напротив. Пример е дефилето на Кресна. През 2022-ра бяха сложени колчета да разделят лентите. Широко се тиражира, че това е спряло смъртните случаи. На следващата снимка виждаме разликата във всички инциденти. Има пак катастрофи и повечето от тях са с ранени, но както се вижда в дефилето е имало по-малко инциденти между 2022 и март 2025, отколкото цялата 2021-ва. Интересно е обаче, че има изглежда увеличение в самата Кресна. Може да спекулираме, че нетърпеливите дават газ и изпреварват там.

Сравнение на брой инциденти в Кресненското дефиле

Ако разгледаме смъртните случаи, се потвърждава ефикасността на колчетата. Няма фатални случаи след 2022-ра, с изключение на един в Кресна през март 2025-та. Само през 2021-ва е имало поне четири в дефилето.

Сравнение на брой смъртни случаи в Кресненското дефиле

За друг пример се връщаме към София. Имаше отчетливо увеличение на трафика и задръстванията от началото на 2023-та. Моето обяснение е указанията на много работодатели за връщане към офиса, което накара много хора да прекарват повече време в пътуване към офиса и обратно. В същото време обаче видимо се забелязва намаление на инцидентите спрямо предходния период, независимо, че включваме три месеца от 2025-та г.

Сравнение на брой инциденти в София

При анализ на такива данни не трябва да забравяме, че отвъд качеството им, има и други променливи – ремонти на пътя, смяна на интензивност трафик и регулиране на движението, различни метеорологични условия и дори дали големи празници се събират и в кой ден от седмицата се падат. Всичко това трябва да се вземе под внимание като се сравняват периоди правят изводи.

Може, разбира се, да погледнем други аспекти от данните като ден от седмицата. Тук се вижда, че има доста по-малко катастрофи и пострадали в събота и неделя като пикът е в петък. Най-много смъртни случаи се случват в събота и понеделник. Тази картина, разбира се, може да е промени, ако разглеждаме конкретни периоди от годината, части от страната и/или видове катастрофи. В повечето случаи извадките няма да ни покажат нищо значимо, но поне ще ни насочат в какво да се вглеждаме. Какви други справки смятате, че ще са интересни?

Разбира се, всичко описано до тук предполага постоянство в метода на въвеждане на данните. Както описах при проблемите данни на НЦОЗА за абортите, разчитаме на това, че има постоянство дори в недъзите на въвеждането, за да може да правим сравнения със стари периоди. Това обаче е невъзможно да се установи без контролите изброени горе.

От това имаме нужда

Нищо от това не е непременно заклеймяване на МВР и патрулките или критика към Мартин. Както писах по повод на Черна писта – именно това трябва да виждаме и това е правилната стъпка в посока отворени данни и прозрачност. Точно така следва да се използват. Повтарял съм многократно, че данните най-често ни помагат да научим повече са работата на институциите и процесите, с които се изготвят, както и да може да задаваме по-добри въпроси. Виждаме го и тук.

Видимо има проблем с въвеждането – най-малкото 30% от записите на катастрофите са без геолокация, а още доста са на нелогични места. Причината много институции да се дърпат да дават данни или изцяло да отказват достъп с глупави извинения, е че ги е страх именно от такива изводи. Точно обратното следва да се случва – подобна прозрачност може само да доведе до по-добро качество на данни, на които те самите следва да разчитат за работата си. Това може да става чрез контрол на случайна извадка, по-удобни инструменти и обучение на служителите, автоматизация и сверяване с други записи – например застрахователите. Това не е самоцелно, а подобрява нещо, от което самите служители се жалват.

Също толкова важно е обаче хората, които боравим с тези данни, медиите, както и обществото като цяло да не реагира първосигнално, да разбира ограниченията и условностите на данните и практическите възможности за събирането им. Да скачаме, че някой лъже с данни или ги крие е лесно, но пропуска възможността, че спуснатите процеси или обективната реалност може би позволяват само толкова добри данни да бъдат събирани. Виждал съм няколко пъти такава истерия, например при смъртните случаи от пандемията или безследно изчезналите. Неизменно води до един вид парализа в комуникацията с и без това не особено търпящи критика или промяна институции. Не казвам, че не следва да посочваме проблеми – все пак точно това правя с тези редове.

Обикновено нещата се случват, защото някой чиновник пробива апатията и се нарамва да оправи нещо на своя глава. Ако ги изтикваме същите пред камерите и началството със соц манталитет да се обясняват, никой няма да иска да вдигне глава. Призивът ми е да се подхожда конструктивно към администрацията и политическото ръководство да обира негативите, а не обратното.

The post За данните на МВР в Черна писта, проблемите с тях и защо са ни нужни first appeared on Блогът на Юруков.

Черна писта или защо точно така следва да работят отворените данни

от Боян Юруков
лиценз CC BY-SA

Поздравления на Мартин Атанасов за картата, но също така, че е пуснал свободно справката, която са му предоставили от МВР. Наистина се е постарал с визуализацията и е направил нещо, което взима сурови данни и ги показва по разбираем начин.

Забелязах нещо сред коментарите, включително многобройните статии в медиите, което има нужда да се уточни. На много места се говорят неща в посока, че „държавата разчита на ученик да ѝ върши работата“ и „едно момче направи това, което цяла държава не направи“. Не съм съгласен. Това, което Мартин е направил е похвално, включително защото е успял да получи по ЗДОИ данните от МВР, за които много хора търсим и питаме и съдим от години. Многократно през последните 15 години съм повтарял, че не е работа на обществените институции да правят такива визуализации, а да предоставят свободно данните в разбираем и структуриран вид. Картата на Мартин е демонстрация на една от причините защо това е важно.

Последният съм, който ще хвали МВР за предоставяне на данни – все пак именно заради липсата им сложих на пауза проекта Lipsva. В случая обаче са направили именно това, което се очаква от тях като институция. Когато ги исках преди 10 години ми се изсмяха. Преди пет години исках пак и се пробвах да съдя. Миналата година ги искахме с Жоро Пенчев и Божидар Божанов и казаха, че ще помислят как да ги изготвят. Божанов писа днес, че преди два месеца е питал отново да ги предоставят публично и са казали, че „било много сложно“.

Та наистина браво на Мартин, че е успял да ги получи най-накрая и ги пуска свободно. Свалих ги да ги разгледам, защото именно картата му ми показа няколко странни неща, които може би показват повече за работата на КАТ, отколкото за катастрофите. Ако някак не сте видели още, ще я намерите на chernapista.com.

Впрочем, сетих се, че преди 13 години бях направил проект за crowdsourcing на данни за катастрофите. Вадеше данните от бюлетина на КАТ София, но тъй като не бяха геокодирани, а имаха странни адреси, бях направил инструмент и с помощта на хора в Twitter ги поставяхме на карта всеки ден. Продължи доста дълго време и беше интересен експеримент, в който научих доста за модерацията на такива проекти. После се опитах да направя и подобна карта за престъпността, но и тя спря недълго по-късно заради невъзможността да се модерират и изчистват данните. Знам, че МВР има данни за престъпността с точност до части от квартал още през 2015-та, но не ги публикуват никъде.

The post Черна писта или защо точно така следва да работят отворените данни first appeared on Блогът на Юруков.