Tag Archives: Данни

Забелязва се спад в раждаемостта след пандемията и може би не засяга България

от Боян Юруков
лиценз CC BY-SA

Вчера, когато привършвах текста ми за картата на Евростат, се замислих над още нещо. Защо забелязваме спад в тоталния индекс на плодовитостта сред повечето европейски държави в последните две години? Поне това на пръв поглед се виждаше взирайки се в данните им. Реших да се задълбая повече и излязоха няколко интересни наблюдения. Ще се опитам да дам свое обяснение за тях, макар несъмнено за всяка държава те и други имат различна тежест.

Каква е динамиката?

Тъй като говорим за доста числа и държави, реших да разгледам две конкретни години – 2019 и последната известна 2023-та. С други думи – преди и след пандемията. Защо избрах тях и защо не трябва да избързваме с изводите ще обясня по-нататък, но ето първо графиката. Тук сравнявам 24 държави включени в данните на Евростат. При 18 има спад от над 9% за пет години, което е сериозно. При Унгария, Хърватия и Португалия практически няма промяна, а при Сърбия и Македония има съответно увеличение от 6.6% и 18%. Тях ще разгледаме след малко. Най-голям спад има при Турция от 20%, както и при Полша, Швеция, Грузия, Естония, Латвия и Литва от между 15% и 21%.

Интересното е, че сред държавите от ЕС една от трите без намаление е България. При това е с най-голямо увеличение от 1.12%. Както коментирах в предишната статия, плодовитостта не трябва да се разглежда в изолация или дори кратък период, макар в определени случаи да е неизбежно. В случая дори да сравним 2023-та със средната стойност за същите държави между 2017 и 2019-та, картината не се променя. България дори скача с 3.82%. Тук важна бележка е, че изключвам държави като Кипър и Люксембург заради малкото население.

Държавите, където няма намаление за този период, са България, Сърбия, Македония, Унгария, Хърватия, Португалия и Кипър. Кривите им за последните десет години са добро начало, за да разберем условностите им, което да ни даде и идея за тези с голямо намаление.

Виждаме голяма вариация и в зависимост коя година вземем, получаваме различен ръст. При България, например, практически липсва промяна след 2018-та, след като до тогава има постоянно подобрение на плодовитостта. Въпреки това, се виждат леки пикове през 2019-там, 2021 и 2023-та, което прави сравнението горе подходящо. При Сърбия и Македония се отчита значително повишение след кризата. При Унгария и Хърватия виждаме първоначален скок от 1-2 години, след което рязък спад. При Португалия виждаме пък спад и после възстановяване, а при Кипър ситуацията в по-скоро като България. С други думи, при всички изброени с изключение на Сърбия и Македония виждаме по-скоро еднократни ефекти. Вижда се ясно обаче, че България има значително по-висока плодовитост от останалите дори с положителна тенденция и това е силен сигнал, който не трябва да се пренебрегва.

Възможни обяснения

Още в началото на пандемията, когато се разбра, че няма да свърши за няколко месеца, имаше твърдения, че тя ще доведе до сериозно увеличение на раждаемостта, а от там и плодовитостта. В това имаше някаква логика. От една страна, историята показва, че след кризи и войни има скок в раждаемостта като форма на компенсиране. От друга, много хора бяха затворени вкъщи продължително без много какво да правят.

Тези твърдения обаче се базират на повърхностно разбиране на поведението на хората, още повече в днешното общество. Голямата несигурност и смърт всъщност намалява шансовете двойки да се решат на деца. Видяхме го през 90-те в България. Това е още по-вярно във време, когато поне някаква част от населението има някаква здравна и сексуална култура и възможност да се предпазят от бременност. В тази връзка, не се забеляза увеличение на абортите нито според данните на НЗОК, нито според оценките на организации занимаващи се с темата. Има дори постоянно намаление – както в абсолютен брой, така и спрямо брой жени и брой раждания.

Както виждаме горе, забелязва се спад в раждаемостта в много държави. Средното за целия Европейски съюз (без Великобритания) е 9.8% надолу между 2019 и 2023-та. Една причина за това може да е продължаващата политическа и икономическа несигурност. Водещ фактор си остава застаряващото население, повишаващата се средна възраст на раждане и променящата се възрастова структура на жените в детеродна възраст. По време на пандемията пък навярно изолацията е имала ефект – когато не излизаш продължително време или общо страниш от групи, не срещаш нови хора, не заформяш връзки и семейства и от тях – деца. Това е феномен наблюдаван от много време в Япония и е основен проблем в демографията им, но по културни причини.

В държави крайно зависещи от имиграция за закрепване на демографското си положение като Италия, Германия и Франция пандемията доведе до намаляване на този поток. Като допълним затварянето на границите, паника подтикната от нативистични и националистически настроения, засилването на радикалните партии и общите негативни настроения срещу чужденците, разбираемо е защо притокът на деца и млади семейства, които да раждат такива би намалял, а тези вече на място биха отложили такова решение.

В България може би е имало отчасти положителен ефект от този процес. Шовинизма, расизма и сегрегацията са все още твърде сериозно заложени в обществото ни и работната среда и в комбинация с корупция и мудна бюрокрация никога не сме успявали да привлечем значително количество външни работници. Така временен спад не би се отразил толкова, но означава и че дългосрочно сами ограничаваме възможностите си като общество и икономика. От друга страна, имаше от рано сигнали подкрепени от последвали данни, че доста българи се върнаха в рамките на пандемията и останаха в България. Някои от тях навярно вече имат деца и са помогнали за наблюдаваното леко увеличение на плодовитостта. Аз съм сред тях, макар връщането ми в България да беше планирано доста преди самата пандемия.

Да не бързаме с изводите

Не трябва обаче да се взираме прекалено в тези отделни числа, защото те се влияят твърде силно от много фактори. В Унгария, например, широко тиражираните мерки за стимулиране на раждаемостта и брака сред семействата имаха еднократен и скромен успех. Причината за това е липсата на разбиране за мотивацията на хората и същността на проблемите, но и също, че бяха диктувани от религиозни, националистически и консервативни догми.

В други страни локализирани проблеми, кризи и несигурност имат голямо влияние върху числата. Пример за прибалтийските републики и заплахата от агресия от страна на Русия. Дори неща като инфлацията, която видяхме в Европа и освен всичко подпомогна изкачването на анти-системни партии, може да е фактор.

Но основен фактор според мен е вътрешната демографска динамика в самите държави, която съвсем очаквано не върви в синхрон. Често предупреждавам да не се сравнява така механично метрики между държавите, особено такива в конкретен момент във времето. Всяка метрика има своя смисъл, обяснение и приложение, но имаме склонност да ги изкарваме от контекст без особено разбиране. За тоталният коефициент на плодовитост навярно това важи в най-голяма степен.

В различните държави в детеродна възраст влизат и излизат различен брой жени. У нас в последните години влизат доста заради повишената раждаемост преди 15 години. Също така, различни социални фактори като възраст на завършване на училищата, практики за започване на университет, социална и трудова защита, достъпност до помощ и финансиране за подпомагане на репродуктивното здраве и промени в тези мерки и възможност в последните години могат да имат еднократен ефект, който за се види като сигнал в тези данни. Понякога дори продължителна липса на медикамент важен за хора с трудности в зачеването може да създаде ефект съизмерим с онези, които виждаме горе.

Не на последно място, данните за някои от изброените държави са предварителни и подлежат на корекция. Докато повечето деца родени през 2023-та са били заченати в условията на пандемията и още в началото на войната в Украйна, когато се смяташе, че ще свърши бързо, не може да знаем колко тази несигурност им се е отразила. Трябва да изчакаме окончателните данни за 2024-та и дори 2025-та, за да видим дали обсъжданото е имало по-сериозен ефект и какъв.

Затова е важно да четем с разбиране, да поставяме нещата под въпрос и в контекст, да сме запознати с методологията и ограниченията на данните и да не търсим гръмки твърдения и още по-малко – обяснения на ефект, който ни се ще да видим. Най-големият проблем на които да е данни е не в тях самите, а в презумпциите, с които подхождаме.

The post Забелязва се спад в раждаемостта след пандемията и може би не засяга България first appeared on Блогът на Юруков.

Картата на Евростат за плодовитостта и какво всъщност ни показва?

от Боян Юруков
лиценз CC BY-SA

Горната снимка обиколи мрежата в петък, когато Eurostat обнови данните си за раждаемостта в Европа. Тя беше посрещната с разнопосочни реакции, но най-честата беше радост, че сме на първо място в България по брой деца на жена в детеродна възраст – 1.81. Доколкото това изглежда е вярно, има няколко важни подробности, които бяха пропуснати по веригата.

Първо, препоръчвам да прегледате статията ми обясняваща подробно каква е разликата между плодовитост и раждаемост и защо всъщност е нямало скок в първото преди три години. В графиката илюстрирам как и защо коригирам населението след последните две преброявания и как това се отразява на този индекс.

Имаше критика към преизчисляването на коефициента в същата статия, която пуснах през август 2024-та. От дискусиите се виждаше, че причината е предимно това, че показваше практически застой в последните седем години и неизбежните изводи за промяната на условията на живот в годините преди 2018-та и влиянието им за решенията на двойките. Данните публикувани на 7-ми март 2025-та от Евростат обаче съвпадат почти идеално с моите корекции. Голямата разлика е през 2012-та, когато те взимат числото на НСИ като базова точка, а аз го преизчислявам. Отклонението в другите години е под 0.7% и се дължи на това, че аз имам данни за ражданията само по възрастови групи, а не по отделни възрасти на майките. Все пак са доста точки и потвърждават моите изводи шест месеца по рано.

Много по-важно в случая обаче е, че макар да виждаме добри сигнали, трябва да ги поставим в контекст. Макар да имаме тази година най-висок показател в Европа, плодовитостта има значение единствено ако се разглежда в продължителен период от време, защото тогава проличават истинският ефект върху населението и обществото. Краткосрочен скок или спад носи само шумни заглавия, но само толкова. Притеснителен е застоя в последните години, макар по-долу ще покажа, че на фона на Европа може и да е добра новина. Въпреки това фактът, че е под 2.1 остава проблем. Зад това число има много детайли и съм ги обсъждал често. Най-важното е, че се използва премного за консервативана пропаганда целяща намаляване правата на жените без обаче да показват особено разбиране или работещи решения. Също така, плодовитостта е само един от многото параметри на демографията, не съществува в изолация и свеждането му до едно число, макар удобно, скрива много важни детайли като възрастовото разпределение на майките, еднократни ефекти, здравеопазване, реална смъртност на жени и новородени и прочие.

Забелязва се също разминаване с данните за други държави като Турция с официалните такива за 2023-та. Това може да се обясни с преизчислението, което правят за всички на база оценките за населението и дали имат достъп до окончателни данни. Всъщност, имаше разминаване и с данните на НСИ. Ще забележите че в статията ми от август миналата година за 2023-та съм посочил плодовитостта от НСИ да е 1.79. Тъй като пазя всичко, което свалям като данни, виждам, че това е показвал порталът Инфостат, когато свалих справката на 29-ти април 2024. Днес числото е коригирано на 1.81, което съвпада точно с моята оценка и тази на Евростат.

Предупрежавам, че трябва да се много внимателни когато сравняваме показатели между държави, особено такива зависещи от възрастовата структура на населението като смъртност, рак или заболевамост. В случая тези стойности могат да се сравняват като имаме едно наум, че има голяма вариация в средната възраст на раждане и разпределението по възрасти. Затова нека направим няколко сравнения.

Първо тук виждате коефициентът на плодовитост на България от 1960 до 2023-та по данни и оценки на Евростат. След резкия спад през 90-те виждаме бързо покачване. Вижда се спирането на растежа в последните седем години. На практика през 2018-та сме стигнали нивото, което е имала България преди голямата миграция от една трета от младото тогава поколение. След това обаче България на практика е спряла в демографското си развитие по този показател.

В следващите две графики ще видите сравнение за същия период между за България и няколко други европейски държави. Вижда се, че след възстановяването от кризата през 90-те сме задминали Германия преди 20 години. Повишението при тях в последните 10 години се дължи изцяло на външна миграция. В последните няколко години сме задминали дори шампионите демографски – Ирландия и Франция. Франция е интересен случай, защото има ниска раждаемост в последните 200 години и често се използва като ранен пре-индустриален пример за изследване на демографски преход. Ирландия пък показва много висока плодовитост през 60-те, но аналогичен на нас спад след това, но траещ 25 години вместо 10 и по други причини.

Тук виждаме сравнение със съседите ни. Демографския преход при всички съвпада с икономически крах и напускане на сериозна част от младите. Виждаме, че при Гърция в започнал 10 години по-рано и все още остава доста нисък. Плодовитостта в България и Румъния върви практически в унисон до пандемията, което може да даде индикации, че се диктува основно от външни фактори и общи черти и промени на ситуацията в двете държави. След пандемията обаче виждаме сериозен спад в Румъния, както и в Гърция, докато в България нещата остават непроменени.

За пълните данни препоръчвам да погледнете статията на Евростат и таблицата им, както и таблицата в Инфостат на НСИ, а тук ще намерите последните справки, карта и методологията им

The post Картата на Евростат за плодовитостта и какво всъщност ни показва? first appeared on Блогът на Юруков.

Няколко бързи справки за българите в Германия

от Боян Юруков
лиценз CC BY-SA

Споделял съм, че всички данни и инструменти, които пускам, са защото съм си задал някога някакъв въпрос и търсенето на отговор отива понякога твърде далече. Това показах в участието ми в Ratio наскоро. Случва се да си цъкам на телефона отваряйки източници, изследвания, статистически данни и прочие и когато таблиците станат десетки сядам да ги комбинирам, за да извлека пресечната точка между тях. Това стана и вчера с данните за българите в Германия.

Имам цяла серия от текстове разглеждащи различни аспекти от най-голямата ни диаспора там. Накрая на статията ще изредя някои от тях. Вчера започнах да готвя поредната такава статия, но в течение на нещата пуснах няколко бързи справки в социалките. Получи се дискусия под тях, отчасти не особено приятна. Чух се с трима души след това, на които им беше интересно и искаха детайли за различни аспекти от данните. Затова пускам и тук кратките изводи, които си направих вчера в реда, в който ги пуснах с кратки редакции. Последната всъщност не е конкретно за българите в Германия, но има връзка, която съм дискутирал преди. Пълната статия с подробен списък от таблиците на DeStatis, които използвам ще сложа там.


Бърза статистика за българите в Германия за 2023-та.

  • 19% не са завършили основно. 27% са с някакво висше
  • В домакинства, където поне един човек е българин, средният нето доход на работещ е 1883 евро. От този доход после се плащат местни данъци, сметки, такси за кола, застраховки, наем и прочие. Средното за страната е 2302 евро
  • Сред българите, които са емигрирали в Германия, 16.8% получават социални помощи, а още 28.7% се налага да разчитат на друга държавна или общинска помощ, тъй като доходите им не стигат
  • Ако включим и децата им родени в Германия, т.е. всички хора с някакъв български произход, то броят разчитащи на социални помощи намалява на 15.6%, но тези, които се налага да оцеляват с друга държавна или общинска помощ се увеличава на 37.4%
  • Часовете, които се налага българите емигрирали в Германия да работят, са повече от средното за Германия – с поне 3-4 часа. Особено при българките работата над 45 часа на седмица се среща с 50% по-често от мъжете
  • 33% от заетите българи в Германия работят през събота. 19.1% – през неделя. При жените това е с 1/3 по-вероятно да се случи от мъжете
  • 63% от българите емигрирали в Германия имат за майчин език български. 21% е турски. 25% от децата родени в Германия от български емигранти говорят само немски език.

Вероятността българин роден в България с майчин език турски да емигрира в Германия е 3 пъти по-голяма, отколкото тези с майчин език български. При българите с майчин език ромски или друг разликата е 4.3 пъти.

Това обяснява защо намаляват съответно с 4 и 9% като дял от населението, т.е. много по-бързо от общото намаление. Ровя се в детайлни статистически справки и изследвания в различни държави и изскачат някои неща. Ще ги обобщя скоро.


За първите 11 месеца на 2024-та (януари до ноември) на всеки 10000 души с германско гражданство, същите са открили 46.9 бизнеса каквито ние бихме нарекли startup, малък бизнес или едноличен търговец. Откупили са 1.9 бизнеса и са закрили 40.2 бизнеса.

Жителите на Германия с българско гражданство са открили 135.5 на 10000 души от диаспората ни там, откупили са 4.9 бизнеса и са затворили 112.5. Тоест, сънародниците ни в Германия са три пъти по-предприемчиви от германските граждани и с една идея по-малко бизнеси затворили спрямо открити.

По този показател ни бият само поляците и румънците с 188.8 и 148.9. Само дето поляците за тези 11 месеца са затворили повече, отколкото са отворили – 206.9. Гърците и Турците най-много готови бизнеси откупуват – 11.4 и 15.8 съответно.

Средното сред емигрантите (като изключим поляци, румънци и турци) е 81 открити малки бизнеса, 6.1 откупени и 56.9 затворени. Чужденците с двойно гражданство се броят навсякъде за германци в тази статистика.


Според три различни метрики броят на родените от българи деца в Германия е намалял с между 7 и 12% между 2021 и края на 2023 г. Броят деца с родители българи е намалял с 4% за същия период, а броят на българите в детеродна възраст – с 7%.

Натурализация (взимане на германски паспорт) би могло да обясни само 1/5 от това намаление, но така се предполага, че никой не е емигрирал от България или други страни към Германия в тези възрастови групи.


Две интересни разбивки на работещите по възрасти в Германия. Първата графика показва заетостта на мъже и жени през 2005, 2010 и 2022. Виждаме, че и през 2022-ра и мъжете и жените се пенсионират много по-късно заради увеличената възраст на пенсиониране. Виждаме и силно намалената заетост на жените между 25 и 40 години.

Втората графика показва разбивка на половете по това дали имат деца. Практически няма разлика между мъже и жени, ако нямат деца. С деца обаче мъжете има много по-голяма заетост в Германия дори след 45 години, а преди това жените на 25 или 30 години имат заетост от 20 до 40%. Това е повече от красноречиво за отношението на работното място и в дома.

Целият доклад ще намерите тук.


Ето още статии, които съм разглеждал такива детайли. Статията с данните за 2018-та съдържа повече информация за заплащане, помощи и икономически възможности.

The post Няколко бързи справки за българите в Германия first appeared on Блогът на Юруков.

Нов бюлетин за строителството в София

от Боян Юруков
лиценз CC BY-SA

Доста неща се случиха покрай проекта GovAlert и конкретно данните за градоустройството и строителството в София. От няколко справки, с които сам да осмисля както се случва, той се разви в многопластов инструмент позволяващ проследяване на процеси и онагледяване на сложни аспекти от бъдещето на града. За последната година близо 10% от пълнолетното население на София посети картата с документите, 3D визуализациите и отделните информационни канали. С други думи – изглежда доста хора намериха това, което правя, за полезно.

Все пак, отчитам, че потокът от информация е значителен и труден за осмисляне. Картата на бъдещото застрояване, филтрите към нея и за документите трябваше да помогнат, но не бе достатъчно. През 2024-та съобщих за 10448 документа, от които 95.5% са видими на картата. За 2023-та бяха 12153 или по 49 на всеки работен ден само за София. Събирах идеи и предложения. Най-честото желание беше някакъв формат, в който всеки да вижда само документи за места близо до дома или офиса. Алтернативно – само за района, в който живеят. Това е нещо, което исках да направя от самото начало, но отлагах заради сложността и обвързаните разходи за такава услуга.

Всичко, което съм създал тук, както и другите проекти за визуализации и отворени данни, правя на свой гръб подтикнат от желанието да си отговоря на въпросите, които ме занимават и в процеса да помогна на други да го направят. Най-удобен канал за повечето е мейл, но изпращането до много хора е обвързано с разходи. За да е надеждно и да не отиват в спам, трябва да се използва платена услуга. Осъзнах го докато правех бюлетина за гласуващите в чужбина, където на всеки вот изпращам по няколко мейла на над 3000 абонирали се. В онзи случай обаче изпращането е еднократно и (принципно) рядко докато динамиката около застрояването е постоянна.

Затова реших да направя бюлетин под формата на платена услуга, което да покрие разходите по това и други аспекти на картите, които правя. Идеята за това всъщност дойде от призивите, които получавам да пусна Patreon или друга подобна форма позволяваща дарения и подкрепа. Реших да комбинирам двете неща, за да има някаква стойност, която се получава в замяна. Ако има интерес, имам идеи как да развия бюлетина с допълнителни категории, филтри, градове и източници. Приемам всякаква обратна връзка и идеи.

При абонамент имате възможност да изберете в кой час на деня искате да получавате мейла. Може да го искате със сутришното кафе, в обедната почивка или вечерта след като са свършили работа в НАГ. Независимо кога изберете, ще получавате всички документи от последните 24 работни часа. Това значи, че в понеделник сутринта ще получавате всичко от петък. Събота и неделя ще е тихо.

След това може да изберете какво ви интересува. Може да центрирате картата около дадено място и да получавате документи в радиус от малко над километър около него. Може да изберете конкретен район. Над 96% от откритите документи успявам по един или друг начин да свържа с конкретен имот или улица. Ако обаче не успея, повечето от останалите свързвам с район. Ако изберете място с радиус, ще получавате и документите, които може би са от интерес, защото се отнасят до района ви. Има единици, които се отнасят до цяла София или дори с район не съм успял да свържа автоматично (написани на ръка, например). Те се получават от всички. Ако в дадения ден няма документи, които ви засягат няма да получите мейл.

Целта е да се ограничи потокът от информация засягащ цялата София и десетки документи на ден до няколко, които занимават само Вас. Разбира се, мястото и района, както и часът на получаване могат да се променят. Дал съм възможност за абонамент на месечна или годишна база. Плащането става карта през сигурна система, която се използва често от други в България. Абонаментът може да се прекъсне по всяко време като ще продължите да получавате мейли до края на предплатения период. Ако искате да спрете и това, моля пишете ми като отговорите на някой от мейлите от бюлетина.

Обвързването на документи с имоти става автоматично. Например, сайтът ми изчита дневния ред за бъдещи заседания на експертни съвети решаващи по ПУП-ове и разрешения за строеж и открива номера на имоти и сгради, след това ги слага на картата. Някои от числата може да са грешни, а някои – описани с думи, адреси или други означения, които не могат да се засекат автоматично. Отделно самите документи и отбелязване им в НАГ и Столична община става на ръка, което е водело до грешки в миналото. Това означава, че засичането дали на документ или новина попада в зоната на интерес, не е абсолютно сигурно и както до сега е възможно някои документи да бъдат пропуснати или маркирани неподходящо. С подобряване на прозрачността на Столична община, метаданните и дигитализацията на процесите, това ще се подобри. Бюлетина ми може да е само толкова добър, колкото е източникът, което важи за всичко свързано с данни.

Разбира се, остават да работят и ще развивам старите канали, по които тези документи са достъпни. Такава е ActivityPub страницата с линкове към социалките, картата с документите и тази с 3D застрояването. Всички документи ги има и на страницата на НАГ в различни регистри. Целта на новият бюлетин е да намали обемът информация, който ви залива по всички канали до степен, в която не изпитваме парализа в желанието си да променим нещо.

Ако имате въпроси, идеи или някаква обратна връзка, ще се радвам да ги обсъдим в коментарите.

The post Нов бюлетин за строителството в София first appeared on Блогът на Юруков.

Числото, което ще чуете днес, е грешно

от Боян Юруков
лиценз CC BY-SA

В следващите дни ще срещнете едно число често из медиите – 48754. Толкова раждания е имало в България през 2024-та г. поне според сайта clinica.bg. С това число има много проблеми, но се цитира редовно по това време в последните години заради острата липса на други данни – също толкова грешни или изцяло подправени, но подходящи за генериране на сензация.

Писал съм много по темата в последните 15 години и накрая ще сложа изчерпателен списък с текстовете ми разглеждащи различни аспекти на данните за раждаемостта, както и хронологията на проблемите със съобщаването им. Тук ще се опитам сравнително кратко да обясня защо горното число е грешно, от къде е взето и защо спрях отдавна да следя данните, които въпросния сайт съобщава.

Още на 3-ти януари предупредих в социалките, че това число ще излезе около тази дата. Дадох за пример разминаването миналата година с няколко хиляди деца на тогавашното число изнесено от clinica.bg и данните на НСИ. Проблемът на данните им е първо източникът, второ времето на справката и трето какво всъщност показва и какви твърдения правят с него.

Първо, те твърдят, че се базира на данните на НЗОК за заплатени раждания в страната. Таблицата, която показват, дава разбивка за брой секцио, недоносени, усложнения и прочие. Тази справка не е от НЗОК, а по-специално от регистъра за ражданията. Това е един злополучен регистър, за който ще прочетете много в списъка със статии по-долу, но за сега трябва да знаете, че болниците следва да подават данни за всяко раждане и детайлите по него. Знам, че са взели данните от там, защото през 2018-та получих същата разбивка по болници и публикувах статистика от нея. Колкото и да беше интересна, заради описаните по-долу проблеми спрях да я следя, тъй като е безсмислена.

Макар болниците да имат задължение до три дни да публикуват данни за ражданията, много малко го правят. Някои въвеждат със забавяне от 3 до 6 месеца, някои не въвеждат правилно. Това значи, че данните за някои раждания през 2024-та може да се въведат чак април или май. Това установих след няколко годишно автоматично следене и анализ на публичната част от регистъра. След анализа ми и предупрежденията, че се използва само за фалшиви новини, въпросната публична част беше спряна. Частта за болниците и задължението им обаче остана. Няма индикации да има промяна в липсата на контрол над качеството на данните, което ги прави също толкова ненадеждни, колкото преди десет години. Това важи и за разбивката по усложнения и начин на израждане.

Друго сведение, че не са използвали данните на НЗОК за плащания, а регистъра за ражданията е разминаването им с данните на НЦОЗА. Критика към техните данни имам премного и отново ще я намерите в списъка долу. Те също публикуват данни за раждаемостта и използват плащанията на НЗОК за източник, но гледат не ражданията, а брой родени. Числото се разминава, но с около 2000 на година – толкова са броя на многоплодните раждания. Дори така не може да се обясни разликата в числата им – за 2023-та НЦОЗА съобщава с доклад на 1-ви февруари, че е имало 49795 живородени, а clinica на 14-ти февруари – за 49610 раждания. Разлика от 185 деца. За 2024-та НЦОЗА казва на 4-ти февруари, че са 49556 живородените, а clinica – на 11-ти февруари, че ражданията са 48754. Разлика от 802. Впрочем, според НСИ за 2023-та ражданията са били 57478 или 7868 повече, т.е. грешка от 13.7%.

Тук идваме към втория проблем – кога са взели данните. Твърдят, че източника им е един и същ – НЗОК, но справките им са с около 10 дни разлика. Разминаването не би трябвало да има значение, тъй като 2024-та е привършила отдавна, но видимо има. Реалния източник е различен и през времето изникват доста данни. Анализите ми за предходни години показват, че някои от ражданията няма да бъдат въведени и след няколко месеца. Интересно тук е също как въобще са взели данните от регистъра на ражданията. Както споменах, публичната част е спряна, а справките по болници никога не е била част от нея. През 2018-та получих справката от човек в институцията със служебен достъп. После ми беше отказано по ЗДОИ същата справка. Обсъждания сайт е свързан с бивши служители на министерството, които обаче отдавна не са част от системата. Изниква въпросът дали все още нямат служебен достъп до ресурси, които не би трябвало да имат. Ако пък са искали справката по ЗДОИ, защо я получават, а на други същото се отказва.

Третият проблем е какво твърдят и какво намекват в текста си. Изрично посочват, че числата не включват раждания непокрити от НЗОК и такива в чужбина, навярно в отговор на критиката, че изкарват крайно занижени данни спрямо тези на НСИ. С това обаче намекват, че в официалните данни се включват родените в чужбина българчета. Това категорично не е вярно. Първо, методологията на НСИ показва, че те броят ражданията по подадени от съобщения за раждане, също както всички актове за гражданско състояние. Такива има само за родени в страната. На родените в чужбина се вади ЕГН директно в ГРАО с молба и чуждестранен акт за раждане голяма част от тях се регистрират месеци и години след раждането по различни причини.

По случайност получих справка за родените в чужбина и получили българско ЕГН именно на 11-ти февруари, когато излезе и статията на clinica.bg. Ще пусна отделна статия с подробна информация за последните 35 години, но накратко – за българчетата родени в чужбина, на които родителите им са извадили български паспорт скоро след раждането (т.е. до края на януари 2025-та) са 8029. Тези родени през 2023-та вече са 15031, защото родителите им са имало повече време да се приберат и извадят паспорт. През последните години общия брой се върти около 20 хиляди деца родени зад граница. Нито сметката не излиза, а методологията и отговорите на НСИ оборват намеците на clinica.bg.

Обяснението не се получи кратко, а не съм засегнал доста аспекти от темата. Стигнахте до тук, така че може да ви е интересно да прочетете и за тях. Вярвам, че търпеливо ще изчакате и окончателните данни на НСИ през април, когато отново ще си говорим по темата. Пускам списък със статиите ми до тук, но вместо заглавията им слагам отговор на какъв въпрос отговарят. Не са в някакъв определен ред:

The post Числото, което ще чуете днес, е грешно first appeared on Блогът на Юруков.

Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват

от Боян Юруков
лиценз CC BY-SA

Преди седмица писах за това как новата система на кадастъра предоставя отворени данни. Те включват както географска информация за парцели, сгради и самостоятелни имоти, така и записи за собствеността на последните от публични и частни юридически и физически лица. За тези няколко дни данните предизвикаха сериозен интерес. Забелязаха се доста добри въпроси, критика, но и откровено подвеждаща информация – къде от притеснение, къде от зла умисъл. Затова искам да разясня няколко неща, включително какво не знаем и какво очакваме да видим.

Защо ги има тези данни?

Първите, които ги вкараха в употреба отвъд GIS системите изглежда бяха BIRD.bg. Аналогично на справките от търговския регистър, те добавиха и тези към търсачката си, която свързва данни за смяна на ръководство, обществени поръчки, еврофондове, споменавания в различни изтекли данни, а сега и собственост на имоти из страната.

Тъй като сайтът на кадастъра все още не предоставя лесна възможност за сваляне да отворените данни, аз го направих автоматично и предоставих архива на BIRD и други. Ще го намерите в края на тази статия, както и скрипта за сваляне. Това, както и факта, че явно първи писах за тях, накара някои да коментират, че аз съм отворил данните. В действителност, за да бъдат тези публично достъпни за свободна употреба данни част от новата система на кадастъра, имат заслуга много хора както в институциите, така и извън нея. На първо място за изискването в закона въобще да има отворен код и отворени данни в такива системи има голяма заслуга Божидар Божанов. Въпреки това виждаме как много често това изискване се пропуска, така че трябва да се даде заслуженото на множество хора, включително политически назначения и отделни хора сред изпълнителите на поръчката, които са направили така, че да се случи. Иначе информацията за тези данни вече беше известна и се е обсъждала в професионалните групи и форуми още през декември.

Доста често да отварям данни, които следва да са достъпни, но не са. Последно така направих с разрешителните за сеч, от години го правя за документите за застрояването и авариите в инфраструктурата. Аналогично от още по-отдавна отварях данните на Столична община за замърсяването на въздуха, когато ресорната агенция отказваше твърдо да публикува навременни данни с разбивка по часове. Когато започнаха да го правят по задължение отвън спрях този поток. В този случай обаче просто разпространих новината, че кадастъра са ги пуснали и може да се използват свободно.

Критика и проблеми

Имаше, разбира се, критика както към новата система, така и към данните. Кадастърът отдавна има проблеми с натоварването, но в случая има оплаквания от функционалността за няколкото хиляди специалисти въвеждащи информация. Доколкото те имат смисъл, осъзнаването защо са важни и какви ще са последствията от тях изисква вникване в материята. Тази седмица е имало среща на министерството, изпълнителите и целевата група на тези системи за оправяне на проблемите и разбирам, че се работи по тях. Има също критика по заданието, следенето на изпълнението и отново срещу определени практики на Информационно обслужване.

Самите данни също имат проблеми и те са в две групи. Първата е за самата справка. Първоначално липсваха данни за няколко общини и селища като Варна, например. На 6-ти добавиха Варна, но пак изглежда, че липсват някои селища. Причината навярно е непълнотата на самия кадастър за цялата територия. В предишната си статия писах, че идентификаторите за физически лица са кодирани, за да не се разкрива лична информация. Първоначалната информация е, че макар кодирани, те са еднакви между различните файлове и така може да се проследи общата собственост на лице без да се разкрива. След статията ми обаче бяха открити редица несъответствия, което може да говори за проблем с алгоритъма. Аналогичен се прилага без проблем при Търговския регистър. Трябва кодирането на ЕГН-тата тук да следва същите правила и настройки както в ТР, за да може информацията да се съпоставя между двете. Не на последно място, свалянето на данните е почти невъзможно на ръка в пълния си мащаб предвид хилядите архиви. Аз написах скрипт за целта, поради което бях сред първите споделили го.

Втората група проблеми са свързани не с новата система, а с качеството на въведената информация, практиките на специалистите работещи с кадастъра, нормативните изисквания към него и исторически причини. Дали даден имот е въведен с очертания, собственост, правилен адрес и прочие информация зависи в голяма степен от това дали е имало нужда за самия собственик. Пример може да бъдат ипотека и продажба. Качеството на тези данни, както и такива в миналото е доста спорно поради редица проблеми от двете страни на масата. Забелязват се грешни адреси, дублирани идентификатори на индивидуални обекти, сгрешени ЕИК на фирми и прочие. Важното тук е, че данните не съответстват непременно с това, което виждаме в имотния регистър, а следва да бъдат само отправна точка за по-нататъшни разследвания.

Имаше, разбира се, оплаквания произтичащи от искрено неразбиране или нарочен опит за внасяне на смут. На няколко пъти се видяха твърдения, че така изтичали лични данни, че толкова голям архив щял да се използва за имотни измами, кражби и изнудване. Риск за измами винаги има, но тези данни по-скоро биха го намалили, отколкото да го увеличат. Данните са достъпни в дори по-голяма пълнота срещу заплащане в имотния регистър. Отворените данни не съдържат лична информация, а тази на компании и общински фирми не е лична или търговска тайна в случая. Аналогични възгласи имаше когато бешемотворен търговския регистър и се видя, че са кухи. Най-любопитна ми беше нишката, която плетат няколко души пишещи по групите и най-вече замесени в имотния бизнес, че тази прозрачност била комунизъм, защото само комунистите ги интересува кой къде какво има, придобива от общински и държавни имоти, национални и градски паркове и сменя като предназначение. Тук не знам какво да отговоря освен, че видимо изкарването на все повече неща на светло притеснява доста хора. Най-сигурен признак за това би бил, ако някой се опита да премахне или ограничи отворените данни на кадастъра с каквото и да е извинение.

Полезни по множество начини

Няма масив от данни, който да е идеален и абсолютно верен към датата на публикуване. Особено в такива мащаби. Ключът към използването правилно на данните винаги е бил да се разбере методологията на събирането им, ограниченията и условностите. Затова винаги прекарвам толкова време в описване именно на тези три неща. Пример са данните за раждаемостта и абортите. Когато писах, че данните от кадастъра са невероятни, имах точно това предвид – въпреки всички описани проблеми и нуждата от чистене на определени очевидни грешки, това е много добър източник, който ще помогне не само за анализи и разследвания сам по себе си, но и е важен базов масив, който да се използва за визуализации на други данни.

В не по-малка степен ще помогне на откриването на проблемите в старите данни, за които говоря по-горе, с въвеждането и практиките на специалистите. Прозрачността в тази си форма изкарва често на преден план дълбоки проблеми в една или друга институция и бранш. Това е причината много министерства и агенции да се опитват всякак да избягват заложеното в закона изискване за отворен код и данни. Отчасти заради лобизъм и активно прикриване на нередности, но в чувствително по-голяма степен страх от видимост на пороците и неефективността. Изисква се смелост и откритост сам да публикуваш подобна информация. Това е най-добрият начин да имаме разбиране и разговор по тези теми и път към поправянето на дефектите.

Може да свалите всички отворени данни на кадастъра към 10-ти януари 2024-та от този архив. Там ще намерите json-ите с линкове и дати на всеки отделен архив с документи, zip с всички свалени документи, един с обърнати всички данни за собственост в csv файл от 24 млн. записа и един с всички shp файлове обърнати в geojson формат и намалена точност на координатите до половин метър, който е по-лесен за използване във визуализации. Ако искате сами да свалите документите, може да използвате полу-автоматичния ми скрипт на bash. Надявам се, че от кадастъра ще направят това по-лесно, например като общ архив от 5Gb.

The post Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват first appeared on Блогът на Юруков.

Кадастъра пусна отворени данни за всичко в България и са невероятни

от Боян Юруков
лиценз CC BY-SA

В края на миналата година писах накратко в социалките, че новият портал на кадастъра е публичен и на пръв поглед има доста полезна употреба – да се следи за незаконно дострояване. В действителност, с тази нова версия се случи нещо, за което натискахме и чакахме от много години – отворени данни за имотите в България.

Информацията, която търсихме са точните очертания на области, общини, землища и отделни парцели. Тази информация има много приложения отвъд работата с недвижими имоти. Преди 11 години, например, бях свалил парче по парче голяма част от тези данни и бях ги обобщил в опростена версия на картата на общините и селищата в България. Пуснах ги свободно с цел визуализации на данни и сам ги използвах в графиките си за данните за сеч, избори и редица други. Аналогично, за картата ми с документите за градоустройството в София през последните четири години съм свалил близо 25% от всички парцели в столицата. Подобно е положението и с 3D картата за застрояването. Данните влизаха в употреба в поне 10 от проектите и визуализациите ми до сега.

с. Априлци в Пазарджик

Затова с радост открих, че в новият портал на кадастъра има секция отворени данни, където може да се свали архивирана цялата спомената информация – отделни парцели, сгради и самостоятелни обекти в SHP формат. Вече свалих данните за община София и няма да се налага да товаря сървърите на НАГ и кадастъра всеки път като излезе нов документ. Данните съдържат много метаданни като площ, брой етажи, точен адрес, собственост, район, начин на употреба и документ определят последното. Дори само информацията за адресите е безценна, тъй като до сега нямаше такава публична база данни в България. Има дори адресите на самостоятелни обекти – гаражи, апартаменти и други части от сгради, включително къде се намират точно и колко е (законната) им площ.

Метаданни за случайна сграда в София

Това обаче далеч не е всичко. Публикувана е информация за собствеността на тези имоти – дали цялостно или частично, физическо, юридическо лице, община или държава и с какви документи и кога е установена тази собственост. Има дори ЕИК и имена на фирмите, а когато е частно лице, името е маскирано, а ЕГН-то е криптирано, така че да не се разбере, но да е пак уникално и да може да се съпостави с други записи. Това е безценна база данни с публична вече информация, която без да преувеличавам ще отвори нова страница в разследванията на злоупотреби на части и публични лица.

Пример за собствеността на парцели в с. Априлци, Пазарджик

Данните в този си вид са генерирани на 14-ти декември. Надявам се да имат възможност да ги обновяват редовно, особено собствеността. Все още липсва известна информация – за 6 общини липсват данни, включително община Варна. От тях, както и сред други общини липсва информация за около 380 селища или 7.2%. Изпратих и друга обратна връзка към създателите на портала и разбирам, че се работи по попълването на цялата информация. Две основни точки бяха двуезична документация и номенклатури, както и начин да се сваля всичко наведнъж.

Дори към този момент обаче е нещо внушително. Бих го сравнил само с публикуването на отворени данни от търговския регистър с тази разлика, че са много по-ясни, подредени и готови за употреба. Показах данните на няколко познати експерти работещи с GIS системи и събиращи информация от подобни регистри от цял свят. Един особено ми пише през няколко месеца да пита дали поне очертанията на парцелите в градовете имаме. Всички бяха удивени от качеството и пълнотата на информацията и метаданните, включително в сравнение с аналогични източници в Германия, Великобритания и щатите.

Центъра на София в сгради и парцели

Успях да сваля всички данни автоматично и вече ги преглеждам подробно. Особено тази за собствеността. Все още нямам идея какво от тези данни и как ще го покажа, но определено има доста какво да се направи с нея. Знам обаче, че ще използвам парцелите във визуализацията си за данните за сечта, които отворих наскоро. Особено за стартиращи бизнеси това ще е много полезно отвъд чистите GIS системи, недвижими имоти и планиране. Ако имате идеи как бихте използвали данните или вече сте направили нещо с тях, споделете го в коментарите.

The post Кадастъра пусна отворени данни за всичко в България и са невероятни first appeared on Блогът на Юруков.

Отворени данни на разрешителните за сеч 2011-2024

от Боян Юруков
лиценз CC BY-SA

Преди почти 10 години си зададох въпрос – къде в България се сече законно и в какви количества. Агенцията по горите нямаше отворени данни за това. Имат обаче регистър на позволителните за сеч, който макар не в достъпен формат, поне е достатъчно структуриран, за да се изведе нещо. На база тези числа тогава успях да покажа данните за сеч с точност до землище на населено място, а след това направих анализ и предложения.

Десет години по-късно малко се е променило. Някои от регионалните дирекции по горите и самата агенция са в портала за отворени данни на правителството. Има дори ресурс с позволителните за сеч, макар покриващ само част от данните и само за четири години. Регистърът си е същия, със същите грешки и 1.57 млн. документа – позволителни за сеч и протоколи след това.

Причината да знам това число е, че в последните седмици свалих цялата информация от средата на 2011-та, когато е започнал регистъра, до декември 2024-та. Там информацията е във вид на обикновена HTML страница подходяща за печат и подпис на хартия, но открих структура в нея. Така обърнах всеки документ в json формат с точната категория и вид дървета, позволена и реална сеч. Включва също констатации за нарушения, актове, кой е глобен и прочие. Разбира се, тук говорим само за законната сеч и документите свързани с нея. Ако не е в този списък, значи не е законно.

Тъй като изглежда самият им формуляр за генериране на тези документи не се използва съвсем коректно, някои от номерата и датите на заповедите не са попълнени. Също кадастриалните идентификатори посочващи точните парцели не са в правилен формат. Това ще се опитам да го оправят в друг момент. Има и други грешки, които съм се опитал да компенсирам в изходните данни.

Освен документите, съм публикувал и списък с обобщена информация за всяка сеч от търсачката им. Там може да се видят дати и количества на сеч и позволява да се свържат позволителните и протоколите, където това не е отбелязано в самия протокол.

Публикувам всички данни в отворен формат свободно, без лиценз и ограничения за използване. Ще се радвам, все пак, ако направите нещо с тях, да ми пишете, защото ми е интересно как са влезли в употреба. Ще създам интерактивен инструмент за филтриране и изследването им в скоро време, но искам първо да пусна данните, ако някой има идея за такъв или друга употреба.

Може да свалите данните от тази папка. Там ще намерите описание на полетата, файл с номерата на землищата и техните имена и ЕКАТТЕ номера, обобщенията списък, който споменах (95М, 18М zip) и архив с документите (6.2G, 1.1G zip)

The post Отворени данни на разрешителните за сеч 2011-2024 first appeared on Блогът на Юруков.

Акаунтите на GovAlertEu са вече основно в Mastodon и Bluesky

от Боян Юруков
лиценз CC BY-SA

Светлината е най-добрият дезинфектант.

Преди малко повече от десет години се замислих, че ми е трудно да следя какво се случва из родните институции и мога да подобря процеса. Затова създадох система, която да изчита по няколко пъти на ден новини, документи, събития и други и да ги публикува в акаунт в Twitter. С времето източниците на информация се увеличиха на 140 от над 31 различни институции, а акаунтите станаха осем.

Проектът се нарича GovAlertEu и до скоро публикуваше съобщения в неофициални акаунти на няколко институции, включително тези на МВР и Министерски съвет. Акаунтът на МВР стана официален на два пъти – за последно при един от редовните кабинети. След това си върнах контрола над него. Този на Министерски съвет все още е официален и имат достъп до него като автоматизацията за публикуване на новини си остава.

Няколко неща се промениха в последната година. Първо, значително увеличеното количество информация, която публикувам за градоустройството в София, Пловдив и Благоевград, както и интереса към данните и визуализациите създаде натоварване на ресурсите, които използвам. Второ, промени в моделът на работа на Twitter/X като мрежа направи почти невъзможна работата на автоматизирани акаунти като моя без да се плаща значителни суми на месец. Суми, които биха били оправдани единствено за големи компании и astroturf бот мрежи, каквито сякаш са единствените останали там.

Още при първите крачки към затваряне на API достъпа до Twitter започнах да гледам мрежи като Mastodon. Тези дни довърших интеграцията и вече е достъпна за използване. Благодаря на @mapto, че ме насочи към подходящ код, който да използвам.

Акаунтите достъпни на новия портал

На адреса m.govalert.eu ще откриете всички акаунти свързани с тази мрежа. Там се публикуват в реално време без ограничения всички новини идващи от институциите. Тази страница е паралелно и портал за ActivityPub протокола, което значи, че може да ги следвате в която и да е Fedi мрежа искате, включително Mastodon. Свързал съм акаунтите пред Fedi Bridge с Bluesky, където съобщенията ще се появяват със забавяне от една до 15 мин.

Линковете към отделните мрежи, включително все още Twitter, ще намерите на самата страница като бутони. В Twitter от началото на годината заради ограниченията ще публикувам единствено препратки към Mastodon с ежедневна статистика колко съобщения са пропуснали следящите там. Като начало това ще се случи за основния акаунт на GovAlertEu, този на МВР и този за градоустройството в София. Този на правителството няма толкова много новини, така че ще остане последен.

Ще забележите, че липсват стари съобщения. В следващата седмица ще генерирам новините поне 4-5 години назад във времето. Искам да развия тази страница като основна за услугата заедно със статистика, индикация кои страници на администрацията са изтрити, изчезнали или променени, както и архивиране на някои от тях. В такива случаи линковете от социалните мрежи ще сочат към архивираната версия.

Също, вижда се, че акаунтът на парламента няма съобщения от известно време. Всъщност, източниците на информация не са 140, а 218 от 47 институции, но една немалка част от тях или са променили сайтовете си значително, или не публикуват вече нужната информация. Предвид смяна на фокуса към градоустройството не съм поддържал тези източници, но с този нов портал ще го направя – един по един ще ги обновя започвайки от страницата на парламента. Тази промяна отваря възможността да разширя значително информацията, която искам да публикувам като до сега въвеждах ограничения заради комуникацията с Twitter.

Моите акаунти в Mastodon и Bluesky ще намерите в линковете под блога ми. Приветствам всякаква обратна връзка и идеи.

The post Акаунтите на GovAlertEu са вече основно в Mastodon и Bluesky first appeared on Блогът на Юруков.

Избори октомври 2024 – нова карта на секциите от Външно

от Боян Юруков
лиценз CC BY-SA

Това е нещо, което определено трябва да се отбележи, защото е някаква стъпка напред. Снощи Министерство на външните работи е публикувала карта на секциите в чужбина. Намерих я случайно, защото по няколко пъти на ден преглеждам мястото, където публикуват таблица с адресите на секциите. Когато има промяна я отразявам директно на моята карта. Същият процес следвам последните няколко вота, докато преди това се налагаше да преглеждам индивидуалните сканирани на PDF заповеди на всяко консулство и да сверявам с доброволци на място.

Вчера сутринта са започнали картата съдейки по метаданните. Публикувана е след 18:00 снощи, тъй като тогава последно проверих сайта им. Съдържа практически същите данни като моята. Тъй като са първоизточника и за пръв път публикуват не само адреси, но и географски координати, ще сравня отново данните с моите. Ще е добро упражнение да проверя с колко метра е отклонението на моята карта. Ще пусна резултатите в близките дни.

Вярно е, че публикуват картата около два дни и половина преди началото на изборния ден и закъсняха малко с адресите този път, но все пак е стъпка напред, за която трябва да ги поздравим. Дава ни надежда, че ще стане практика от доста по-рано за следващия вот. Преди години на поне един вот използваха версия на моята карта като официална след като изрично ме питаха за това. Предоставих я с удоволствие.

Винаги съм казвал, че целта на всяка инициатива следва да бъде да стане излишна. Същото целях с Lipsva, с отворените данни и GovAlert. Картата за изборите в чужбина се налага вече 12 години да я поддържам дори да не живея вече зад граница. Може би този експеримент на Външно да е знак, че това, което правя ще се разпознае като полезно и официален процес на администрацията. От друга страна, постоянството и приемствеността не са силните черти на по-голямата част от публичната сфера, както видяхме с нещо просто като акаунтите @GovBulgaria и @MIBulgaria, които се използваха като официални от Министерски съвет и МВР известно време. Та ще трябва да мине време и няколко вота, за да видим.

The post Избори октомври 2024 – нова карта на секциите от Външно first appeared on Блогът на Юруков.