Tag Archives: Данни

Картата на Евростат за плодовитостта и какво всъщност ни показва?

от Боян Юруков
лиценз CC BY-SA

Горната снимка обиколи мрежата в петък, когато Eurostat обнови данните си за раждаемостта в Европа. Тя беше посрещната с разнопосочни реакции, но най-честата беше радост, че сме на първо място в България по брой деца на жена в детеродна възраст – 1.81. Доколкото това изглежда е вярно, има няколко важни подробности, които бяха пропуснати по веригата.

Първо, препоръчвам да прегледате статията ми обясняваща подробно каква е разликата между плодовитост и раждаемост и защо всъщност е нямало скок в първото преди три години. В графиката илюстрирам как и защо коригирам населението след последните две преброявания и как това се отразява на този индекс.

Имаше критика към преизчисляването на коефициента в същата статия, която пуснах през август 2024-та. От дискусиите се виждаше, че причината е предимно това, че показваше практически застой в последните седем години и неизбежните изводи за промяната на условията на живот в годините преди 2018-та и влиянието им за решенията на двойките. Данните публикувани на 7-ми март 2025-та от Евростат обаче съвпадат почти идеално с моите корекции. Голямата разлика е през 2012-та, когато те взимат числото на НСИ като базова точка, а аз го преизчислявам. Отклонението в другите години е под 0.7% и се дължи на това, че аз имам данни за ражданията само по възрастови групи, а не по отделни възрасти на майките. Все пак са доста точки и потвърждават моите изводи шест месеца по рано.

Много по-важно в случая обаче е, че макар да виждаме добри сигнали, трябва да ги поставим в контекст. Макар да имаме тази година най-висок показател в Европа, плодовитостта има значение единствено ако се разглежда в продължителен период от време, защото тогава проличават истинският ефект върху населението и обществото. Краткосрочен скок или спад носи само шумни заглавия, но само толкова. Притеснителен е застоя в последните години, макар по-долу ще покажа, че на фона на Европа може и да е добра новина. Въпреки това фактът, че е под 2.1 остава проблем. Зад това число има много детайли и съм ги обсъждал често. Най-важното е, че се използва премного за консервативана пропаганда целяща намаляване правата на жените без обаче да показват особено разбиране или работещи решения. Също така, плодовитостта е само един от многото параметри на демографията, не съществува в изолация и свеждането му до едно число, макар удобно, скрива много важни детайли като възрастовото разпределение на майките, еднократни ефекти, здравеопазване, реална смъртност на жени и новородени и прочие.

Забелязва се също разминаване с данните за други държави като Турция с официалните такива за 2023-та. Това може да се обясни с преизчислението, което правят за всички на база оценките за населението и дали имат достъп до окончателни данни. Всъщност, имаше разминаване и с данните на НСИ. Ще забележите че в статията ми от август миналата година за 2023-та съм посочил плодовитостта от НСИ да е 1.79. Тъй като пазя всичко, което свалям като данни, виждам, че това е показвал порталът Инфостат, когато свалих справката на 29-ти април 2024. Днес числото е коригирано на 1.81, което съвпада точно с моята оценка и тази на Евростат.

Предупрежавам, че трябва да се много внимателни когато сравняваме показатели между държави, особено такива зависещи от възрастовата структура на населението като смъртност, рак или заболевамост. В случая тези стойности могат да се сравняват като имаме едно наум, че има голяма вариация в средната възраст на раждане и разпределението по възрасти. Затова нека направим няколко сравнения.

Първо тук виждате коефициентът на плодовитост на България от 1960 до 2023-та по данни и оценки на Евростат. След резкия спад през 90-те виждаме бързо покачване. Вижда се спирането на растежа в последните седем години. На практика през 2018-та сме стигнали нивото, което е имала България преди голямата миграция от една трета от младото тогава поколение. След това обаче България на практика е спряла в демографското си развитие по този показател.

В следващите две графики ще видите сравнение за същия период между за България и няколко други европейски държави. Вижда се, че след възстановяването от кризата през 90-те сме задминали Германия преди 20 години. Повишението при тях в последните 10 години се дължи изцяло на външна миграция. В последните няколко години сме задминали дори шампионите демографски – Ирландия и Франция. Франция е интересен случай, защото има ниска раждаемост в последните 200 години и често се използва като ранен пре-индустриален пример за изследване на демографски преход. Ирландия пък показва много висока плодовитост през 60-те, но аналогичен на нас спад след това, но траещ 25 години вместо 10 и по други причини.

Тук виждаме сравнение със съседите ни. Демографския преход при всички съвпада с икономически крах и напускане на сериозна част от младите. Виждаме, че при Гърция в започнал 10 години по-рано и все още остава доста нисък. Плодовитостта в България и Румъния върви практически в унисон до пандемията, което може да даде индикации, че се диктува основно от външни фактори и общи черти и промени на ситуацията в двете държави. След пандемията обаче виждаме сериозен спад в Румъния, както и в Гърция, докато в България нещата остават непроменени.

За пълните данни препоръчвам да погледнете статията на Евростат и таблицата им, както и таблицата в Инфостат на НСИ, а тук ще намерите последните справки, карта и методологията им

The post Картата на Евростат за плодовитостта и какво всъщност ни показва? first appeared on Блогът на Юруков.

Няколко бързи справки за българите в Германия

от Боян Юруков
лиценз CC BY-SA

Споделял съм, че всички данни и инструменти, които пускам, са защото съм си задал някога някакъв въпрос и търсенето на отговор отива понякога твърде далече. Това показах в участието ми в Ratio наскоро. Случва се да си цъкам на телефона отваряйки източници, изследвания, статистически данни и прочие и когато таблиците станат десетки сядам да ги комбинирам, за да извлека пресечната точка между тях. Това стана и вчера с данните за българите в Германия.

Имам цяла серия от текстове разглеждащи различни аспекти от най-голямата ни диаспора там. Накрая на статията ще изредя някои от тях. Вчера започнах да готвя поредната такава статия, но в течение на нещата пуснах няколко бързи справки в социалките. Получи се дискусия под тях, отчасти не особено приятна. Чух се с трима души след това, на които им беше интересно и искаха детайли за различни аспекти от данните. Затова пускам и тук кратките изводи, които си направих вчера в реда, в който ги пуснах с кратки редакции. Последната всъщност не е конкретно за българите в Германия, но има връзка, която съм дискутирал преди. Пълната статия с подробен списък от таблиците на DeStatis, които използвам ще сложа там.


Бърза статистика за българите в Германия за 2023-та.

  • 19% не са завършили основно. 27% са с някакво висше
  • В домакинства, където поне един човек е българин, средният нето доход на работещ е 1883 евро. От този доход после се плащат местни данъци, сметки, такси за кола, застраховки, наем и прочие. Средното за страната е 2302 евро
  • Сред българите, които са емигрирали в Германия, 16.8% получават социални помощи, а още 28.7% се налага да разчитат на друга държавна или общинска помощ, тъй като доходите им не стигат
  • Ако включим и децата им родени в Германия, т.е. всички хора с някакъв български произход, то броят разчитащи на социални помощи намалява на 15.6%, но тези, които се налага да оцеляват с друга държавна или общинска помощ се увеличава на 37.4%
  • Часовете, които се налага българите емигрирали в Германия да работят, са повече от средното за Германия – с поне 3-4 часа. Особено при българките работата над 45 часа на седмица се среща с 50% по-често от мъжете
  • 33% от заетите българи в Германия работят през събота. 19.1% – през неделя. При жените това е с 1/3 по-вероятно да се случи от мъжете
  • 63% от българите емигрирали в Германия имат за майчин език български. 21% е турски. 25% от децата родени в Германия от български емигранти говорят само немски език.

Вероятността българин роден в България с майчин език турски да емигрира в Германия е 3 пъти по-голяма, отколкото тези с майчин език български. При българите с майчин език ромски или друг разликата е 4.3 пъти.

Това обяснява защо намаляват съответно с 4 и 9% като дял от населението, т.е. много по-бързо от общото намаление. Ровя се в детайлни статистически справки и изследвания в различни държави и изскачат някои неща. Ще ги обобщя скоро.


За първите 11 месеца на 2024-та (януари до ноември) на всеки 10000 души с германско гражданство, същите са открили 46.9 бизнеса каквито ние бихме нарекли startup, малък бизнес или едноличен търговец. Откупили са 1.9 бизнеса и са закрили 40.2 бизнеса.

Жителите на Германия с българско гражданство са открили 135.5 на 10000 души от диаспората ни там, откупили са 4.9 бизнеса и са затворили 112.5. Тоест, сънародниците ни в Германия са три пъти по-предприемчиви от германските граждани и с една идея по-малко бизнеси затворили спрямо открити.

По този показател ни бият само поляците и румънците с 188.8 и 148.9. Само дето поляците за тези 11 месеца са затворили повече, отколкото са отворили – 206.9. Гърците и Турците най-много готови бизнеси откупуват – 11.4 и 15.8 съответно.

Средното сред емигрантите (като изключим поляци, румънци и турци) е 81 открити малки бизнеса, 6.1 откупени и 56.9 затворени. Чужденците с двойно гражданство се броят навсякъде за германци в тази статистика.


Според три различни метрики броят на родените от българи деца в Германия е намалял с между 7 и 12% между 2021 и края на 2023 г. Броят деца с родители българи е намалял с 4% за същия период, а броят на българите в детеродна възраст – с 7%.

Натурализация (взимане на германски паспорт) би могло да обясни само 1/5 от това намаление, но така се предполага, че никой не е емигрирал от България или други страни към Германия в тези възрастови групи.


Две интересни разбивки на работещите по възрасти в Германия. Първата графика показва заетостта на мъже и жени през 2005, 2010 и 2022. Виждаме, че и през 2022-ра и мъжете и жените се пенсионират много по-късно заради увеличената възраст на пенсиониране. Виждаме и силно намалената заетост на жените между 25 и 40 години.

Втората графика показва разбивка на половете по това дали имат деца. Практически няма разлика между мъже и жени, ако нямат деца. С деца обаче мъжете има много по-голяма заетост в Германия дори след 45 години, а преди това жените на 25 или 30 години имат заетост от 20 до 40%. Това е повече от красноречиво за отношението на работното място и в дома.

Целият доклад ще намерите тук.


Ето още статии, които съм разглеждал такива детайли. Статията с данните за 2018-та съдържа повече информация за заплащане, помощи и икономически възможности.

The post Няколко бързи справки за българите в Германия first appeared on Блогът на Юруков.

Нов бюлетин за строителството в София

от Боян Юруков
лиценз CC BY-SA

Доста неща се случиха покрай проекта GovAlert и конкретно данните за градоустройството и строителството в София. От няколко справки, с които сам да осмисля както се случва, той се разви в многопластов инструмент позволяващ проследяване на процеси и онагледяване на сложни аспекти от бъдещето на града. За последната година близо 10% от пълнолетното население на София посети картата с документите, 3D визуализациите и отделните информационни канали. С други думи – изглежда доста хора намериха това, което правя, за полезно.

Все пак, отчитам, че потокът от информация е значителен и труден за осмисляне. Картата на бъдещото застрояване, филтрите към нея и за документите трябваше да помогнат, но не бе достатъчно. През 2024-та съобщих за 10448 документа, от които 95.5% са видими на картата. За 2023-та бяха 12153 или по 49 на всеки работен ден само за София. Събирах идеи и предложения. Най-честото желание беше някакъв формат, в който всеки да вижда само документи за места близо до дома или офиса. Алтернативно – само за района, в който живеят. Това е нещо, което исках да направя от самото начало, но отлагах заради сложността и обвързаните разходи за такава услуга.

Всичко, което съм създал тук, както и другите проекти за визуализации и отворени данни, правя на свой гръб подтикнат от желанието да си отговоря на въпросите, които ме занимават и в процеса да помогна на други да го направят. Най-удобен канал за повечето е мейл, но изпращането до много хора е обвързано с разходи. За да е надеждно и да не отиват в спам, трябва да се използва платена услуга. Осъзнах го докато правех бюлетина за гласуващите в чужбина, където на всеки вот изпращам по няколко мейла на над 3000 абонирали се. В онзи случай обаче изпращането е еднократно и (принципно) рядко докато динамиката около застрояването е постоянна.

Затова реших да направя бюлетин под формата на платена услуга, което да покрие разходите по това и други аспекти на картите, които правя. Идеята за това всъщност дойде от призивите, които получавам да пусна Patreon или друга подобна форма позволяваща дарения и подкрепа. Реших да комбинирам двете неща, за да има някаква стойност, която се получава в замяна. Ако има интерес, имам идеи как да развия бюлетина с допълнителни категории, филтри, градове и източници. Приемам всякаква обратна връзка и идеи.

При абонамент имате възможност да изберете в кой час на деня искате да получавате мейла. Може да го искате със сутришното кафе, в обедната почивка или вечерта след като са свършили работа в НАГ. Независимо кога изберете, ще получавате всички документи от последните 24 работни часа. Това значи, че в понеделник сутринта ще получавате всичко от петък. Събота и неделя ще е тихо.

След това може да изберете какво ви интересува. Може да центрирате картата около дадено място и да получавате документи в радиус от малко над километър около него. Може да изберете конкретен район. Над 96% от откритите документи успявам по един или друг начин да свържа с конкретен имот или улица. Ако обаче не успея, повечето от останалите свързвам с район. Ако изберете място с радиус, ще получавате и документите, които може би са от интерес, защото се отнасят до района ви. Има единици, които се отнасят до цяла София или дори с район не съм успял да свържа автоматично (написани на ръка, например). Те се получават от всички. Ако в дадения ден няма документи, които ви засягат няма да получите мейл.

Целта е да се ограничи потокът от информация засягащ цялата София и десетки документи на ден до няколко, които занимават само Вас. Разбира се, мястото и района, както и часът на получаване могат да се променят. Дал съм възможност за абонамент на месечна или годишна база. Плащането става карта през сигурна система, която се използва често от други в България. Абонаментът може да се прекъсне по всяко време като ще продължите да получавате мейли до края на предплатения период. Ако искате да спрете и това, моля пишете ми като отговорите на някой от мейлите от бюлетина.

Обвързването на документи с имоти става автоматично. Например, сайтът ми изчита дневния ред за бъдещи заседания на експертни съвети решаващи по ПУП-ове и разрешения за строеж и открива номера на имоти и сгради, след това ги слага на картата. Някои от числата може да са грешни, а някои – описани с думи, адреси или други означения, които не могат да се засекат автоматично. Отделно самите документи и отбелязване им в НАГ и Столична община става на ръка, което е водело до грешки в миналото. Това означава, че засичането дали на документ или новина попада в зоната на интерес, не е абсолютно сигурно и както до сега е възможно някои документи да бъдат пропуснати или маркирани неподходящо. С подобряване на прозрачността на Столична община, метаданните и дигитализацията на процесите, това ще се подобри. Бюлетина ми може да е само толкова добър, колкото е източникът, което важи за всичко свързано с данни.

Разбира се, остават да работят и ще развивам старите канали, по които тези документи са достъпни. Такава е ActivityPub страницата с линкове към социалките, картата с документите и тази с 3D застрояването. Всички документи ги има и на страницата на НАГ в различни регистри. Целта на новият бюлетин е да намали обемът информация, който ви залива по всички канали до степен, в която не изпитваме парализа в желанието си да променим нещо.

Ако имате въпроси, идеи или някаква обратна връзка, ще се радвам да ги обсъдим в коментарите.

The post Нов бюлетин за строителството в София first appeared on Блогът на Юруков.

Числото, което ще чуете днес, е грешно

от Боян Юруков
лиценз CC BY-SA

В следващите дни ще срещнете едно число често из медиите – 48754. Толкова раждания е имало в България през 2024-та г. поне според сайта clinica.bg. С това число има много проблеми, но се цитира редовно по това време в последните години заради острата липса на други данни – също толкова грешни или изцяло подправени, но подходящи за генериране на сензация.

Писал съм много по темата в последните 15 години и накрая ще сложа изчерпателен списък с текстовете ми разглеждащи различни аспекти на данните за раждаемостта, както и хронологията на проблемите със съобщаването им. Тук ще се опитам сравнително кратко да обясня защо горното число е грешно, от къде е взето и защо спрях отдавна да следя данните, които въпросния сайт съобщава.

Още на 3-ти януари предупредих в социалките, че това число ще излезе около тази дата. Дадох за пример разминаването миналата година с няколко хиляди деца на тогавашното число изнесено от clinica.bg и данните на НСИ. Проблемът на данните им е първо източникът, второ времето на справката и трето какво всъщност показва и какви твърдения правят с него.

Първо, те твърдят, че се базира на данните на НЗОК за заплатени раждания в страната. Таблицата, която показват, дава разбивка за брой секцио, недоносени, усложнения и прочие. Тази справка не е от НЗОК, а по-специално от регистъра за ражданията. Това е един злополучен регистър, за който ще прочетете много в списъка със статии по-долу, но за сега трябва да знаете, че болниците следва да подават данни за всяко раждане и детайлите по него. Знам, че са взели данните от там, защото през 2018-та получих същата разбивка по болници и публикувах статистика от нея. Колкото и да беше интересна, заради описаните по-долу проблеми спрях да я следя, тъй като е безсмислена.

Макар болниците да имат задължение до три дни да публикуват данни за ражданията, много малко го правят. Някои въвеждат със забавяне от 3 до 6 месеца, някои не въвеждат правилно. Това значи, че данните за някои раждания през 2024-та може да се въведат чак април или май. Това установих след няколко годишно автоматично следене и анализ на публичната част от регистъра. След анализа ми и предупрежденията, че се използва само за фалшиви новини, въпросната публична част беше спряна. Частта за болниците и задължението им обаче остана. Няма индикации да има промяна в липсата на контрол над качеството на данните, което ги прави също толкова ненадеждни, колкото преди десет години. Това важи и за разбивката по усложнения и начин на израждане.

Друго сведение, че не са използвали данните на НЗОК за плащания, а регистъра за ражданията е разминаването им с данните на НЦОЗА. Критика към техните данни имам премного и отново ще я намерите в списъка долу. Те също публикуват данни за раждаемостта и използват плащанията на НЗОК за източник, но гледат не ражданията, а брой родени. Числото се разминава, но с около 2000 на година – толкова са броя на многоплодните раждания. Дори така не може да се обясни разликата в числата им – за 2023-та НЦОЗА съобщава с доклад на 1-ви февруари, че е имало 49795 живородени, а clinica на 14-ти февруари – за 49610 раждания. Разлика от 185 деца. За 2024-та НЦОЗА казва на 4-ти февруари, че са 49556 живородените, а clinica – на 11-ти февруари, че ражданията са 48754. Разлика от 802. Впрочем, според НСИ за 2023-та ражданията са били 57478 или 7868 повече, т.е. грешка от 13.7%.

Тук идваме към втория проблем – кога са взели данните. Твърдят, че източника им е един и същ – НЗОК, но справките им са с около 10 дни разлика. Разминаването не би трябвало да има значение, тъй като 2024-та е привършила отдавна, но видимо има. Реалния източник е различен и през времето изникват доста данни. Анализите ми за предходни години показват, че някои от ражданията няма да бъдат въведени и след няколко месеца. Интересно тук е също как въобще са взели данните от регистъра на ражданията. Както споменах, публичната част е спряна, а справките по болници никога не е била част от нея. През 2018-та получих справката от човек в институцията със служебен достъп. После ми беше отказано по ЗДОИ същата справка. Обсъждания сайт е свързан с бивши служители на министерството, които обаче отдавна не са част от системата. Изниква въпросът дали все още нямат служебен достъп до ресурси, които не би трябвало да имат. Ако пък са искали справката по ЗДОИ, защо я получават, а на други същото се отказва.

Третият проблем е какво твърдят и какво намекват в текста си. Изрично посочват, че числата не включват раждания непокрити от НЗОК и такива в чужбина, навярно в отговор на критиката, че изкарват крайно занижени данни спрямо тези на НСИ. С това обаче намекват, че в официалните данни се включват родените в чужбина българчета. Това категорично не е вярно. Първо, методологията на НСИ показва, че те броят ражданията по подадени от съобщения за раждане, също както всички актове за гражданско състояние. Такива има само за родени в страната. На родените в чужбина се вади ЕГН директно в ГРАО с молба и чуждестранен акт за раждане голяма част от тях се регистрират месеци и години след раждането по различни причини.

По случайност получих справка за родените в чужбина и получили българско ЕГН именно на 11-ти февруари, когато излезе и статията на clinica.bg. Ще пусна отделна статия с подробна информация за последните 35 години, но накратко – за българчетата родени в чужбина, на които родителите им са извадили български паспорт скоро след раждането (т.е. до края на януари 2025-та) са 8029. Тези родени през 2023-та вече са 15031, защото родителите им са имало повече време да се приберат и извадят паспорт. През последните години общия брой се върти около 20 хиляди деца родени зад граница. Нито сметката не излиза, а методологията и отговорите на НСИ оборват намеците на clinica.bg.

Обяснението не се получи кратко, а не съм засегнал доста аспекти от темата. Стигнахте до тук, така че може да ви е интересно да прочетете и за тях. Вярвам, че търпеливо ще изчакате и окончателните данни на НСИ през април, когато отново ще си говорим по темата. Пускам списък със статиите ми до тук, но вместо заглавията им слагам отговор на какъв въпрос отговарят. Не са в някакъв определен ред:

The post Числото, което ще чуете днес, е грешно first appeared on Блогът на Юруков.

Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват

от Боян Юруков
лиценз CC BY-SA

Преди седмица писах за това как новата система на кадастъра предоставя отворени данни. Те включват както географска информация за парцели, сгради и самостоятелни имоти, така и записи за собствеността на последните от публични и частни юридически и физически лица. За тези няколко дни данните предизвикаха сериозен интерес. Забелязаха се доста добри въпроси, критика, но и откровено подвеждаща информация – къде от притеснение, къде от зла умисъл. Затова искам да разясня няколко неща, включително какво не знаем и какво очакваме да видим.

Защо ги има тези данни?

Първите, които ги вкараха в употреба отвъд GIS системите изглежда бяха BIRD.bg. Аналогично на справките от търговския регистър, те добавиха и тези към търсачката си, която свързва данни за смяна на ръководство, обществени поръчки, еврофондове, споменавания в различни изтекли данни, а сега и собственост на имоти из страната.

Тъй като сайтът на кадастъра все още не предоставя лесна възможност за сваляне да отворените данни, аз го направих автоматично и предоставих архива на BIRD и други. Ще го намерите в края на тази статия, както и скрипта за сваляне. Това, както и факта, че явно първи писах за тях, накара някои да коментират, че аз съм отворил данните. В действителност, за да бъдат тези публично достъпни за свободна употреба данни част от новата система на кадастъра, имат заслуга много хора както в институциите, така и извън нея. На първо място за изискването в закона въобще да има отворен код и отворени данни в такива системи има голяма заслуга Божидар Божанов. Въпреки това виждаме как много често това изискване се пропуска, така че трябва да се даде заслуженото на множество хора, включително политически назначения и отделни хора сред изпълнителите на поръчката, които са направили така, че да се случи. Иначе информацията за тези данни вече беше известна и се е обсъждала в професионалните групи и форуми още през декември.

Доста често да отварям данни, които следва да са достъпни, но не са. Последно така направих с разрешителните за сеч, от години го правя за документите за застрояването и авариите в инфраструктурата. Аналогично от още по-отдавна отварях данните на Столична община за замърсяването на въздуха, когато ресорната агенция отказваше твърдо да публикува навременни данни с разбивка по часове. Когато започнаха да го правят по задължение отвън спрях този поток. В този случай обаче просто разпространих новината, че кадастъра са ги пуснали и може да се използват свободно.

Критика и проблеми

Имаше, разбира се, критика както към новата система, така и към данните. Кадастърът отдавна има проблеми с натоварването, но в случая има оплаквания от функционалността за няколкото хиляди специалисти въвеждащи информация. Доколкото те имат смисъл, осъзнаването защо са важни и какви ще са последствията от тях изисква вникване в материята. Тази седмица е имало среща на министерството, изпълнителите и целевата група на тези системи за оправяне на проблемите и разбирам, че се работи по тях. Има също критика по заданието, следенето на изпълнението и отново срещу определени практики на Информационно обслужване.

Самите данни също имат проблеми и те са в две групи. Първата е за самата справка. Първоначално липсваха данни за няколко общини и селища като Варна, например. На 6-ти добавиха Варна, но пак изглежда, че липсват някои селища. Причината навярно е непълнотата на самия кадастър за цялата територия. В предишната си статия писах, че идентификаторите за физически лица са кодирани, за да не се разкрива лична информация. Първоначалната информация е, че макар кодирани, те са еднакви между различните файлове и така може да се проследи общата собственост на лице без да се разкрива. След статията ми обаче бяха открити редица несъответствия, което може да говори за проблем с алгоритъма. Аналогичен се прилага без проблем при Търговския регистър. Трябва кодирането на ЕГН-тата тук да следва същите правила и настройки както в ТР, за да може информацията да се съпоставя между двете. Не на последно място, свалянето на данните е почти невъзможно на ръка в пълния си мащаб предвид хилядите архиви. Аз написах скрипт за целта, поради което бях сред първите споделили го.

Втората група проблеми са свързани не с новата система, а с качеството на въведената информация, практиките на специалистите работещи с кадастъра, нормативните изисквания към него и исторически причини. Дали даден имот е въведен с очертания, собственост, правилен адрес и прочие информация зависи в голяма степен от това дали е имало нужда за самия собственик. Пример може да бъдат ипотека и продажба. Качеството на тези данни, както и такива в миналото е доста спорно поради редица проблеми от двете страни на масата. Забелязват се грешни адреси, дублирани идентификатори на индивидуални обекти, сгрешени ЕИК на фирми и прочие. Важното тук е, че данните не съответстват непременно с това, което виждаме в имотния регистър, а следва да бъдат само отправна точка за по-нататъшни разследвания.

Имаше, разбира се, оплаквания произтичащи от искрено неразбиране или нарочен опит за внасяне на смут. На няколко пъти се видяха твърдения, че така изтичали лични данни, че толкова голям архив щял да се използва за имотни измами, кражби и изнудване. Риск за измами винаги има, но тези данни по-скоро биха го намалили, отколкото да го увеличат. Данните са достъпни в дори по-голяма пълнота срещу заплащане в имотния регистър. Отворените данни не съдържат лична информация, а тази на компании и общински фирми не е лична или търговска тайна в случая. Аналогични възгласи имаше когато бешемотворен търговския регистър и се видя, че са кухи. Най-любопитна ми беше нишката, която плетат няколко души пишещи по групите и най-вече замесени в имотния бизнес, че тази прозрачност била комунизъм, защото само комунистите ги интересува кой къде какво има, придобива от общински и държавни имоти, национални и градски паркове и сменя като предназначение. Тук не знам какво да отговоря освен, че видимо изкарването на все повече неща на светло притеснява доста хора. Най-сигурен признак за това би бил, ако някой се опита да премахне или ограничи отворените данни на кадастъра с каквото и да е извинение.

Полезни по множество начини

Няма масив от данни, който да е идеален и абсолютно верен към датата на публикуване. Особено в такива мащаби. Ключът към използването правилно на данните винаги е бил да се разбере методологията на събирането им, ограниченията и условностите. Затова винаги прекарвам толкова време в описване именно на тези три неща. Пример са данните за раждаемостта и абортите. Когато писах, че данните от кадастъра са невероятни, имах точно това предвид – въпреки всички описани проблеми и нуждата от чистене на определени очевидни грешки, това е много добър източник, който ще помогне не само за анализи и разследвания сам по себе си, но и е важен базов масив, който да се използва за визуализации на други данни.

В не по-малка степен ще помогне на откриването на проблемите в старите данни, за които говоря по-горе, с въвеждането и практиките на специалистите. Прозрачността в тази си форма изкарва често на преден план дълбоки проблеми в една или друга институция и бранш. Това е причината много министерства и агенции да се опитват всякак да избягват заложеното в закона изискване за отворен код и данни. Отчасти заради лобизъм и активно прикриване на нередности, но в чувствително по-голяма степен страх от видимост на пороците и неефективността. Изисква се смелост и откритост сам да публикуваш подобна информация. Това е най-добрият начин да имаме разбиране и разговор по тези теми и път към поправянето на дефектите.

Може да свалите всички отворени данни на кадастъра към 10-ти януари 2024-та от този архив. Там ще намерите json-ите с линкове и дати на всеки отделен архив с документи, zip с всички свалени документи, един с обърнати всички данни за собственост в csv файл от 24 млн. записа и един с всички shp файлове обърнати в geojson формат и намалена точност на координатите до половин метър, който е по-лесен за използване във визуализации. Ако искате сами да свалите документите, може да използвате полу-автоматичния ми скрипт на bash. Надявам се, че от кадастъра ще направят това по-лесно, например като общ архив от 5Gb.

The post Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват first appeared on Блогът на Юруков.

Кадастъра пусна отворени данни за всичко в България и са невероятни

от Боян Юруков
лиценз CC BY-SA

В края на миналата година писах накратко в социалките, че новият портал на кадастъра е публичен и на пръв поглед има доста полезна употреба – да се следи за незаконно дострояване. В действителност, с тази нова версия се случи нещо, за което натискахме и чакахме от много години – отворени данни за имотите в България.

Информацията, която търсихме са точните очертания на области, общини, землища и отделни парцели. Тази информация има много приложения отвъд работата с недвижими имоти. Преди 11 години, например, бях свалил парче по парче голяма част от тези данни и бях ги обобщил в опростена версия на картата на общините и селищата в България. Пуснах ги свободно с цел визуализации на данни и сам ги използвах в графиките си за данните за сеч, избори и редица други. Аналогично, за картата ми с документите за градоустройството в София през последните четири години съм свалил близо 25% от всички парцели в столицата. Подобно е положението и с 3D картата за застрояването. Данните влизаха в употреба в поне 10 от проектите и визуализациите ми до сега.

с. Априлци в Пазарджик

Затова с радост открих, че в новият портал на кадастъра има секция отворени данни, където може да се свали архивирана цялата спомената информация – отделни парцели, сгради и самостоятелни обекти в SHP формат. Вече свалих данните за община София и няма да се налага да товаря сървърите на НАГ и кадастъра всеки път като излезе нов документ. Данните съдържат много метаданни като площ, брой етажи, точен адрес, собственост, район, начин на употреба и документ определят последното. Дори само информацията за адресите е безценна, тъй като до сега нямаше такава публична база данни в България. Има дори адресите на самостоятелни обекти – гаражи, апартаменти и други части от сгради, включително къде се намират точно и колко е (законната) им площ.

Метаданни за случайна сграда в София

Това обаче далеч не е всичко. Публикувана е информация за собствеността на тези имоти – дали цялостно или частично, физическо, юридическо лице, община или държава и с какви документи и кога е установена тази собственост. Има дори ЕИК и имена на фирмите, а когато е частно лице, името е маскирано, а ЕГН-то е криптирано, така че да не се разбере, но да е пак уникално и да може да се съпостави с други записи. Това е безценна база данни с публична вече информация, която без да преувеличавам ще отвори нова страница в разследванията на злоупотреби на части и публични лица.

Пример за собствеността на парцели в с. Априлци, Пазарджик

Данните в този си вид са генерирани на 14-ти декември. Надявам се да имат възможност да ги обновяват редовно, особено собствеността. Все още липсва известна информация – за 6 общини липсват данни, включително община Варна. От тях, както и сред други общини липсва информация за около 380 селища или 7.2%. Изпратих и друга обратна връзка към създателите на портала и разбирам, че се работи по попълването на цялата информация. Две основни точки бяха двуезична документация и номенклатури, както и начин да се сваля всичко наведнъж.

Дори към този момент обаче е нещо внушително. Бих го сравнил само с публикуването на отворени данни от търговския регистър с тази разлика, че са много по-ясни, подредени и готови за употреба. Показах данните на няколко познати експерти работещи с GIS системи и събиращи информация от подобни регистри от цял свят. Един особено ми пише през няколко месеца да пита дали поне очертанията на парцелите в градовете имаме. Всички бяха удивени от качеството и пълнотата на информацията и метаданните, включително в сравнение с аналогични източници в Германия, Великобритания и щатите.

Центъра на София в сгради и парцели

Успях да сваля всички данни автоматично и вече ги преглеждам подробно. Особено тази за собствеността. Все още нямам идея какво от тези данни и как ще го покажа, но определено има доста какво да се направи с нея. Знам обаче, че ще използвам парцелите във визуализацията си за данните за сечта, които отворих наскоро. Особено за стартиращи бизнеси това ще е много полезно отвъд чистите GIS системи, недвижими имоти и планиране. Ако имате идеи как бихте използвали данните или вече сте направили нещо с тях, споделете го в коментарите.

The post Кадастъра пусна отворени данни за всичко в България и са невероятни first appeared on Блогът на Юруков.

Отворени данни на разрешителните за сеч 2011-2024

от Боян Юруков
лиценз CC BY-SA

Преди почти 10 години си зададох въпрос – къде в България се сече законно и в какви количества. Агенцията по горите нямаше отворени данни за това. Имат обаче регистър на позволителните за сеч, който макар не в достъпен формат, поне е достатъчно структуриран, за да се изведе нещо. На база тези числа тогава успях да покажа данните за сеч с точност до землище на населено място, а след това направих анализ и предложения.

Десет години по-късно малко се е променило. Някои от регионалните дирекции по горите и самата агенция са в портала за отворени данни на правителството. Има дори ресурс с позволителните за сеч, макар покриващ само част от данните и само за четири години. Регистърът си е същия, със същите грешки и 1.57 млн. документа – позволителни за сеч и протоколи след това.

Причината да знам това число е, че в последните седмици свалих цялата информация от средата на 2011-та, когато е започнал регистъра, до декември 2024-та. Там информацията е във вид на обикновена HTML страница подходяща за печат и подпис на хартия, но открих структура в нея. Така обърнах всеки документ в json формат с точната категория и вид дървета, позволена и реална сеч. Включва също констатации за нарушения, актове, кой е глобен и прочие. Разбира се, тук говорим само за законната сеч и документите свързани с нея. Ако не е в този списък, значи не е законно.

Тъй като изглежда самият им формуляр за генериране на тези документи не се използва съвсем коректно, някои от номерата и датите на заповедите не са попълнени. Също кадастриалните идентификатори посочващи точните парцели не са в правилен формат. Това ще се опитам да го оправят в друг момент. Има и други грешки, които съм се опитал да компенсирам в изходните данни.

Освен документите, съм публикувал и списък с обобщена информация за всяка сеч от търсачката им. Там може да се видят дати и количества на сеч и позволява да се свържат позволителните и протоколите, където това не е отбелязано в самия протокол.

Публикувам всички данни в отворен формат свободно, без лиценз и ограничения за използване. Ще се радвам, все пак, ако направите нещо с тях, да ми пишете, защото ми е интересно как са влезли в употреба. Ще създам интерактивен инструмент за филтриране и изследването им в скоро време, но искам първо да пусна данните, ако някой има идея за такъв или друга употреба.

Може да свалите данните от тази папка. Там ще намерите описание на полетата, файл с номерата на землищата и техните имена и ЕКАТТЕ номера, обобщенията списък, който споменах (95М, 18М zip) и архив с документите (6.2G, 1.1G zip)

The post Отворени данни на разрешителните за сеч 2011-2024 first appeared on Блогът на Юруков.

Акаунтите на GovAlertEu са вече основно в Mastodon и Bluesky

от Боян Юруков
лиценз CC BY-SA

Светлината е най-добрият дезинфектант.

Преди малко повече от десет години се замислих, че ми е трудно да следя какво се случва из родните институции и мога да подобря процеса. Затова създадох система, която да изчита по няколко пъти на ден новини, документи, събития и други и да ги публикува в акаунт в Twitter. С времето източниците на информация се увеличиха на 140 от над 31 различни институции, а акаунтите станаха осем.

Проектът се нарича GovAlertEu и до скоро публикуваше съобщения в неофициални акаунти на няколко институции, включително тези на МВР и Министерски съвет. Акаунтът на МВР стана официален на два пъти – за последно при един от редовните кабинети. След това си върнах контрола над него. Този на Министерски съвет все още е официален и имат достъп до него като автоматизацията за публикуване на новини си остава.

Няколко неща се промениха в последната година. Първо, значително увеличеното количество информация, която публикувам за градоустройството в София, Пловдив и Благоевград, както и интереса към данните и визуализациите създаде натоварване на ресурсите, които използвам. Второ, промени в моделът на работа на Twitter/X като мрежа направи почти невъзможна работата на автоматизирани акаунти като моя без да се плаща значителни суми на месец. Суми, които биха били оправдани единствено за големи компании и astroturf бот мрежи, каквито сякаш са единствените останали там.

Още при първите крачки към затваряне на API достъпа до Twitter започнах да гледам мрежи като Mastodon. Тези дни довърших интеграцията и вече е достъпна за използване. Благодаря на @mapto, че ме насочи към подходящ код, който да използвам.

Акаунтите достъпни на новия портал

На адреса m.govalert.eu ще откриете всички акаунти свързани с тази мрежа. Там се публикуват в реално време без ограничения всички новини идващи от институциите. Тази страница е паралелно и портал за ActivityPub протокола, което значи, че може да ги следвате в която и да е Fedi мрежа искате, включително Mastodon. Свързал съм акаунтите пред Fedi Bridge с Bluesky, където съобщенията ще се появяват със забавяне от една до 15 мин.

Линковете към отделните мрежи, включително все още Twitter, ще намерите на самата страница като бутони. В Twitter от началото на годината заради ограниченията ще публикувам единствено препратки към Mastodon с ежедневна статистика колко съобщения са пропуснали следящите там. Като начало това ще се случи за основния акаунт на GovAlertEu, този на МВР и този за градоустройството в София. Този на правителството няма толкова много новини, така че ще остане последен.

Ще забележите, че липсват стари съобщения. В следващата седмица ще генерирам новините поне 4-5 години назад във времето. Искам да развия тази страница като основна за услугата заедно със статистика, индикация кои страници на администрацията са изтрити, изчезнали или променени, както и архивиране на някои от тях. В такива случаи линковете от социалните мрежи ще сочат към архивираната версия.

Също, вижда се, че акаунтът на парламента няма съобщения от известно време. Всъщност, източниците на информация не са 140, а 218 от 47 институции, но една немалка част от тях или са променили сайтовете си значително, или не публикуват вече нужната информация. Предвид смяна на фокуса към градоустройството не съм поддържал тези източници, но с този нов портал ще го направя – един по един ще ги обновя започвайки от страницата на парламента. Тази промяна отваря възможността да разширя значително информацията, която искам да публикувам като до сега въвеждах ограничения заради комуникацията с Twitter.

Моите акаунти в Mastodon и Bluesky ще намерите в линковете под блога ми. Приветствам всякаква обратна връзка и идеи.

The post Акаунтите на GovAlertEu са вече основно в Mastodon и Bluesky first appeared on Блогът на Юруков.

Избори октомври 2024 – нова карта на секциите от Външно

от Боян Юруков
лиценз CC BY-SA

Това е нещо, което определено трябва да се отбележи, защото е някаква стъпка напред. Снощи Министерство на външните работи е публикувала карта на секциите в чужбина. Намерих я случайно, защото по няколко пъти на ден преглеждам мястото, където публикуват таблица с адресите на секциите. Когато има промяна я отразявам директно на моята карта. Същият процес следвам последните няколко вота, докато преди това се налагаше да преглеждам индивидуалните сканирани на PDF заповеди на всяко консулство и да сверявам с доброволци на място.

Вчера сутринта са започнали картата съдейки по метаданните. Публикувана е след 18:00 снощи, тъй като тогава последно проверих сайта им. Съдържа практически същите данни като моята. Тъй като са първоизточника и за пръв път публикуват не само адреси, но и географски координати, ще сравня отново данните с моите. Ще е добро упражнение да проверя с колко метра е отклонението на моята карта. Ще пусна резултатите в близките дни.

Вярно е, че публикуват картата около два дни и половина преди началото на изборния ден и закъсняха малко с адресите този път, но все пак е стъпка напред, за която трябва да ги поздравим. Дава ни надежда, че ще стане практика от доста по-рано за следващия вот. Преди години на поне един вот използваха версия на моята карта като официална след като изрично ме питаха за това. Предоставих я с удоволствие.

Винаги съм казвал, че целта на всяка инициатива следва да бъде да стане излишна. Същото целях с Lipsva, с отворените данни и GovAlert. Картата за изборите в чужбина се налага вече 12 години да я поддържам дори да не живея вече зад граница. Може би този експеримент на Външно да е знак, че това, което правя ще се разпознае като полезно и официален процес на администрацията. От друга страна, постоянството и приемствеността не са силните черти на по-голямата част от публичната сфера, както видяхме с нещо просто като акаунтите @GovBulgaria и @MIBulgaria, които се използваха като официални от Министерски съвет и МВР известно време. Та ще трябва да мине време и няколко вота, за да видим.

The post Избори октомври 2024 – нова карта на секциите от Външно first appeared on Блогът на Юруков.

Последните данни за индустриалното замърсяване

от Боян Юруков
лиценз CC BY-SA

Обнових данните за индустриалното замърсяване. Сетих се, че не ги бях обновил тази година. Така графиката ми позволява разглеждане и филтриране на данни по замърсители и индустриални площадки за последните 14 години. На страницата ще видите как изглежда като изключим CO2 емисиите.

Според съобщеното, има намаление на емисиите, особено във въздуха, и почти достигат нивата от 2020-та г. Има увеличение при замърсяването на водите, но е пак под нивата от преди 10 години.

В същото време трябва да се каже, че това са „декларирано“ замърсяване и емисии. Все още над 27% от тях са изчислени, ако изключим CO2. Няколко поредни разкрития показаха, че дори измерените стойности не отговарят на истината. Не става ясно дали това отчитане се контролира и дали е имало някога санкции за грешно съобщаване. Ще питам пак.

Самата интерактивна графика пуснах преди 11 години. Обновявам я всяка година в края на лятото, когато се предполага, че всички задължени са подали данни. Последно писах през 2019-та по темата и отново миналата година конкретно за данните на инсталациите свързани с Ковачки. Може да ви е интересно да видите и останалите ми статии свързани с други аспекти на замърсяването.

The post Последните данни за индустриалното замърсяване first appeared on Блогът на Юруков.