Tag Archives: Данни

Нов бюлетин за строителството в София

от Боян Юруков
лиценз CC BY-SA

Доста неща се случиха покрай проекта GovAlert и конкретно данните за градоустройството и строителството в София. От няколко справки, с които сам да осмисля както се случва, той се разви в многопластов инструмент позволяващ проследяване на процеси и онагледяване на сложни аспекти от бъдещето на града. За последната година близо 10% от пълнолетното население на София посети картата с документите, 3D визуализациите и отделните информационни канали. С други думи – изглежда доста хора намериха това, което правя, за полезно.

Все пак, отчитам, че потокът от информация е значителен и труден за осмисляне. Картата на бъдещото застрояване, филтрите към нея и за документите трябваше да помогнат, но не бе достатъчно. През 2024-та съобщих за 10448 документа, от които 95.5% са видими на картата. За 2023-та бяха 12153 или по 49 на всеки работен ден само за София. Събирах идеи и предложения. Най-честото желание беше някакъв формат, в който всеки да вижда само документи за места близо до дома или офиса. Алтернативно – само за района, в който живеят. Това е нещо, което исках да направя от самото начало, но отлагах заради сложността и обвързаните разходи за такава услуга.

Всичко, което съм създал тук, както и другите проекти за визуализации и отворени данни, правя на свой гръб подтикнат от желанието да си отговоря на въпросите, които ме занимават и в процеса да помогна на други да го направят. Най-удобен канал за повечето е мейл, но изпращането до много хора е обвързано с разходи. За да е надеждно и да не отиват в спам, трябва да се използва платена услуга. Осъзнах го докато правех бюлетина за гласуващите в чужбина, където на всеки вот изпращам по няколко мейла на над 3000 абонирали се. В онзи случай обаче изпращането е еднократно и (принципно) рядко докато динамиката около застрояването е постоянна.

Затова реших да направя бюлетин под формата на платена услуга, което да покрие разходите по това и други аспекти на картите, които правя. Идеята за това всъщност дойде от призивите, които получавам да пусна Patreon или друга подобна форма позволяваща дарения и подкрепа. Реших да комбинирам двете неща, за да има някаква стойност, която се получава в замяна. Ако има интерес, имам идеи как да развия бюлетина с допълнителни категории, филтри, градове и източници. Приемам всякаква обратна връзка и идеи.

При абонамент имате възможност да изберете в кой час на деня искате да получавате мейла. Може да го искате със сутришното кафе, в обедната почивка или вечерта след като са свършили работа в НАГ. Независимо кога изберете, ще получавате всички документи от последните 24 работни часа. Това значи, че в понеделник сутринта ще получавате всичко от петък. Събота и неделя ще е тихо.

След това може да изберете какво ви интересува. Може да центрирате картата около дадено място и да получавате документи в радиус от малко над километър около него. Може да изберете конкретен район. Над 96% от откритите документи успявам по един или друг начин да свържа с конкретен имот или улица. Ако обаче не успея, повечето от останалите свързвам с район. Ако изберете място с радиус, ще получавате и документите, които може би са от интерес, защото се отнасят до района ви. Има единици, които се отнасят до цяла София или дори с район не съм успял да свържа автоматично (написани на ръка, например). Те се получават от всички. Ако в дадения ден няма документи, които ви засягат няма да получите мейл.

Целта е да се ограничи потокът от информация засягащ цялата София и десетки документи на ден до няколко, които занимават само Вас. Разбира се, мястото и района, както и часът на получаване могат да се променят. Дал съм възможност за абонамент на месечна или годишна база. Плащането става карта през сигурна система, която се използва често от други в България. Абонаментът може да се прекъсне по всяко време като ще продължите да получавате мейли до края на предплатения период. Ако искате да спрете и това, моля пишете ми като отговорите на някой от мейлите от бюлетина.

Обвързването на документи с имоти става автоматично. Например, сайтът ми изчита дневния ред за бъдещи заседания на експертни съвети решаващи по ПУП-ове и разрешения за строеж и открива номера на имоти и сгради, след това ги слага на картата. Някои от числата може да са грешни, а някои – описани с думи, адреси или други означения, които не могат да се засекат автоматично. Отделно самите документи и отбелязване им в НАГ и Столична община става на ръка, което е водело до грешки в миналото. Това означава, че засичането дали на документ или новина попада в зоната на интерес, не е абсолютно сигурно и както до сега е възможно някои документи да бъдат пропуснати или маркирани неподходящо. С подобряване на прозрачността на Столична община, метаданните и дигитализацията на процесите, това ще се подобри. Бюлетина ми може да е само толкова добър, колкото е източникът, което важи за всичко свързано с данни.

Разбира се, остават да работят и ще развивам старите канали, по които тези документи са достъпни. Такава е ActivityPub страницата с линкове към социалките, картата с документите и тази с 3D застрояването. Всички документи ги има и на страницата на НАГ в различни регистри. Целта на новият бюлетин е да намали обемът информация, който ви залива по всички канали до степен, в която не изпитваме парализа в желанието си да променим нещо.

Ако имате въпроси, идеи или някаква обратна връзка, ще се радвам да ги обсъдим в коментарите.

The post Нов бюлетин за строителството в София first appeared on Блогът на Юруков.

Числото, което ще чуете днес, е грешно

от Боян Юруков
лиценз CC BY-SA

В следващите дни ще срещнете едно число често из медиите – 48754. Толкова раждания е имало в България през 2024-та г. поне според сайта clinica.bg. С това число има много проблеми, но се цитира редовно по това време в последните години заради острата липса на други данни – също толкова грешни или изцяло подправени, но подходящи за генериране на сензация.

Писал съм много по темата в последните 15 години и накрая ще сложа изчерпателен списък с текстовете ми разглеждащи различни аспекти на данните за раждаемостта, както и хронологията на проблемите със съобщаването им. Тук ще се опитам сравнително кратко да обясня защо горното число е грешно, от къде е взето и защо спрях отдавна да следя данните, които въпросния сайт съобщава.

Още на 3-ти януари предупредих в социалките, че това число ще излезе около тази дата. Дадох за пример разминаването миналата година с няколко хиляди деца на тогавашното число изнесено от clinica.bg и данните на НСИ. Проблемът на данните им е първо източникът, второ времето на справката и трето какво всъщност показва и какви твърдения правят с него.

Първо, те твърдят, че се базира на данните на НЗОК за заплатени раждания в страната. Таблицата, която показват, дава разбивка за брой секцио, недоносени, усложнения и прочие. Тази справка не е от НЗОК, а по-специално от регистъра за ражданията. Това е един злополучен регистър, за който ще прочетете много в списъка със статии по-долу, но за сега трябва да знаете, че болниците следва да подават данни за всяко раждане и детайлите по него. Знам, че са взели данните от там, защото през 2018-та получих същата разбивка по болници и публикувах статистика от нея. Колкото и да беше интересна, заради описаните по-долу проблеми спрях да я следя, тъй като е безсмислена.

Макар болниците да имат задължение до три дни да публикуват данни за ражданията, много малко го правят. Някои въвеждат със забавяне от 3 до 6 месеца, някои не въвеждат правилно. Това значи, че данните за някои раждания през 2024-та може да се въведат чак април или май. Това установих след няколко годишно автоматично следене и анализ на публичната част от регистъра. След анализа ми и предупрежденията, че се използва само за фалшиви новини, въпросната публична част беше спряна. Частта за болниците и задължението им обаче остана. Няма индикации да има промяна в липсата на контрол над качеството на данните, което ги прави също толкова ненадеждни, колкото преди десет години. Това важи и за разбивката по усложнения и начин на израждане.

Друго сведение, че не са използвали данните на НЗОК за плащания, а регистъра за ражданията е разминаването им с данните на НЦОЗА. Критика към техните данни имам премного и отново ще я намерите в списъка долу. Те също публикуват данни за раждаемостта и използват плащанията на НЗОК за източник, но гледат не ражданията, а брой родени. Числото се разминава, но с около 2000 на година – толкова са броя на многоплодните раждания. Дори така не може да се обясни разликата в числата им – за 2023-та НЦОЗА съобщава с доклад на 1-ви февруари, че е имало 49795 живородени, а clinica на 14-ти февруари – за 49610 раждания. Разлика от 185 деца. За 2024-та НЦОЗА казва на 4-ти февруари, че са 49556 живородените, а clinica – на 11-ти февруари, че ражданията са 48754. Разлика от 802. Впрочем, според НСИ за 2023-та ражданията са били 57478 или 7868 повече, т.е. грешка от 13.7%.

Тук идваме към втория проблем – кога са взели данните. Твърдят, че източника им е един и същ – НЗОК, но справките им са с около 10 дни разлика. Разминаването не би трябвало да има значение, тъй като 2024-та е привършила отдавна, но видимо има. Реалния източник е различен и през времето изникват доста данни. Анализите ми за предходни години показват, че някои от ражданията няма да бъдат въведени и след няколко месеца. Интересно тук е също как въобще са взели данните от регистъра на ражданията. Както споменах, публичната част е спряна, а справките по болници никога не е била част от нея. През 2018-та получих справката от човек в институцията със служебен достъп. После ми беше отказано по ЗДОИ същата справка. Обсъждания сайт е свързан с бивши служители на министерството, които обаче отдавна не са част от системата. Изниква въпросът дали все още нямат служебен достъп до ресурси, които не би трябвало да имат. Ако пък са искали справката по ЗДОИ, защо я получават, а на други същото се отказва.

Третият проблем е какво твърдят и какво намекват в текста си. Изрично посочват, че числата не включват раждания непокрити от НЗОК и такива в чужбина, навярно в отговор на критиката, че изкарват крайно занижени данни спрямо тези на НСИ. С това обаче намекват, че в официалните данни се включват родените в чужбина българчета. Това категорично не е вярно. Първо, методологията на НСИ показва, че те броят ражданията по подадени от съобщения за раждане, също както всички актове за гражданско състояние. Такива има само за родени в страната. На родените в чужбина се вади ЕГН директно в ГРАО с молба и чуждестранен акт за раждане голяма част от тях се регистрират месеци и години след раждането по различни причини.

По случайност получих справка за родените в чужбина и получили българско ЕГН именно на 11-ти февруари, когато излезе и статията на clinica.bg. Ще пусна отделна статия с подробна информация за последните 35 години, но накратко – за българчетата родени в чужбина, на които родителите им са извадили български паспорт скоро след раждането (т.е. до края на януари 2025-та) са 8029. Тези родени през 2023-та вече са 15031, защото родителите им са имало повече време да се приберат и извадят паспорт. През последните години общия брой се върти около 20 хиляди деца родени зад граница. Нито сметката не излиза, а методологията и отговорите на НСИ оборват намеците на clinica.bg.

Обяснението не се получи кратко, а не съм засегнал доста аспекти от темата. Стигнахте до тук, така че може да ви е интересно да прочетете и за тях. Вярвам, че търпеливо ще изчакате и окончателните данни на НСИ през април, когато отново ще си говорим по темата. Пускам списък със статиите ми до тук, но вместо заглавията им слагам отговор на какъв въпрос отговарят. Не са в някакъв определен ред:

The post Числото, което ще чуете днес, е грешно first appeared on Блогът на Юруков.

Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват

от Боян Юруков
лиценз CC BY-SA

Преди седмица писах за това как новата система на кадастъра предоставя отворени данни. Те включват както географска информация за парцели, сгради и самостоятелни имоти, така и записи за собствеността на последните от публични и частни юридически и физически лица. За тези няколко дни данните предизвикаха сериозен интерес. Забелязаха се доста добри въпроси, критика, но и откровено подвеждаща информация – къде от притеснение, къде от зла умисъл. Затова искам да разясня няколко неща, включително какво не знаем и какво очакваме да видим.

Защо ги има тези данни?

Първите, които ги вкараха в употреба отвъд GIS системите изглежда бяха BIRD.bg. Аналогично на справките от търговския регистър, те добавиха и тези към търсачката си, която свързва данни за смяна на ръководство, обществени поръчки, еврофондове, споменавания в различни изтекли данни, а сега и собственост на имоти из страната.

Тъй като сайтът на кадастъра все още не предоставя лесна възможност за сваляне да отворените данни, аз го направих автоматично и предоставих архива на BIRD и други. Ще го намерите в края на тази статия, както и скрипта за сваляне. Това, както и факта, че явно първи писах за тях, накара някои да коментират, че аз съм отворил данните. В действителност, за да бъдат тези публично достъпни за свободна употреба данни част от новата система на кадастъра, имат заслуга много хора както в институциите, така и извън нея. На първо място за изискването в закона въобще да има отворен код и отворени данни в такива системи има голяма заслуга Божидар Божанов. Въпреки това виждаме как много често това изискване се пропуска, така че трябва да се даде заслуженото на множество хора, включително политически назначения и отделни хора сред изпълнителите на поръчката, които са направили така, че да се случи. Иначе информацията за тези данни вече беше известна и се е обсъждала в професионалните групи и форуми още през декември.

Доста често да отварям данни, които следва да са достъпни, но не са. Последно така направих с разрешителните за сеч, от години го правя за документите за застрояването и авариите в инфраструктурата. Аналогично от още по-отдавна отварях данните на Столична община за замърсяването на въздуха, когато ресорната агенция отказваше твърдо да публикува навременни данни с разбивка по часове. Когато започнаха да го правят по задължение отвън спрях този поток. В този случай обаче просто разпространих новината, че кадастъра са ги пуснали и може да се използват свободно.

Критика и проблеми

Имаше, разбира се, критика както към новата система, така и към данните. Кадастърът отдавна има проблеми с натоварването, но в случая има оплаквания от функционалността за няколкото хиляди специалисти въвеждащи информация. Доколкото те имат смисъл, осъзнаването защо са важни и какви ще са последствията от тях изисква вникване в материята. Тази седмица е имало среща на министерството, изпълнителите и целевата група на тези системи за оправяне на проблемите и разбирам, че се работи по тях. Има също критика по заданието, следенето на изпълнението и отново срещу определени практики на Информационно обслужване.

Самите данни също имат проблеми и те са в две групи. Първата е за самата справка. Първоначално липсваха данни за няколко общини и селища като Варна, например. На 6-ти добавиха Варна, но пак изглежда, че липсват някои селища. Причината навярно е непълнотата на самия кадастър за цялата територия. В предишната си статия писах, че идентификаторите за физически лица са кодирани, за да не се разкрива лична информация. Първоначалната информация е, че макар кодирани, те са еднакви между различните файлове и така може да се проследи общата собственост на лице без да се разкрива. След статията ми обаче бяха открити редица несъответствия, което може да говори за проблем с алгоритъма. Аналогичен се прилага без проблем при Търговския регистър. Трябва кодирането на ЕГН-тата тук да следва същите правила и настройки както в ТР, за да може информацията да се съпоставя между двете. Не на последно място, свалянето на данните е почти невъзможно на ръка в пълния си мащаб предвид хилядите архиви. Аз написах скрипт за целта, поради което бях сред първите споделили го.

Втората група проблеми са свързани не с новата система, а с качеството на въведената информация, практиките на специалистите работещи с кадастъра, нормативните изисквания към него и исторически причини. Дали даден имот е въведен с очертания, собственост, правилен адрес и прочие информация зависи в голяма степен от това дали е имало нужда за самия собственик. Пример може да бъдат ипотека и продажба. Качеството на тези данни, както и такива в миналото е доста спорно поради редица проблеми от двете страни на масата. Забелязват се грешни адреси, дублирани идентификатори на индивидуални обекти, сгрешени ЕИК на фирми и прочие. Важното тук е, че данните не съответстват непременно с това, което виждаме в имотния регистър, а следва да бъдат само отправна точка за по-нататъшни разследвания.

Имаше, разбира се, оплаквания произтичащи от искрено неразбиране или нарочен опит за внасяне на смут. На няколко пъти се видяха твърдения, че така изтичали лични данни, че толкова голям архив щял да се използва за имотни измами, кражби и изнудване. Риск за измами винаги има, но тези данни по-скоро биха го намалили, отколкото да го увеличат. Данните са достъпни в дори по-голяма пълнота срещу заплащане в имотния регистър. Отворените данни не съдържат лична информация, а тази на компании и общински фирми не е лична или търговска тайна в случая. Аналогични възгласи имаше когато бешемотворен търговския регистър и се видя, че са кухи. Най-любопитна ми беше нишката, която плетат няколко души пишещи по групите и най-вече замесени в имотния бизнес, че тази прозрачност била комунизъм, защото само комунистите ги интересува кой къде какво има, придобива от общински и държавни имоти, национални и градски паркове и сменя като предназначение. Тук не знам какво да отговоря освен, че видимо изкарването на все повече неща на светло притеснява доста хора. Най-сигурен признак за това би бил, ако някой се опита да премахне или ограничи отворените данни на кадастъра с каквото и да е извинение.

Полезни по множество начини

Няма масив от данни, който да е идеален и абсолютно верен към датата на публикуване. Особено в такива мащаби. Ключът към използването правилно на данните винаги е бил да се разбере методологията на събирането им, ограниченията и условностите. Затова винаги прекарвам толкова време в описване именно на тези три неща. Пример са данните за раждаемостта и абортите. Когато писах, че данните от кадастъра са невероятни, имах точно това предвид – въпреки всички описани проблеми и нуждата от чистене на определени очевидни грешки, това е много добър източник, който ще помогне не само за анализи и разследвания сам по себе си, но и е важен базов масив, който да се използва за визуализации на други данни.

В не по-малка степен ще помогне на откриването на проблемите в старите данни, за които говоря по-горе, с въвеждането и практиките на специалистите. Прозрачността в тази си форма изкарва често на преден план дълбоки проблеми в една или друга институция и бранш. Това е причината много министерства и агенции да се опитват всякак да избягват заложеното в закона изискване за отворен код и данни. Отчасти заради лобизъм и активно прикриване на нередности, но в чувствително по-голяма степен страх от видимост на пороците и неефективността. Изисква се смелост и откритост сам да публикуваш подобна информация. Това е най-добрият начин да имаме разбиране и разговор по тези теми и път към поправянето на дефектите.

Може да свалите всички отворени данни на кадастъра към 10-ти януари 2024-та от този архив. Там ще намерите json-ите с линкове и дати на всеки отделен архив с документи, zip с всички свалени документи, един с обърнати всички данни за собственост в csv файл от 24 млн. записа и един с всички shp файлове обърнати в geojson формат и намалена точност на координатите до половин метър, който е по-лесен за използване във визуализации. Ако искате сами да свалите документите, може да използвате полу-автоматичния ми скрипт на bash. Надявам се, че от кадастъра ще направят това по-лесно, например като общ архив от 5Gb.

The post Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват first appeared on Блогът на Юруков.

Кадастъра пусна отворени данни за всичко в България и са невероятни

от Боян Юруков
лиценз CC BY-SA

В края на миналата година писах накратко в социалките, че новият портал на кадастъра е публичен и на пръв поглед има доста полезна употреба – да се следи за незаконно дострояване. В действителност, с тази нова версия се случи нещо, за което натискахме и чакахме от много години – отворени данни за имотите в България.

Информацията, която търсихме са точните очертания на области, общини, землища и отделни парцели. Тази информация има много приложения отвъд работата с недвижими имоти. Преди 11 години, например, бях свалил парче по парче голяма част от тези данни и бях ги обобщил в опростена версия на картата на общините и селищата в България. Пуснах ги свободно с цел визуализации на данни и сам ги използвах в графиките си за данните за сеч, избори и редица други. Аналогично, за картата ми с документите за градоустройството в София през последните четири години съм свалил близо 25% от всички парцели в столицата. Подобно е положението и с 3D картата за застрояването. Данните влизаха в употреба в поне 10 от проектите и визуализациите ми до сега.

с. Априлци в Пазарджик

Затова с радост открих, че в новият портал на кадастъра има секция отворени данни, където може да се свали архивирана цялата спомената информация – отделни парцели, сгради и самостоятелни обекти в SHP формат. Вече свалих данните за община София и няма да се налага да товаря сървърите на НАГ и кадастъра всеки път като излезе нов документ. Данните съдържат много метаданни като площ, брой етажи, точен адрес, собственост, район, начин на употреба и документ определят последното. Дори само информацията за адресите е безценна, тъй като до сега нямаше такава публична база данни в България. Има дори адресите на самостоятелни обекти – гаражи, апартаменти и други части от сгради, включително къде се намират точно и колко е (законната) им площ.

Метаданни за случайна сграда в София

Това обаче далеч не е всичко. Публикувана е информация за собствеността на тези имоти – дали цялостно или частично, физическо, юридическо лице, община или държава и с какви документи и кога е установена тази собственост. Има дори ЕИК и имена на фирмите, а когато е частно лице, името е маскирано, а ЕГН-то е криптирано, така че да не се разбере, но да е пак уникално и да може да се съпостави с други записи. Това е безценна база данни с публична вече информация, която без да преувеличавам ще отвори нова страница в разследванията на злоупотреби на части и публични лица.

Пример за собствеността на парцели в с. Априлци, Пазарджик

Данните в този си вид са генерирани на 14-ти декември. Надявам се да имат възможност да ги обновяват редовно, особено собствеността. Все още липсва известна информация – за 6 общини липсват данни, включително община Варна. От тях, както и сред други общини липсва информация за около 380 селища или 7.2%. Изпратих и друга обратна връзка към създателите на портала и разбирам, че се работи по попълването на цялата информация. Две основни точки бяха двуезична документация и номенклатури, както и начин да се сваля всичко наведнъж.

Дори към този момент обаче е нещо внушително. Бих го сравнил само с публикуването на отворени данни от търговския регистър с тази разлика, че са много по-ясни, подредени и готови за употреба. Показах данните на няколко познати експерти работещи с GIS системи и събиращи информация от подобни регистри от цял свят. Един особено ми пише през няколко месеца да пита дали поне очертанията на парцелите в градовете имаме. Всички бяха удивени от качеството и пълнотата на информацията и метаданните, включително в сравнение с аналогични източници в Германия, Великобритания и щатите.

Центъра на София в сгради и парцели

Успях да сваля всички данни автоматично и вече ги преглеждам подробно. Особено тази за собствеността. Все още нямам идея какво от тези данни и как ще го покажа, но определено има доста какво да се направи с нея. Знам обаче, че ще използвам парцелите във визуализацията си за данните за сечта, които отворих наскоро. Особено за стартиращи бизнеси това ще е много полезно отвъд чистите GIS системи, недвижими имоти и планиране. Ако имате идеи как бихте използвали данните или вече сте направили нещо с тях, споделете го в коментарите.

The post Кадастъра пусна отворени данни за всичко в България и са невероятни first appeared on Блогът на Юруков.

Отворени данни на разрешителните за сеч 2011-2024

от Боян Юруков
лиценз CC BY-SA

Преди почти 10 години си зададох въпрос – къде в България се сече законно и в какви количества. Агенцията по горите нямаше отворени данни за това. Имат обаче регистър на позволителните за сеч, който макар не в достъпен формат, поне е достатъчно структуриран, за да се изведе нещо. На база тези числа тогава успях да покажа данните за сеч с точност до землище на населено място, а след това направих анализ и предложения.

Десет години по-късно малко се е променило. Някои от регионалните дирекции по горите и самата агенция са в портала за отворени данни на правителството. Има дори ресурс с позволителните за сеч, макар покриващ само част от данните и само за четири години. Регистърът си е същия, със същите грешки и 1.57 млн. документа – позволителни за сеч и протоколи след това.

Причината да знам това число е, че в последните седмици свалих цялата информация от средата на 2011-та, когато е започнал регистъра, до декември 2024-та. Там информацията е във вид на обикновена HTML страница подходяща за печат и подпис на хартия, но открих структура в нея. Така обърнах всеки документ в json формат с точната категория и вид дървета, позволена и реална сеч. Включва също констатации за нарушения, актове, кой е глобен и прочие. Разбира се, тук говорим само за законната сеч и документите свързани с нея. Ако не е в този списък, значи не е законно.

Тъй като изглежда самият им формуляр за генериране на тези документи не се използва съвсем коректно, някои от номерата и датите на заповедите не са попълнени. Също кадастриалните идентификатори посочващи точните парцели не са в правилен формат. Това ще се опитам да го оправят в друг момент. Има и други грешки, които съм се опитал да компенсирам в изходните данни.

Освен документите, съм публикувал и списък с обобщена информация за всяка сеч от търсачката им. Там може да се видят дати и количества на сеч и позволява да се свържат позволителните и протоколите, където това не е отбелязано в самия протокол.

Публикувам всички данни в отворен формат свободно, без лиценз и ограничения за използване. Ще се радвам, все пак, ако направите нещо с тях, да ми пишете, защото ми е интересно как са влезли в употреба. Ще създам интерактивен инструмент за филтриране и изследването им в скоро време, но искам първо да пусна данните, ако някой има идея за такъв или друга употреба.

Може да свалите данните от тази папка. Там ще намерите описание на полетата, файл с номерата на землищата и техните имена и ЕКАТТЕ номера, обобщенията списък, който споменах (95М, 18М zip) и архив с документите (6.2G, 1.1G zip)

The post Отворени данни на разрешителните за сеч 2011-2024 first appeared on Блогът на Юруков.

Акаунтите на GovAlertEu са вече основно в Mastodon и Bluesky

от Боян Юруков
лиценз CC BY-SA

Светлината е най-добрият дезинфектант.

Преди малко повече от десет години се замислих, че ми е трудно да следя какво се случва из родните институции и мога да подобря процеса. Затова създадох система, която да изчита по няколко пъти на ден новини, документи, събития и други и да ги публикува в акаунт в Twitter. С времето източниците на информация се увеличиха на 140 от над 31 различни институции, а акаунтите станаха осем.

Проектът се нарича GovAlertEu и до скоро публикуваше съобщения в неофициални акаунти на няколко институции, включително тези на МВР и Министерски съвет. Акаунтът на МВР стана официален на два пъти – за последно при един от редовните кабинети. След това си върнах контрола над него. Този на Министерски съвет все още е официален и имат достъп до него като автоматизацията за публикуване на новини си остава.

Няколко неща се промениха в последната година. Първо, значително увеличеното количество информация, която публикувам за градоустройството в София, Пловдив и Благоевград, както и интереса към данните и визуализациите създаде натоварване на ресурсите, които използвам. Второ, промени в моделът на работа на Twitter/X като мрежа направи почти невъзможна работата на автоматизирани акаунти като моя без да се плаща значителни суми на месец. Суми, които биха били оправдани единствено за големи компании и astroturf бот мрежи, каквито сякаш са единствените останали там.

Още при първите крачки към затваряне на API достъпа до Twitter започнах да гледам мрежи като Mastodon. Тези дни довърших интеграцията и вече е достъпна за използване. Благодаря на @mapto, че ме насочи към подходящ код, който да използвам.

Акаунтите достъпни на новия портал

На адреса m.govalert.eu ще откриете всички акаунти свързани с тази мрежа. Там се публикуват в реално време без ограничения всички новини идващи от институциите. Тази страница е паралелно и портал за ActivityPub протокола, което значи, че може да ги следвате в която и да е Fedi мрежа искате, включително Mastodon. Свързал съм акаунтите пред Fedi Bridge с Bluesky, където съобщенията ще се появяват със забавяне от една до 15 мин.

Линковете към отделните мрежи, включително все още Twitter, ще намерите на самата страница като бутони. В Twitter от началото на годината заради ограниченията ще публикувам единствено препратки към Mastodon с ежедневна статистика колко съобщения са пропуснали следящите там. Като начало това ще се случи за основния акаунт на GovAlertEu, този на МВР и този за градоустройството в София. Този на правителството няма толкова много новини, така че ще остане последен.

Ще забележите, че липсват стари съобщения. В следващата седмица ще генерирам новините поне 4-5 години назад във времето. Искам да развия тази страница като основна за услугата заедно със статистика, индикация кои страници на администрацията са изтрити, изчезнали или променени, както и архивиране на някои от тях. В такива случаи линковете от социалните мрежи ще сочат към архивираната версия.

Също, вижда се, че акаунтът на парламента няма съобщения от известно време. Всъщност, източниците на информация не са 140, а 218 от 47 институции, но една немалка част от тях или са променили сайтовете си значително, или не публикуват вече нужната информация. Предвид смяна на фокуса към градоустройството не съм поддържал тези източници, но с този нов портал ще го направя – един по един ще ги обновя започвайки от страницата на парламента. Тази промяна отваря възможността да разширя значително информацията, която искам да публикувам като до сега въвеждах ограничения заради комуникацията с Twitter.

Моите акаунти в Mastodon и Bluesky ще намерите в линковете под блога ми. Приветствам всякаква обратна връзка и идеи.

The post Акаунтите на GovAlertEu са вече основно в Mastodon и Bluesky first appeared on Блогът на Юруков.

Избори октомври 2024 – нова карта на секциите от Външно

от Боян Юруков
лиценз CC BY-SA

Това е нещо, което определено трябва да се отбележи, защото е някаква стъпка напред. Снощи Министерство на външните работи е публикувала карта на секциите в чужбина. Намерих я случайно, защото по няколко пъти на ден преглеждам мястото, където публикуват таблица с адресите на секциите. Когато има промяна я отразявам директно на моята карта. Същият процес следвам последните няколко вота, докато преди това се налагаше да преглеждам индивидуалните сканирани на PDF заповеди на всяко консулство и да сверявам с доброволци на място.

Вчера сутринта са започнали картата съдейки по метаданните. Публикувана е след 18:00 снощи, тъй като тогава последно проверих сайта им. Съдържа практически същите данни като моята. Тъй като са първоизточника и за пръв път публикуват не само адреси, но и географски координати, ще сравня отново данните с моите. Ще е добро упражнение да проверя с колко метра е отклонението на моята карта. Ще пусна резултатите в близките дни.

Вярно е, че публикуват картата около два дни и половина преди началото на изборния ден и закъсняха малко с адресите този път, но все пак е стъпка напред, за която трябва да ги поздравим. Дава ни надежда, че ще стане практика от доста по-рано за следващия вот. Преди години на поне един вот използваха версия на моята карта като официална след като изрично ме питаха за това. Предоставих я с удоволствие.

Винаги съм казвал, че целта на всяка инициатива следва да бъде да стане излишна. Същото целях с Lipsva, с отворените данни и GovAlert. Картата за изборите в чужбина се налага вече 12 години да я поддържам дори да не живея вече зад граница. Може би този експеримент на Външно да е знак, че това, което правя ще се разпознае като полезно и официален процес на администрацията. От друга страна, постоянството и приемствеността не са силните черти на по-голямата част от публичната сфера, както видяхме с нещо просто като акаунтите @GovBulgaria и @MIBulgaria, които се използваха като официални от Министерски съвет и МВР известно време. Та ще трябва да мине време и няколко вота, за да видим.

The post Избори октомври 2024 – нова карта на секциите от Външно first appeared on Блогът на Юруков.

Последните данни за индустриалното замърсяване

от Боян Юруков
лиценз CC BY-SA

Обнових данните за индустриалното замърсяване. Сетих се, че не ги бях обновил тази година. Така графиката ми позволява разглеждане и филтриране на данни по замърсители и индустриални площадки за последните 14 години. На страницата ще видите как изглежда като изключим CO2 емисиите.

Според съобщеното, има намаление на емисиите, особено във въздуха, и почти достигат нивата от 2020-та г. Има увеличение при замърсяването на водите, но е пак под нивата от преди 10 години.

В същото време трябва да се каже, че това са „декларирано“ замърсяване и емисии. Все още над 27% от тях са изчислени, ако изключим CO2. Няколко поредни разкрития показаха, че дори измерените стойности не отговарят на истината. Не става ясно дали това отчитане се контролира и дали е имало някога санкции за грешно съобщаване. Ще питам пак.

Самата интерактивна графика пуснах преди 11 години. Обновявам я всяка година в края на лятото, когато се предполага, че всички задължени са подали данни. Последно писах през 2019-та по темата и отново миналата година конкретно за данните на инсталациите свързани с Ковачки. Може да ви е интересно да видите и останалите ми статии свързани с други аспекти на замърсяването.

The post Последните данни за индустриалното замърсяване first appeared on Блогът на Юруков.

Избори октомври 2024: заявления за гласуване в чужбина

от Боян Юруков
лиценз CC BY-SA

Кампанията за събиране на заявления за гласуване в чужбина започна преди 10 дни. Това става с формуляра на страницата на ЦИК. Както обикновено, не беше лишена от проблеми в началото, включително грешно отбелязани или блокирани за подаване градове зад граница. Два дни по-късно, когато бяха изчистени повечето проблеми, пуснах мейл до над 3000 абонирани за новини на Glasuvam.org с информация за заявленията и правата им.

Ето някои от точките:

  • Крайният срок за подаване е 1-ви октомври в полунощ българско време
  • Подаването на заявление за гласуване в секцията най-близо до Вас, ще Ви улесни и ще ускори изборния процес, тъй като ще сте вече вписани в списъците
  • Заявление се подава за всеки вот поотделно. Т.е. не се пренасят от предходни избори
  • Дори да подадете заявление, а се окаже, че на 27-ми октомври сте в България, ще може да гласувате в секцията си по постоянен адрес с попълване на декларация
  • Вече са предварително одобрени 783 места за секции в чужбина, където в последните 5 години е имало поне 100 гласували. Това не означава, че непременно ще има секции на тези места. Това зависи от възможностите на помещенията и дали има комисии и доброволци към тях. В крайна сметка решението е на ЦИК по препоръка на Външно. Могат да се увеличат шансовете като се подават заявления за тези места и повече хора се включат като членове на комисии и доброволци.
  • На някои места като Германия е нужно да се иска разрешение от местните власти. Това вече би трябвало да се случва предвид предварително одобрените места. Очакваме информация от Външно
  • Подаването на заявления освен, че подпомага изборния процес, показва и повишен интерес на съгражданите ни в чужбина към вота

Докато първо бях блокиран да зареждам данни в реално време, както правя в последните над 10 години, намерих начин и вече може да се следи кампанията в реално време в детайли или на картата.

За тези десет дни може да си направим няколко извода. Тази кампания има най-малко подадени заявления в последните осем години. Основна причина за това е автоматично одобрените секции, т.е. нуждата от заявления не е толкова критична, както преди. Забелязва се обаче значителен спад дори спрямо вотове след въвеждането на тази промяна.

Тук виждате сравнение на събирането на заявления от цял свят. Линиите са с различна дължина, тъй като продължителността на кампаниите е била различна. Сегашната е от три седмици, което е по-малко от средното, но повече от тази през ноември 2021-ва и 2023-та.

Тук са подравнени спрямо крайната дата. Забелязвате как към края има увеличение. Не знаем дали сега ще има такова, но определено се забелязва забавяне в момента. Единствената година с по-малко заявления беше 2017-та, която обаче беше последвана от рекорден брой заявления през април 2021-ва.

Част от причината за сегашното забавяне са по-малкото заявления от Турция. Движи се паралелно с кампанията през април 2021-ва, която специално за Турция беше една от доста слабите. Далеч е от кампанията през 2023-та и дори началото на 2024-та. Ако няма промяна, това може да е годината с най-малко заявления за гласуване от Турция до сега предвид значително по-краткият период на събиране. Макар да предупреждавам доста да не се разчитат тези данни като индикатор за избирателна активност, може да служи за насока за проблем в организираността там предвид спецификите до сега.

The post Избори октомври 2024: заявления за гласуване в чужбина first appeared on Блогът на Юруков.

Има ли наистина скок в раждаемостта след пандемията?

от Боян Юруков
лиценз CC BY-SA

Наскоро коментирах под няколко интересни и няколко най-малкото подвеждащи поста на тема демография. Усетих се, че някои от наблюденията ми се базират на данни от преди няколко години. Затова реших да включа в таблиците си последните от НСИ, включително преброяването.

По традиция това пак свърши с 30-тина свалени таблици и затъване в заешка дупка на моделите ми. Ще пусна данните от тях скоро.

Междувременно, ето нещо бързо, което бях започнал в края на миналата година, но реших да изчакам официалните данни на НСИ за ревизията на населението. По някое време след всяко преброяване, те пускат таблица, с корекция на преценката си за населението. През времето неизменно се натрупва грешка и тя се наблюдава във всички държави. Бях направил своя корекция и макар да смятам тяхната за твърде изкривена, следва да използвам нея. Та вкарах в модела си техните данни и преизчислих тоталния коефициент на плодовитост, сравних го с официалния и получих следната графика.

Както виждаме тук. Тоталният коефициент на плодовитост най-общо може да се определи като колко деца биха имали жените в рамките на живота си, ако имаха възможностите, здравето и изборът на жените родили в рамките на една календарна година. В изчисляването му влиза броят родени деца по възраст на майката и колко жени има в тази група. Методологията ще откриете тук. Консенсусът е, че при ниската детска смъртност в наши дни е достатъчен коефициент от 2.1 за да се запази размерът на едно население. В действителност има и други фактори, но дългосрочно този е най-важният.

След 2021-ва попаднахме на няколко изказвания и заглавия, които отбелязваха рекордната раждаемост в страната. Тогава многократно обяснявах, че това е заради по-реалистичната представа за броя жени, които са в детеродна възраст. Преди това е бил нисък, защото сме смятали, че има повече жени във всяка възрастова група. С корекцията се вижда, че растежът на плодовитостта е растял равномерно.

Трябва да знаете, че въпреки, че НСИ публикува ревизия на данните си, те не ги прилагат в официалните таблици за населението. От там следва, че не ревизират индекси като този за смъртността, раждаемостта и прочие. За това има причини, но прави сравнението по-трудно. Затова и създадох свой модел да правят такива преценки, включително как ще се развива населението на база родените сега деца. Впрочем – забелязва се увеличение на момичетата влизащи в детеродна възраст.

Има два проблема с моето преизчисление на този коефициент. Когато го приложа с оригиналните, неревизирани данни за населението не получавам същия тотален коефициент на плодовитост както НСИ. Причината е, че имам достъп само до 5-годишни групи за население и възраст на раждалите майки. Вариацията между тези възрасти води до грешка в изчисленията и от средно 0.54% (медиана 0.44%, мин. 0.13%, макс 1.19%) за последните 14 години.

Вторият проблем, който виждам, е че ревизията на населението представена от НСИ има твърде силен скок веднага след преброяването през 2011-та и почти никаква промяна във времената на пандемията, когато смъртността скочи драстично, макар и предимно след по-възрастните. Това ми се струва крайно странно, но предполагам, че имат причини за това, за които ще ги питам. Долу виждате разликата в червено. Вертикалната скала показва средният брой жени във всяка от възрастовите групи включени в детеродна възраст.

Ефектът от този рязък спад в оценката за населението през 2012-та се отразява и на привидната привиден скок в раждаемостта тогава. Аналогично спадът в намаляването на населението след 2020-та създава впечатление, че има застой в раждаемостта. Една причина за това може да бъде, че имаше увеличение на връщащите се в България наши сънародници, често вече с деца. Пример за това съм аз самият.

Повече по темата може да прочетете в анализа, който направих преди почти 10 години с данните за раждаемостта между 1968-ма и 2014-та. Обнових ги в края на 2021-ва с данните до преброяването, но там не съм включил ревизията, за която говоря тук. Ще ги обновя с тях и данните за следващите няколко години в близките седмици.

The post Има ли наистина скок в раждаемостта след пандемията? first appeared on Блогът на Юруков.