Tag Archives: отворени данни

Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват

от Боян Юруков
лиценз CC BY-SA

Преди седмица писах за това как новата система на кадастъра предоставя отворени данни. Те включват както географска информация за парцели, сгради и самостоятелни имоти, така и записи за собствеността на последните от публични и частни юридически и физически лица. За тези няколко дни данните предизвикаха сериозен интерес. Забелязаха се доста добри въпроси, критика, но и откровено подвеждаща информация – къде от притеснение, къде от зла умисъл. Затова искам да разясня няколко неща, включително какво не знаем и какво очакваме да видим.

Защо ги има тези данни?

Първите, които ги вкараха в употреба отвъд GIS системите изглежда бяха BIRD.bg. Аналогично на справките от търговския регистър, те добавиха и тези към търсачката си, която свързва данни за смяна на ръководство, обществени поръчки, еврофондове, споменавания в различни изтекли данни, а сега и собственост на имоти из страната.

Тъй като сайтът на кадастъра все още не предоставя лесна възможност за сваляне да отворените данни, аз го направих автоматично и предоставих архива на BIRD и други. Ще го намерите в края на тази статия, както и скрипта за сваляне. Това, както и факта, че явно първи писах за тях, накара някои да коментират, че аз съм отворил данните. В действителност, за да бъдат тези публично достъпни за свободна употреба данни част от новата система на кадастъра, имат заслуга много хора както в институциите, така и извън нея. На първо място за изискването в закона въобще да има отворен код и отворени данни в такива системи има голяма заслуга Божидар Божанов. Въпреки това виждаме как много често това изискване се пропуска, така че трябва да се даде заслуженото на множество хора, включително политически назначения и отделни хора сред изпълнителите на поръчката, които са направили така, че да се случи. Иначе информацията за тези данни вече беше известна и се е обсъждала в професионалните групи и форуми още през декември.

Доста често да отварям данни, които следва да са достъпни, но не са. Последно така направих с разрешителните за сеч, от години го правя за документите за застрояването и авариите в инфраструктурата. Аналогично от още по-отдавна отварях данните на Столична община за замърсяването на въздуха, когато ресорната агенция отказваше твърдо да публикува навременни данни с разбивка по часове. Когато започнаха да го правят по задължение отвън спрях този поток. В този случай обаче просто разпространих новината, че кадастъра са ги пуснали и може да се използват свободно.

Критика и проблеми

Имаше, разбира се, критика както към новата система, така и към данните. Кадастърът отдавна има проблеми с натоварването, но в случая има оплаквания от функционалността за няколкото хиляди специалисти въвеждащи информация. Доколкото те имат смисъл, осъзнаването защо са важни и какви ще са последствията от тях изисква вникване в материята. Тази седмица е имало среща на министерството, изпълнителите и целевата група на тези системи за оправяне на проблемите и разбирам, че се работи по тях. Има също критика по заданието, следенето на изпълнението и отново срещу определени практики на Информационно обслужване.

Самите данни също имат проблеми и те са в две групи. Първата е за самата справка. Първоначално липсваха данни за няколко общини и селища като Варна, например. На 6-ти добавиха Варна, но пак изглежда, че липсват някои селища. Причината навярно е непълнотата на самия кадастър за цялата територия. В предишната си статия писах, че идентификаторите за физически лица са кодирани, за да не се разкрива лична информация. Първоначалната информация е, че макар кодирани, те са еднакви между различните файлове и така може да се проследи общата собственост на лице без да се разкрива. След статията ми обаче бяха открити редица несъответствия, което може да говори за проблем с алгоритъма. Аналогичен се прилага без проблем при Търговския регистър. Трябва кодирането на ЕГН-тата тук да следва същите правила и настройки както в ТР, за да може информацията да се съпоставя между двете. Не на последно място, свалянето на данните е почти невъзможно на ръка в пълния си мащаб предвид хилядите архиви. Аз написах скрипт за целта, поради което бях сред първите споделили го.

Втората група проблеми са свързани не с новата система, а с качеството на въведената информация, практиките на специалистите работещи с кадастъра, нормативните изисквания към него и исторически причини. Дали даден имот е въведен с очертания, собственост, правилен адрес и прочие информация зависи в голяма степен от това дали е имало нужда за самия собственик. Пример може да бъдат ипотека и продажба. Качеството на тези данни, както и такива в миналото е доста спорно поради редица проблеми от двете страни на масата. Забелязват се грешни адреси, дублирани идентификатори на индивидуални обекти, сгрешени ЕИК на фирми и прочие. Важното тук е, че данните не съответстват непременно с това, което виждаме в имотния регистър, а следва да бъдат само отправна точка за по-нататъшни разследвания.

Имаше, разбира се, оплаквания произтичащи от искрено неразбиране или нарочен опит за внасяне на смут. На няколко пъти се видяха твърдения, че така изтичали лични данни, че толкова голям архив щял да се използва за имотни измами, кражби и изнудване. Риск за измами винаги има, но тези данни по-скоро биха го намалили, отколкото да го увеличат. Данните са достъпни в дори по-голяма пълнота срещу заплащане в имотния регистър. Отворените данни не съдържат лична информация, а тази на компании и общински фирми не е лична или търговска тайна в случая. Аналогични възгласи имаше когато бешемотворен търговския регистър и се видя, че са кухи. Най-любопитна ми беше нишката, която плетат няколко души пишещи по групите и най-вече замесени в имотния бизнес, че тази прозрачност била комунизъм, защото само комунистите ги интересува кой къде какво има, придобива от общински и държавни имоти, национални и градски паркове и сменя като предназначение. Тук не знам какво да отговоря освен, че видимо изкарването на все повече неща на светло притеснява доста хора. Най-сигурен признак за това би бил, ако някой се опита да премахне или ограничи отворените данни на кадастъра с каквото и да е извинение.

Полезни по множество начини

Няма масив от данни, който да е идеален и абсолютно верен към датата на публикуване. Особено в такива мащаби. Ключът към използването правилно на данните винаги е бил да се разбере методологията на събирането им, ограниченията и условностите. Затова винаги прекарвам толкова време в описване именно на тези три неща. Пример са данните за раждаемостта и абортите. Когато писах, че данните от кадастъра са невероятни, имах точно това предвид – въпреки всички описани проблеми и нуждата от чистене на определени очевидни грешки, това е много добър източник, който ще помогне не само за анализи и разследвания сам по себе си, но и е важен базов масив, който да се използва за визуализации на други данни.

В не по-малка степен ще помогне на откриването на проблемите в старите данни, за които говоря по-горе, с въвеждането и практиките на специалистите. Прозрачността в тази си форма изкарва често на преден план дълбоки проблеми в една или друга институция и бранш. Това е причината много министерства и агенции да се опитват всякак да избягват заложеното в закона изискване за отворен код и данни. Отчасти заради лобизъм и активно прикриване на нередности, но в чувствително по-голяма степен страх от видимост на пороците и неефективността. Изисква се смелост и откритост сам да публикуваш подобна информация. Това е най-добрият начин да имаме разбиране и разговор по тези теми и път към поправянето на дефектите.

Може да свалите всички отворени данни на кадастъра към 10-ти януари 2024-та от този архив. Там ще намерите json-ите с линкове и дати на всеки отделен архив с документи, zip с всички свалени документи, един с обърнати всички данни за собственост в csv файл от 24 млн. записа и един с всички shp файлове обърнати в geojson формат и намалена точност на координатите до половин метър, който е по-лесен за използване във визуализации. Ако искате сами да свалите документите, може да използвате полу-автоматичния ми скрипт на bash. Надявам се, че от кадастъра ще направят това по-лесно, например като общ архив от 5Gb.

The post Отворените данни на кадастъра – кой ги отвори, проблемите с тях и защо все пак ми харесват first appeared on Блогът на Юруков.

Кадастъра пусна отворени данни за всичко в България и са невероятни

от Боян Юруков
лиценз CC BY-SA

В края на миналата година писах накратко в социалките, че новият портал на кадастъра е публичен и на пръв поглед има доста полезна употреба – да се следи за незаконно дострояване. В действителност, с тази нова версия се случи нещо, за което натискахме и чакахме от много години – отворени данни за имотите в България.

Информацията, която търсихме са точните очертания на области, общини, землища и отделни парцели. Тази информация има много приложения отвъд работата с недвижими имоти. Преди 11 години, например, бях свалил парче по парче голяма част от тези данни и бях ги обобщил в опростена версия на картата на общините и селищата в България. Пуснах ги свободно с цел визуализации на данни и сам ги използвах в графиките си за данните за сеч, избори и редица други. Аналогично, за картата ми с документите за градоустройството в София през последните четири години съм свалил близо 25% от всички парцели в столицата. Подобно е положението и с 3D картата за застрояването. Данните влизаха в употреба в поне 10 от проектите и визуализациите ми до сега.

с. Априлци в Пазарджик

Затова с радост открих, че в новият портал на кадастъра има секция отворени данни, където може да се свали архивирана цялата спомената информация – отделни парцели, сгради и самостоятелни обекти в SHP формат. Вече свалих данните за община София и няма да се налага да товаря сървърите на НАГ и кадастъра всеки път като излезе нов документ. Данните съдържат много метаданни като площ, брой етажи, точен адрес, собственост, район, начин на употреба и документ определят последното. Дори само информацията за адресите е безценна, тъй като до сега нямаше такава публична база данни в България. Има дори адресите на самостоятелни обекти – гаражи, апартаменти и други части от сгради, включително къде се намират точно и колко е (законната) им площ.

Метаданни за случайна сграда в София

Това обаче далеч не е всичко. Публикувана е информация за собствеността на тези имоти – дали цялостно или частично, физическо, юридическо лице, община или държава и с какви документи и кога е установена тази собственост. Има дори ЕИК и имена на фирмите, а когато е частно лице, името е маскирано, а ЕГН-то е криптирано, така че да не се разбере, но да е пак уникално и да може да се съпостави с други записи. Това е безценна база данни с публична вече информация, която без да преувеличавам ще отвори нова страница в разследванията на злоупотреби на части и публични лица.

Пример за собствеността на парцели в с. Априлци, Пазарджик

Данните в този си вид са генерирани на 14-ти декември. Надявам се да имат възможност да ги обновяват редовно, особено собствеността. Все още липсва известна информация – за 6 общини липсват данни, включително община Варна. От тях, както и сред други общини липсва информация за около 380 селища или 7.2%. Изпратих и друга обратна връзка към създателите на портала и разбирам, че се работи по попълването на цялата информация. Две основни точки бяха двуезична документация и номенклатури, както и начин да се сваля всичко наведнъж.

Дори към този момент обаче е нещо внушително. Бих го сравнил само с публикуването на отворени данни от търговския регистър с тази разлика, че са много по-ясни, подредени и готови за употреба. Показах данните на няколко познати експерти работещи с GIS системи и събиращи информация от подобни регистри от цял свят. Един особено ми пише през няколко месеца да пита дали поне очертанията на парцелите в градовете имаме. Всички бяха удивени от качеството и пълнотата на информацията и метаданните, включително в сравнение с аналогични източници в Германия, Великобритания и щатите.

Центъра на София в сгради и парцели

Успях да сваля всички данни автоматично и вече ги преглеждам подробно. Особено тази за собствеността. Все още нямам идея какво от тези данни и как ще го покажа, но определено има доста какво да се направи с нея. Знам обаче, че ще използвам парцелите във визуализацията си за данните за сечта, които отворих наскоро. Особено за стартиращи бизнеси това ще е много полезно отвъд чистите GIS системи, недвижими имоти и планиране. Ако имате идеи как бихте използвали данните или вече сте направили нещо с тях, споделете го в коментарите.

The post Кадастъра пусна отворени данни за всичко в България и са невероятни first appeared on Блогът на Юруков.

Отворени данни на разрешителните за сеч 2011-2024

от Боян Юруков
лиценз CC BY-SA

Преди почти 10 години си зададох въпрос – къде в България се сече законно и в какви количества. Агенцията по горите нямаше отворени данни за това. Имат обаче регистър на позволителните за сеч, който макар не в достъпен формат, поне е достатъчно структуриран, за да се изведе нещо. На база тези числа тогава успях да покажа данните за сеч с точност до землище на населено място, а след това направих анализ и предложения.

Десет години по-късно малко се е променило. Някои от регионалните дирекции по горите и самата агенция са в портала за отворени данни на правителството. Има дори ресурс с позволителните за сеч, макар покриващ само част от данните и само за четири години. Регистърът си е същия, със същите грешки и 1.57 млн. документа – позволителни за сеч и протоколи след това.

Причината да знам това число е, че в последните седмици свалих цялата информация от средата на 2011-та, когато е започнал регистъра, до декември 2024-та. Там информацията е във вид на обикновена HTML страница подходяща за печат и подпис на хартия, но открих структура в нея. Така обърнах всеки документ в json формат с точната категория и вид дървета, позволена и реална сеч. Включва също констатации за нарушения, актове, кой е глобен и прочие. Разбира се, тук говорим само за законната сеч и документите свързани с нея. Ако не е в този списък, значи не е законно.

Тъй като изглежда самият им формуляр за генериране на тези документи не се използва съвсем коректно, някои от номерата и датите на заповедите не са попълнени. Също кадастриалните идентификатори посочващи точните парцели не са в правилен формат. Това ще се опитам да го оправят в друг момент. Има и други грешки, които съм се опитал да компенсирам в изходните данни.

Освен документите, съм публикувал и списък с обобщена информация за всяка сеч от търсачката им. Там може да се видят дати и количества на сеч и позволява да се свържат позволителните и протоколите, където това не е отбелязано в самия протокол.

Публикувам всички данни в отворен формат свободно, без лиценз и ограничения за използване. Ще се радвам, все пак, ако направите нещо с тях, да ми пишете, защото ми е интересно как са влезли в употреба. Ще създам интерактивен инструмент за филтриране и изследването им в скоро време, но искам първо да пусна данните, ако някой има идея за такъв или друга употреба.

Може да свалите данните от тази папка. Там ще намерите описание на полетата, файл с номерата на землищата и техните имена и ЕКАТТЕ номера, обобщенията списък, който споменах (95М, 18М zip) и архив с документите (6.2G, 1.1G zip)

The post Отворени данни на разрешителните за сеч 2011-2024 first appeared on Блогът на Юруков.

Прозрачността в градската среда и това да си деен не само по избори

от Боян Юруков
лиценз CC BY-SA

Все се говори за прозрачност и отчетност, но донякъде иронично остават доста мъгляви понятия. Писал съм за това доста през годините, например за фонда за лечение на деца, връзките на лекари с фарма компании и размислите на Радев дали е нужна прозрачност въобще. Тук опивам три малки примера какво се научава и какво можеш да направиш, ако имаш достъп, достъпност и поставени в контекст данни.

Това са все случаи с места в София, покрай които минавам редовно и затова съм се решил да се занимавам. Накрая ще добавя списък с ресурси, които може да ви помогнат да научите повече за средата около себе си. За съжаление, за София конкретно, тъй като във всички останали градове почти липсва информация.

В първия случай става въпрос за общински имот, на който има стар блок. Зад блока има паркинг. Преди няколко години живущите там са решили да преградят достъпа до имота усвоявайки го и създавайки частен паркинг. Слагат и автоматична врата с контролиран достъп. Преди 5 години някой подава сигнал, констатира се нарушение, установява се точно кой го е извършил, но заповедта се прехвърля между район Изгрев и дирекции в общината докато накрая потъва. Сега имат нов сигнал за същото и отговорът от район Изгрев е общо взето „тогава строителен контрол каза, че няма нарушение и оставихме случая“. Обаче, ако някой намери стария сигнал и прочете какво всъщност е написано, открива, че район Изгрев подвеждат и наистина са седели върху установен и документиран от институциите проблем с общинска земя години наред. Сега ДНСК е изискала нова проверка и действия по въпроса и ги чака.

Вторият случай пак е за общински имот. По-точно три, но ще се фокусираме върху най-големия. Този път инвеститор си е построил блок и е заградил съседните общински имоти. Известно време ги използва за строителни отпадъци, но после просто ги подготвя за строеж. На тези имоти незнайно как има одобрен градоустройствен план за жилищно строителство. Липсват документите за това на сайта на общината, но е добре известно, че става дума за общинска частна собственост. Явно е подготвено за продажба при „удобен общински съвет“. Това беше коментирано из групите на квартала и район Изгрев имат сигнал, на който отговориха вчера след двумесечно забавяне. Установили нарушението и нарушителя и му дали срок за доброволно премахване на оградата и освобождаване на имота. Не става ясно какъв е срокът и кога изтича. Малката подробност е, че аналогични сигнали от различни хора от квартала има 18 месеца по-рано. Тогава същите хора от район Изгрев по същия начин открили нарушение и е дали пак срок за същото. Отново не става ясно какъв, но година и половина по-късно не само няма предприети действия, но въпросният инвеститор си е насадил временни декоративни храстчета, които даже пораснаха, за да скрият какво се прави в имота. Има нов сигнал в общината за бездействието на района и непроследяването на собствените им актове.

Третият случай отново е за инвеститор, този път небезизвестен и с топли връзки с ключови хора в общината. В подготовка на нов техен проект, за да няма шанс някой да го оспорва, си осигуриха отделяне на парцел с широчина три метра по протежението на имота. Така се отделиха от „съседите“, които не бяха уведомени за последващите визи и разрешения, както е по закон. Класическа схема. Така си осигуриха разрешение за строителство само в големия парцел. Прекрасно – прецакаха системата. Последваха редица проблеми дори само със започването на строежа. За повечето бяха предупредени от район Изгрев и не бяха санкционирани. Нещо, което не успяха да скрият е, че са започнали строителни дейности и в малкия парцел, т.е. изкопаха основите и изляха стена на подземните гаражи видимо разширявайки ги в рамките на ония „юридически-санитарен“ имот и извън параметрите на проекта. Общината има сигнал, но единственото, което строителен контрол констатира е, че има разрешително за големия парцел. Премълчават дали се отнася до малкия и дали са направили проверка на място. Отново ДНСК ги чака за отговор. Ако ще се спазва буквата на закона, трябва да важи за всеки етап от строителството. Тук проблемът е, че ако не бъде отстранено това нарушение, на практика проектът не би следвало да получи акт 16, освен ако не прибегнат до нелегалните практики с които се свързва името им в медиите. Предвид как е предвиден проекта и какво се строи се очакват още проблеми най-вече свързани със задължителното озеленяване и дълбочина на почвен слой. Всичко това обаче се очаква да мине безпроблемно проверки също както аналогичните в други подобни проекти.

Всяко от тези неща изглежда дребно на пръв поглед, но са всъщност чести нарушения в София и други градове. Масово не се съблюдават изискванията, не се извършват реални проверки или когато е установено нарушение, не се санкционира или проследява отстраняването му от органите на общината. Понякога това заради чадър от ръководството, понякога е заради саботирани дела, но най-често е заради нехайство, липса на прозрачност и проследяване, а и откровена корупция по ниските нива. Това позволява особено на едри строители, за които иначе се предполага, че са им изрядни документите, да правят куп нарушения, включително с цел позволяване на строителство. Това включва подкупи за получаване на становище за пожарна безопасност, ток и вода, „услуги“ и скриване на процедурите по одобрение, както и уреждане на по-добри параметри за строеж и продажба на общинска земя директно от общинския съвет.

Лесно е да се каже, че в общината са некадърни и „не е виновен тоя дето яде баницата“. В действителност това е модел на поведение, който не се оправя с избори, а с ежедневни усилия, както всяко друго нещо в държавата ни. Означава и че действията на чиновници и техните ръководители също се диктува от това какво може да им се размине. Затова, ако искате да направите нещо отвъд гневните емоджита и писане по групи във фейса, ето няколко ресурса, от които да започнете без да ви отнема много време:

  • isofmap.bg – това е карта с повечето слоеве на градско планиране и застрояване, които самата община гледа. Там ще намерите информация за собственост на имоти, инфраструктура и прочие. От слоевете ще намерите и карта на планирано и съществуващо застрояване. Отчасти на данните в тази карта се базира 3D картата, която започнах
  • Регистрите на НАГ – тук има документи за всякакви фази и аспекти от строителството. Включително разрешения за поставяне и санкции.
  • Картата на НАГ – всеки документ от онзи регистър би трябвало да е на тази карта. Подобно на isofmap има доста слоеве, но като натиснете на имот и показва известни свързани документи. За съжаление, 30% от документите не са свързани с картата, но доста от новите са
  • call.sofia.bg – сигнали към общината за нередности и проблеми в градската среда.
  • Визуализацията към call.sofia – тъй като на портала на общината не се откриват стари сигнал и не е особено лесен за търсене по принцип, направих тази визуализация. С нея открих и стаите сигнали, за които говоря по-горе. Пак на база тези данни направих карта на сигналите за паднали клони в София тази зима.
  • Картата на GovAlert – тъй като регистрите и дори картата на НАГ не са особено лесни за търсене и ориентиране, направих тази карта, която се обновява в реално време. Има филтри за време и видове документи. Също се опитва да свърже документи, които не са включени в картата на НАГ като търси идентификатори на имоти. Повече ще прочетете в статията ми когато започнах проекта преди три години.
  • Twitter акаунта на @NAG_SO_public – тъй като не всички документи може да се сложат на карта, всичко се пуска допълнително и в този акаунт като новини. Добавени са също прес съобщения от НАГ, обявления за обществени обсъждания и прочие.
  • Сигурно електронно връчване – за всякаква комуникация с институции е полезно. Трябва само ПИК на НАП или електронен подпис в момента. Докато при сигналите към общината няма опция за отговор или ескалиране на проблем, тук може лесно да се препращат сигнали, добавя информация и оспорват резултати. Също да се изпраща запитвания по ЗДОИ. С този портал няма опция да не входират документ, защото всичко е проследимо и подписано електронно.

Ресурсите за градоустройство в София всъщност предоставят някаква прозрачност и данни, макар да е все още трудна за следене и преглеждане. В другите градове дори това липсва. Доколкото строителството там беше несравнимо по-малко дори спрямо населението и размерите на града, това се променя в последните години особено в Пловдив и Бургас. Затова добавих Пловдив и Благоевград и работя все още да добавя Бургас и Варна към картата и бюлетина на отделен twitter акаунт – @BGCityPlanning. Все пак, поради значително по-малкия поток от информация, може да следите протоколите и обявите на сайта на общината си докато нещо по-добро е налично.

The post Прозрачността в градската среда и това да си деен не само по избори first appeared on Блогът на Юруков.

Спирам свалянето на данни за въздуха

от Боян Юруков
лиценз CC BY-SA

В последните почти петнадесет години съм отварял, визуализирал и анализирал доста данни. Една част от тях пускам в отворен формат, някои – в реално време. Едни такива данни бяха замерванията за въздуха в София. В началото на 2016-та година започнах да ги тегля със свой скрейпър, който интерпретираше графиките на общината и ги записваше в разбираем и отворен формат.

Това се случи във време, когато въпреки многобройните призиви и запитвания по ЗДОИ, ИАОС отказваше да публикува суровите данни от измерванията. Официалните данни бяха само от пет станции в София с ясна методология. Година по-късно се появиха първите частни станции, но данните от институциите все така бяха недостъпни. Затова данните отваряни в реално време от моя скрипт бяха използвани дълго време от няколко сайта и приложения като отправна точка.

Всичко това спря на 1-ви септември. Тогава съответните антични графики на общината спряха да работят и скриптовете се счупиха. Почти осем години по-късно слагам край на проекта и за това има няколко причини. Архивът му ще остане активен на този сайт.

Първо, след масиран натиск, но най-вече съвестни хора на ключови позиции в определени кабинети, които натискаха за прозрачност и дигитализация, ИАОС все пак публикува данните си. Това става в профила им в портала за отворени данни на кабинета.

Второ, покрай популярността на airbg Столична община подобри визуализацията на сайта си и данните са по-достъпни, включително от ИАОС. Добавиха и още станции в рамките на проекта AirThings, където има удобно api.

Трето, института Gates започна пилотен проект за следене на не само на замърсяването, но и на редица други параметри и проблеми от градската ни среда. Картата им може да намерите на сайта.

Всъщност, именно разговор с Петър от Gates днес на кошера на Тук-Там ме накара да погледна пак скриптовете и да забележа, че са спрели да работят също както и съобщенията за грешки. На практика голяма част от scraper-ите ми вървят от години без поддръжка или да им обръщам особено внимание. Това важи както за документите на институциите, така и за спиранията на ток, парно и вода в София, безследно изчезналите, строежите в София, производството на енергия и прочие.

За разлика от преди 8 години, днес има предостатъчно източници на данни за замърсяването. Това е резултат от инвестираното време, нерви и внимание на множество хора. Продуктът е огромно количество информация, което трябва да се превърне в ефективни политики базирани и оценени като ефект с данни.

Именно заради тази достъпност няма да обръщам внимание на Столична община, че им са се скапали графиките и ще спра скриптовете. В линковете горе ще намерите данните от другите източници.

Ето някои от статии по темата, които съм писал през годините:

The post Спирам свалянето на данни за въздуха first appeared on Блогът на Юруков.

Данните на Call.Sofia в разбираем и удобен вид

от Боян Юруков
лиценз CC BY-SA

Община София има портал за сигнали и жалби, в който всеки жител или гост на града може да съобщи за проблем – call.sofia.bg. Използвам го активно още преди да се преместя от Франкфурт в София и като замисъл го намирам за добра идея. Самият сайт не е особено добър от гледна точка на използваемост, но по-важното е, че практически всички сигнали се разпределят на районните кметове, които често нямат ресурс или дори право да ги решат.

Подбуден от типично българския ни цинизъм, исках да видя, дали сигнали от сайта изчезват. Повод за това беше наблюдението, че на началната страница се виждат само последните 5000. Затова както с документите на Направление архитектура и градоустройство, написах скрипт, който през час да тегли най-новите сигнали. Тъй като исках да видя къде е имало исторически най-много проблеми, изтеглих всичко назад във времето заедно с обновленията и геометриите. Почти всички сигнали имат посочено местоположение като точка, но някои хора си правят труда да отбелязват пътища и цял регион.

Така се оказа, че имам всичките им данни и мога най-малкото да вадя статистика. Като например брой сигнали със статус приключен – 13%. Повечето сигнали – 77% – получават едно или повече уведомления без да са отбелязани като приключени. Историята на статусите пък ми позволи да видя за колко време отнема от подаването до последното обновление по сигнал. 11% отнемат повече от месец. Също така през работните дни се подават два пъти повече сигнали отколкото през почивните, а в петък – с 10% по-малко от предходните четири дни. Най-много сигнали има за пътна инфраструктура – 28%. На второ място с над два пъти по-малко сигнали е паркирането с 12%. Едва тогава следва замърсяването с 10%, сметоизвозването и осветлението с по 9%.

За да осмисля обаче данните географски и да мога да ги прехвърлям в реално време, имах нужда от инструмент. Затова малко по-малко създадох интерактивна карта, която да показва като колони броя на случаите. Колоните са с основа 50 на 50 метра, а всеки случай добавя около 2 метра над височината им. Има филтри, с които да се избират конкретни данни по години или друг период, категории и прочие. Натискайки на дадена колона ще видите списък с всички сигнали на това място с линове към оригиналния сигнал. Списъкът със сигналите на даденото място, както и панелът с филтрите може да се скриват. Вдясно под бутоните за увеличение на картата има бутон за показване отново на филтрите. Бутонът под него е за промяна на прозрачността на триизмерната визуализация върху картата. Полезно е, ако искате да се ориентирате по-добре за улиците под въпросните колони.

След обратна връзка от Linkedin и кмета на Слатина Георги Илиев добавих няколко неща, включително филтър по райони, за да може да се сравни активността и случаите разпределени там. Може също да се превключва показване на абсолютен брой сигнали, както и спрямо населението на региона. Границите и оценката за населението на последните взех от отворените данни на практически закритата вече Софияплан.

Преди обаче да погледнем самите данни, както винаги следва да поговорим за условностите им. Както при Фонда за лечение на деца поет в последствие от НЗОК, тук също показват единствено това, което се поддържа като масив от данни от СО. Има сигнали с автоматично добавен маркер на мястото на Софийска община. Тях съм ги скрил от картата, например. Има и такива добавени с други общини и области. Има сигнали със сбъркана година в датите, както и понякога с десетки пъти изпратен един и същ сигнал за едно и също нещо. Има също много тестови сигнали използвани видимо за проверка на нови категории и функции.

Активността по сигналите идват най-вече от районните кметства, почти винаги под формата на сканирани и прикачени писма. Рядко се случва да добавят изрични коментари – най-вече при отхвърляне на сигнал. Тук е важно да се разбере, че получен отговор или дори „приключен“ сигнал не означава, че даденият проблем е решен. Това може да се декларира дори в приложените документи, но дори тогава няма някаква форма на проверка или потвърждение. Системата не позволява последващи коментари или обновления или дори съгласие с изпратения статус или информация. Връзката е еднопосочна.

По подадените сигнали може да съдим най-вече за активността по теми, райони и конкретни места. Именно тук визуалното представяне на информацията помага най-много. Докато самата карта на call.sofia да показва някаква форма на групиране по клъстъри, то не позволява откриване на „горещи точки“. Всъщност, използват точно същото групиране в картите си преди единадесет години. Основният проблем обаче е, че показват само активните сигнали, т.е. тези, на които не е отговорено, а се очаква разглеждане. Освен, ако един по един не разглеждаме десетките хиляди преди това познавайки поредните им уникални номера, няма да знаем къде е имало голям интерес към даден проблем. Именно това направих.

Единственото, което може да ни покажат тези данни обаче е точно това – активност, интерес и някаква форма на доверие, че нещо може да се случи по дадената тема, та дори това да е само публичност. Повечето сигнали не означават непременно повече проблем, а наболял такъв, активна група граждани на това място или голям трафик от хора. В централната част на града минават най-много хора и очаквано има повече активност.

Това, което не се забелязва е значимо увеличение на активността през годините. След очаквано ниската активност през 2020-та, има едва леко покачване през 2021-ва, също както предходните две. Излизат между 54 и 60 хиляди сигнала на година, което изглежда много докато не сметнем, че става въпрос за 164 сигнала дневно в град с два милиона жители и ужасна инфраструктура.

Видимо липсва, е двустранна комуникация, прозрачност какво се случва и какво се планира, както и оценка на свършеното от подалите сигнала и живеещите в региона. Това неизменно се обвързва с липсата на самостоятелност при голяма част от решенията и бюджетите на районните кметства, както и абсурдното управление на градското планиране във всичките му аспекти.

Независимо, подаването на сигнали има голямо значение, защото постигат публичност на конкретни проблеми. Отваряйки данните на този портал постигаме и донякъде прозрачност на историята на тези проблеми и натрупването им. Картата, която направих, е пример как следва гражданите да използват отворените данни на администрацията, а защо не и частни организации. За разлика от първата ми визуализация за българчетата родени в чужбина или тази на активните българи зад граница, тази за сигналите в София може да се използва за реално изследване на данните.

Разбира се, както с НАГ и доста други ведомства, обсъжданите данни въобще не са изначално отворени, така че се наложи да ги отворим през публичните им API-та. Това не прави инструмента call.sofia по-малко полезен, а просто морално остарял и създаден по-скоро за комфорт на кмета на София, отколкото на жителите на града.

Интерактивната карта ще намерите тук. Използвал съм d3.js и dc/crossfilter, както при повечето ми графики. Този път вместо leaflet използвах директно api-a на mapbox за триизмерна визуализация и векторните им tile-ове предвид количеството информация, което се показва и обработва в реално време. Oтворените данни са готови за сваляне тук в CSV и GeoJSON формат. Последните съдържат пълен списък със сигнали, статусите и геометрията към тях, както и справките, които използвам за картата. Първите се обновяват на всеки час докато справките за картата – всеки петък вечер.

The post Данните на Call.Sofia в разбираем и удобен вид first appeared on Блогът на Юруков.

Търси си=’в’ ИСУН/> пеша, бе!

от Боян Юруков
лиценз CC BY-SA

Днес Томислав Дончев съвсем без ирония помоли да отбележи, че не трябвало да се чака съгласие за публикуване на най-големите получатели на поръчки и проекти по еврофондовете, а можело просто да се видят в портала на ИСУН.

Да, наистина – там са… почти. Липсват онези прибрали стотици милиони скрити зад Автомагистрали ЕАД и подобните паравани за безконтролно харчене. Но какво са това няколко стотин милиона между приятели?

Да, наистина може да се намерят. Дори като пуснаха портала се похвалиха, че имат отворени данни. Т.е. пак имат отворени данни, защото бяха платили за такива в стария ИСУН, който беше много хубав, ама не беше готов, особено от гледна точка на прозрачността и трябваше да го ремонтират.

Та аз като чух това се засилих към портала за отворени данни на същия този кабинет, в който Дончев така дейно работеше за електронни услуги пръснати тук-таме, че да ги пише за egov и да мирясаме. Да, там имаше данни за бенефициентите – от 2015-та. Малшанс.

Отворих ИСУН и о, чудо! – има бутон за сваляне на отворени данни. Най-накрая! Затърсих къде мога да направя подобни справки и да сваля нужното ми, но уви – нямаше. Трябваше да се сваля всичко програма по програма.

Пуснах първата и зачаках. Свали се файл от 1.7Mb за Транспорт и транспортна инфраструктура. Повторих същото още 20 пъти докато след 20-тина минути не получих 307 Mb в XML файлове.

Ако не знаете какво е XML и как се работи с него, съжалявам, ония курс по Excel в офиса дето проспахте няма да ви помогне. За практически всички журналисти данните в този формат са безполезни. Затова често се обръщат към хора като мен да ги сдъвкват в нещо потребно. Аз с така отворена информация мога да работя. Повечето, които имат нужда от нея веднага – не.

Разбира се, с данните следва да има схема и описание кое какво означава, каква е структурата и номенклатурите, но такова нещо почти не се среща в родната администрация. Затова не следва да се учудваме, че не са си документирали собствените данни. По имената на полета избрани наслуки от навярно разбрал значението им програмист аз догадих какво би трябвало да значат изначално. След това написах няколко скрипта на bash да извадя статистика за структурата, за да знам с какво си имам работа. 41280 проекта, 54451 юридически лица със 122049 взаимодействия между тях. Тръгнах да пиша нещо набързо на bash да извади имената им, взаимовръзките и прочие. Т.е. да сдъвква тия 300Mb от машинно четима информация. Утре ще си играя още.

Междувременно намерих и доста грешки и липсваща информация. Вземете например АНИВА ЕООД с ЕИК 121282600. Няма специална причина да избера тях. Нямам и идея кои са – просто бяха първите в търсачката. Уникалният код в данните им е b1be295ec5e347a7081ff257e61ab5e6f2ea4982. Според търсачката са изпълнители в 5 проекта. В отворените данни обаче се виждат само в двата от Развитие човешки ресурси, но не и в трите от Иновации и конкурентоспособност. Но какво толкова? Тук само за едни 812156.50 лв. говорим – даже за половин чехмедже няма.

Та дори сваляйки суровите данни и с нужните технически умения да се борави с тях, пак няма да получим вярна справка за реално получилите еврофондове. Нищо от това всъщност не е ново – за проблемите с данните от еврофондовете, достъпността и грешките говорим от години. То дори цели проекти изчезваха в портала с обяснение за системни грешки. Една съвсем явна управленска „грешка“ беше дългото криене на данните за селските райони. ПРСР нарочно години наред не беше вкарван в ИСУН, за да може ДПС да се нахрани скрита от погледите на обществеността.

Затова, да драги мои – наистина в ИСУН ги има данните. Повечето поне. И ако искате въпросната справка, а хора като мен не си вдигат телефона, защото изработват данъците за вилите за тъщи на заместници и съветници, за които същия този Томислав Дончев мижеше почти десетилетие по коридорите на МС, то хващайте молив и тетрадка и започвайте да смятате на ръка прелиствайки търсачката на ИСУН.

Така или иначе все още искат всичко на хартия – с мокър печат и „вярно с оригинала“. Та и отворените данни на ИСУН те така.

The post Търси си=’в’ ИСУН/> пеша, бе! first appeared on Блогът на Юруков.