Tag Archives: отворени данни

Спирам свалянето на данни за въздуха

от Боян Юруков
лиценз CC BY-SA

В последните почти петнадесет години съм отварял, визуализирал и анализирал доста данни. Една част от тях пускам в отворен формат, някои – в реално време. Едни такива данни бяха замерванията за въздуха в София. В началото на 2016-та година започнах да ги тегля със свой скрейпър, който интерпретираше графиките на общината и ги записваше в разбираем и отворен формат.

Това се случи във време, когато въпреки многобройните призиви и запитвания по ЗДОИ, ИАОС отказваше да публикува суровите данни от измерванията. Официалните данни бяха само от пет станции в София с ясна методология. Година по-късно се появиха първите частни станции, но данните от институциите все така бяха недостъпни. Затова данните отваряни в реално време от моя скрипт бяха използвани дълго време от няколко сайта и приложения като отправна точка.

Всичко това спря на 1-ви септември. Тогава съответните антични графики на общината спряха да работят и скриптовете се счупиха. Почти осем години по-късно слагам край на проекта и за това има няколко причини. Архивът му ще остане активен на този сайт.

Първо, след масиран натиск, но най-вече съвестни хора на ключови позиции в определени кабинети, които натискаха за прозрачност и дигитализация, ИАОС все пак публикува данните си. Това става в профила им в портала за отворени данни на кабинета.

Второ, покрай популярността на airbg Столична община подобри визуализацията на сайта си и данните са по-достъпни, включително от ИАОС. Добавиха и още станции в рамките на проекта AirThings, където има удобно api.

Трето, института Gates започна пилотен проект за следене на не само на замърсяването, но и на редица други параметри и проблеми от градската ни среда. Картата им може да намерите на сайта.

Всъщност, именно разговор с Петър от Gates днес на кошера на Тук-Там ме накара да погледна пак скриптовете и да забележа, че са спрели да работят също както и съобщенията за грешки. На практика голяма част от scraper-ите ми вървят от години без поддръжка или да им обръщам особено внимание. Това важи както за документите на институциите, така и за спиранията на ток, парно и вода в София, безследно изчезналите, строежите в София, производството на енергия и прочие.

За разлика от преди 8 години, днес има предостатъчно източници на данни за замърсяването. Това е резултат от инвестираното време, нерви и внимание на множество хора. Продуктът е огромно количество информация, което трябва да се превърне в ефективни политики базирани и оценени като ефект с данни.

Именно заради тази достъпност няма да обръщам внимание на Столична община, че им са се скапали графиките и ще спра скриптовете. В линковете горе ще намерите данните от другите източници.

Ето някои от статии по темата, които съм писал през годините:

The post Спирам свалянето на данни за въздуха first appeared on Блогът на Юруков.

Данните на Call.Sofia в разбираем и удобен вид

от Боян Юруков
лиценз CC BY-SA

Община София има портал за сигнали и жалби, в който всеки жител или гост на града може да съобщи за проблем – call.sofia.bg. Използвам го активно още преди да се преместя от Франкфурт в София и като замисъл го намирам за добра идея. Самият сайт не е особено добър от гледна точка на използваемост, но по-важното е, че практически всички сигнали се разпределят на районните кметове, които често нямат ресурс или дори право да ги решат.

Подбуден от типично българския ни цинизъм, исках да видя, дали сигнали от сайта изчезват. Повод за това беше наблюдението, че на началната страница се виждат само последните 5000. Затова както с документите на Направление архитектура и градоустройство, написах скрипт, който през час да тегли най-новите сигнали. Тъй като исках да видя къде е имало исторически най-много проблеми, изтеглих всичко назад във времето заедно с обновленията и геометриите. Почти всички сигнали имат посочено местоположение като точка, но някои хора си правят труда да отбелязват пътища и цял регион.

Така се оказа, че имам всичките им данни и мога най-малкото да вадя статистика. Като например брой сигнали със статус приключен – 13%. Повечето сигнали – 77% – получават едно или повече уведомления без да са отбелязани като приключени. Историята на статусите пък ми позволи да видя за колко време отнема от подаването до последното обновление по сигнал. 11% отнемат повече от месец. Също така през работните дни се подават два пъти повече сигнали отколкото през почивните, а в петък – с 10% по-малко от предходните четири дни. Най-много сигнали има за пътна инфраструктура – 28%. На второ място с над два пъти по-малко сигнали е паркирането с 12%. Едва тогава следва замърсяването с 10%, сметоизвозването и осветлението с по 9%.

За да осмисля обаче данните географски и да мога да ги прехвърлям в реално време, имах нужда от инструмент. Затова малко по-малко създадох интерактивна карта, която да показва като колони броя на случаите. Колоните са с основа 50 на 50 метра, а всеки случай добавя около 2 метра над височината им. Има филтри, с които да се избират конкретни данни по години или друг период, категории и прочие. Натискайки на дадена колона ще видите списък с всички сигнали на това място с линове към оригиналния сигнал. Списъкът със сигналите на даденото място, както и панелът с филтрите може да се скриват. Вдясно под бутоните за увеличение на картата има бутон за показване отново на филтрите. Бутонът под него е за промяна на прозрачността на триизмерната визуализация върху картата. Полезно е, ако искате да се ориентирате по-добре за улиците под въпросните колони.

След обратна връзка от Linkedin и кмета на Слатина Георги Илиев добавих няколко неща, включително филтър по райони, за да може да се сравни активността и случаите разпределени там. Може също да се превключва показване на абсолютен брой сигнали, както и спрямо населението на региона. Границите и оценката за населението на последните взех от отворените данни на практически закритата вече Софияплан.

Преди обаче да погледнем самите данни, както винаги следва да поговорим за условностите им. Както при Фонда за лечение на деца поет в последствие от НЗОК, тук също показват единствено това, което се поддържа като масив от данни от СО. Има сигнали с автоматично добавен маркер на мястото на Софийска община. Тях съм ги скрил от картата, например. Има и такива добавени с други общини и области. Има сигнали със сбъркана година в датите, както и понякога с десетки пъти изпратен един и същ сигнал за едно и също нещо. Има също много тестови сигнали използвани видимо за проверка на нови категории и функции.

Активността по сигналите идват най-вече от районните кметства, почти винаги под формата на сканирани и прикачени писма. Рядко се случва да добавят изрични коментари – най-вече при отхвърляне на сигнал. Тук е важно да се разбере, че получен отговор или дори „приключен“ сигнал не означава, че даденият проблем е решен. Това може да се декларира дори в приложените документи, но дори тогава няма някаква форма на проверка или потвърждение. Системата не позволява последващи коментари или обновления или дори съгласие с изпратения статус или информация. Връзката е еднопосочна.

По подадените сигнали може да съдим най-вече за активността по теми, райони и конкретни места. Именно тук визуалното представяне на информацията помага най-много. Докато самата карта на call.sofia да показва някаква форма на групиране по клъстъри, то не позволява откриване на „горещи точки“. Всъщност, използват точно същото групиране в картите си преди единадесет години. Основният проблем обаче е, че показват само активните сигнали, т.е. тези, на които не е отговорено, а се очаква разглеждане. Освен, ако един по един не разглеждаме десетките хиляди преди това познавайки поредните им уникални номера, няма да знаем къде е имало голям интерес към даден проблем. Именно това направих.

Единственото, което може да ни покажат тези данни обаче е точно това – активност, интерес и някаква форма на доверие, че нещо може да се случи по дадената тема, та дори това да е само публичност. Повечето сигнали не означават непременно повече проблем, а наболял такъв, активна група граждани на това място или голям трафик от хора. В централната част на града минават най-много хора и очаквано има повече активност.

Това, което не се забелязва е значимо увеличение на активността през годините. След очаквано ниската активност през 2020-та, има едва леко покачване през 2021-ва, също както предходните две. Излизат между 54 и 60 хиляди сигнала на година, което изглежда много докато не сметнем, че става въпрос за 164 сигнала дневно в град с два милиона жители и ужасна инфраструктура.

Видимо липсва, е двустранна комуникация, прозрачност какво се случва и какво се планира, както и оценка на свършеното от подалите сигнала и живеещите в региона. Това неизменно се обвързва с липсата на самостоятелност при голяма част от решенията и бюджетите на районните кметства, както и абсурдното управление на градското планиране във всичките му аспекти.

Независимо, подаването на сигнали има голямо значение, защото постигат публичност на конкретни проблеми. Отваряйки данните на този портал постигаме и донякъде прозрачност на историята на тези проблеми и натрупването им. Картата, която направих, е пример как следва гражданите да използват отворените данни на администрацията, а защо не и частни организации. За разлика от първата ми визуализация за българчетата родени в чужбина или тази на активните българи зад граница, тази за сигналите в София може да се използва за реално изследване на данните.

Разбира се, както с НАГ и доста други ведомства, обсъжданите данни въобще не са изначално отворени, така че се наложи да ги отворим през публичните им API-та. Това не прави инструмента call.sofia по-малко полезен, а просто морално остарял и създаден по-скоро за комфорт на кмета на София, отколкото на жителите на града.

Интерактивната карта ще намерите тук. Използвал съм d3.js и dc/crossfilter, както при повечето ми графики. Този път вместо leaflet използвах директно api-a на mapbox за триизмерна визуализация и векторните им tile-ове предвид количеството информация, което се показва и обработва в реално време. Oтворените данни са готови за сваляне тук в CSV и GeoJSON формат. Последните съдържат пълен списък със сигнали, статусите и геометрията към тях, както и справките, които използвам за картата. Първите се обновяват на всеки час докато справките за картата – всеки петък вечер.

The post Данните на Call.Sofia в разбираем и удобен вид first appeared on Блогът на Юруков.

Търси си=’в’ ИСУН/> пеша, бе!

от Боян Юруков
лиценз CC BY-SA

Днес Томислав Дончев съвсем без ирония помоли да отбележи, че не трябвало да се чака съгласие за публикуване на най-големите получатели на поръчки и проекти по еврофондовете, а можело просто да се видят в портала на ИСУН.

Да, наистина – там са… почти. Липсват онези прибрали стотици милиони скрити зад Автомагистрали ЕАД и подобните паравани за безконтролно харчене. Но какво са това няколко стотин милиона между приятели?

Да, наистина може да се намерят. Дори като пуснаха портала се похвалиха, че имат отворени данни. Т.е. пак имат отворени данни, защото бяха платили за такива в стария ИСУН, който беше много хубав, ама не беше готов, особено от гледна точка на прозрачността и трябваше да го ремонтират.

Та аз като чух това се засилих към портала за отворени данни на същия този кабинет, в който Дончев така дейно работеше за електронни услуги пръснати тук-таме, че да ги пише за egov и да мирясаме. Да, там имаше данни за бенефициентите – от 2015-та. Малшанс.

Отворих ИСУН и о, чудо! – има бутон за сваляне на отворени данни. Най-накрая! Затърсих къде мога да направя подобни справки и да сваля нужното ми, но уви – нямаше. Трябваше да се сваля всичко програма по програма.

Пуснах първата и зачаках. Свали се файл от 1.7Mb за Транспорт и транспортна инфраструктура. Повторих същото още 20 пъти докато след 20-тина минути не получих 307 Mb в XML файлове.

Ако не знаете какво е XML и как се работи с него, съжалявам, ония курс по Excel в офиса дето проспахте няма да ви помогне. За практически всички журналисти данните в този формат са безполезни. Затова често се обръщат към хора като мен да ги сдъвкват в нещо потребно. Аз с така отворена информация мога да работя. Повечето, които имат нужда от нея веднага – не.

Разбира се, с данните следва да има схема и описание кое какво означава, каква е структурата и номенклатурите, но такова нещо почти не се среща в родната администрация. Затова не следва да се учудваме, че не са си документирали собствените данни. По имената на полета избрани наслуки от навярно разбрал значението им програмист аз догадих какво би трябвало да значат изначално. След това написах няколко скрипта на bash да извадя статистика за структурата, за да знам с какво си имам работа. 41280 проекта, 54451 юридически лица със 122049 взаимодействия между тях. Тръгнах да пиша нещо набързо на bash да извади имената им, взаимовръзките и прочие. Т.е. да сдъвква тия 300Mb от машинно четима информация. Утре ще си играя още.

Междувременно намерих и доста грешки и липсваща информация. Вземете например АНИВА ЕООД с ЕИК 121282600. Няма специална причина да избера тях. Нямам и идея кои са – просто бяха първите в търсачката. Уникалният код в данните им е b1be295ec5e347a7081ff257e61ab5e6f2ea4982. Според търсачката са изпълнители в 5 проекта. В отворените данни обаче се виждат само в двата от Развитие човешки ресурси, но не и в трите от Иновации и конкурентоспособност. Но какво толкова? Тук само за едни 812156.50 лв. говорим – даже за половин чехмедже няма.

Та дори сваляйки суровите данни и с нужните технически умения да се борави с тях, пак няма да получим вярна справка за реално получилите еврофондове. Нищо от това всъщност не е ново – за проблемите с данните от еврофондовете, достъпността и грешките говорим от години. То дори цели проекти изчезваха в портала с обяснение за системни грешки. Една съвсем явна управленска „грешка“ беше дългото криене на данните за селските райони. ПРСР нарочно години наред не беше вкарван в ИСУН, за да може ДПС да се нахрани скрита от погледите на обществеността.

Затова, да драги мои – наистина в ИСУН ги има данните. Повечето поне. И ако искате въпросната справка, а хора като мен не си вдигат телефона, защото изработват данъците за вилите за тъщи на заместници и съветници, за които същия този Томислав Дончев мижеше почти десетилетие по коридорите на МС, то хващайте молив и тетрадка и започвайте да смятате на ръка прелиствайки търсачката на ИСУН.

Така или иначе все още искат всичко на хартия – с мокър печат и „вярно с оригинала“. Та и отворените данни на ИСУН те така.

The post Търси си=’в’ ИСУН/> пеша, бе! first appeared on Блогът на Юруков.