Dekodowanie faksów publikowanych przez urzędy nie ma sensu

Są dwie rzeczy, które na pewno nic nie zmienią obecnych patologii w publikacji dokumentów urzędówych - tolerowanie obecnego stanu przez użytkowników BIP, oraz jego legitymizacja przez tworzenie systemów tłumaczących dokumentów BIP na ludzkie formaty.

Urzędy nagminnie publikują dokumenty elektroniczne w formatach kompletnie nieczytelnych (zeskanowane faksy) a serwisy BIP pozbawione są elementarnych mechanizmów automatycznego śledzenia zmian (jak RSS). Naturalnym odruchem każdego programisty jest napisanie sobie narzędzia, które w jakiś przemyślny i zagmatwany sposób będzie ten chaos porządkować.

Nie róbmy tego! Tworzenie aplikacji monitorującej proces legislacyjny w obecnym stanie prawnym jest pozbawione sensu. Tworzenie systemów dekodowania zeskanowanych bitmap i bałaganiarskich publikacji w BIP to zwykłe marnowanie czasu - chyba, że ktoś akurat pisze pracę magisterską z systemów OCR lub steganografii.

Proszę mnie dobrze zrozumieć - Sejmometr to świetna sprawa i dobrze, że powstał. Aplikacja mobilna - też super. Ale kontynuacja wysiłków rekompensujących nieudolność lub indolencję sektora publicznego oznacza legitymizację obecnych patologii i zgodę, że jest to sytuacja godna tolerowania.

Ja takie uwagi przesłałem do RCL w 2010 roku. Niedawno podobne argumenty do RCL przesłał KPRM. Ale jak widać nie znalazły one odzwierciedlenia ani w regulacjach ani w praktyce urzędowej.

Zamiast zatem marnować setki osobogodzin na bezsensowne bo skazane na porażkę próby OCR-owania faksów publikowanych w BIP proponuję wszystkim zainteresowanym osobom podjęcie zorganizowanych wysiłków mających na celu zmuszenie MSWiA do ustalenia jasnych zasad publikacji, a urzędy do ich przestrzegania. Działania te powinny obejmować:

  • Przygotowanie specyfikacji tego, czego oczekujemy od dokumentów publikowanych w BIP. Ja już swoje opisałem powyżej. Oczekiwania te nie muszą być jednolite ani nawet zbieżne. Ich kompilacja to robota rządu, od tego mają proces OSR i za to im płacimy.
  • Przekazanie tych oczekiwań do rządu przez jak największą liczbę organizacji oraz osób prywatnych. Zwłaszcza w środowisku open-source łatwiej jest przez miesiąc wysyłać milion maili na listę dyskusyjną niż wysłać do urzędu jedno pismo na pół strony A4, ale chyba warto się przemóc w tym przypadku :)
  • Monitorowanie i dokumentowanie przypadków kiedy urzędy publikują dokumenty w formacie nieprzyjaznym dla użytkownika. Ja robię to od kilku lat i albo piszę o tym na stronie, albo zgłaszam mailem do urzędów (włącznie z pismem do ABW o bezsensowności zabezpieczania hasłem publicznego raportu CERT.GOV).

Żeby powtórzyć kluczowe tezy, dwie rzeczy, które na pewno nic nie zmienią to a) tolerowanie obecnego stanu przez użytkowników BIP, oraz b) jego legitymizacja przez tworzenie systemów tłumaczących dokumentów BIP na ludzkie formaty.

Comments

Przepisać na maszynie

Moim zdaniem sytuację zmieni zarządzenie, nakazujące przed opublikowaniem faksu - przepisanie go na maszynie.

Faksy wciąż pokutują, gdyż istnieje irracjonalne przekonanie, iż są czymś bardziej wiarygodnym niż e-maile. Rozumując tą logiką - maszynopis (i to w dwóch kopiach z kalkami) jest o wiele bardziej wiarygodny, niż jakiś wydruk z komputera, który można zmienić i wydrukować w parę sekund. Wprowadźmy więc obowiązek przepisywania faksów na maszynie (z dwoma kalkami) a gwarantuję, że mania używania faksu zniknie.

czy na pewno?

Wydaje mi się, że żeby móc ze 100% pewnością powiedzieć, że to nie ma sensu, trzeba spróbować to zrobić. Jest wiele przykładów na świecie przejmowania przez administrację narzędzi / modeli wypracowanych przez obywateli (choćby w UK przykład CKAN).
Ciekawy model stosuje też podobno w USA Karl Malamud - tworzy oddolnie przydatną (także dla administracji) infrastrukturę, ale daje jej termin ważności - i np. po roku wyciąga wtyczkę i wyłącza serwis, zmuszając przyzwyczajoną już do wygody administrację do działania.
Ogólna teoria jest chyba taka, że argumenty, na których wygłaszaniu chciałbyś, żebyśmy się skupili, najlepiej prezentować "in code".
Choć zdaję sobie sprawę, że kwestia wydatkowania środków na tworzenie protez dla niewydajnych narzędzi publicznych jest kontrowersyjna.

Otóż ja próbowałem

Wiele razy przepuszczałem dokumenty publikowane w BIP przez OCR i są one mocno zaszumione. Dotyczy to zwłaszcza dokumentów, które jeden resort przesłał do drugiego. Jeśli jest to faks to jest zaszumiony podwójnie. Z tym się po prostu nie da nic zrobić bo 90% strony jest nieczytelne - zamiast całych słów są ciągi przypadkowych znaków i cyfr. Ręczna korekta de facto będzie polegać na przepisywaniu większości tekstu.

A wszystko dlatego, że w administracji "jest zwyczaj", że dokument pisze się w Wordzie, potem drukuje i dopiero wydruk skanuje do PDF, zamiast wyeksportować dokument do PDF. Urzędy mają też "lokalne zwyczaje" - np. MSWiA i ABW kiedyś miały manię publikowania PDF-ów z włączonym zabezpieczeniem przed kopiowaniem ("hasło autora"). To pierwsze po zwróceniu uwagi mailem przestało, ta druga - nie. Skąd mit faksów w administracji? Przecież nie ma ona ani podstaw prawnych ani technicznych.

Co do demonstrowania "in code" - 100% zgoda. Rzecz jednak w źródle informacji. Jeśli administracja udostępnia ją w formie "zaskramblowanej" to mamy fundamentalny problem bo najfajniejszy nawet system typu Sejmometr nic nie poradzi jeśli dostanie śmieci na wejściu (zasada GIGO).

Sejmometr to dobry przykład -

Sejmometr to dobry przykład - powinien ujawnić / zwizualizować ile zbędnej pracy i nakładów zjada im poprawianie danych (rozumiem, że w ich wypadku jest nie najgorzej z tym, co dostają).
(ps. chętnie bym się podpisał, ale nie ma odpowiedniego pola. wczesniejszy komentarz tez byl moj. Alek Tarkowski)

Wydaje mi się, że Sejmometr

Wydaje mi się, że Sejmometr zaciąga dane z www.sejm.gov.pl, który akurat publikuje w bardzo czytelnej formie - albo czysty HTML albo tekstowe PDFy. Drugie dobre źródło to RCL, który publikuje Dzienniki Urzędowe i Monitor Polski w tekstowym PDF. Sieczkę publikują głównie ministerstwa i inne urzędy, choć nie jest to regułą (MSWiA potrafiło wymusić dyscyplinę formatu dla swoich dokumentów). I głównie są to dokumenty, które przyszły do nich z innych urzędów - pocztą albo faksem.

Nawiasem mówiąc, wczoraj przypadkiem przejrzałem książkę z wynikami badań, które w 2008 roku przeprowadziło MSWiA wśród urzędów. Na drugim miejscu jeśli chodzi o bariery na drodze do informatyzacji wymieniano brak jednolitego standardu dokumentów. Stąd zapewne bierze się równanie do wspólnego mianownika jakim jest faks. Nie muszę chyba dodawać, że o braku jednolitego formatu wymiany dokumentów od lat pisze wiele osób w administracji jak i poza nią (ja w tej liczbie).

Co do podpisów to sprawdzę, bo chyba są po prostu wyłączone.