[Rejestr] Uwagi do dokumentu "Opis funkcjonalny rządowego systemu informacji"

Pon, 8 Mar 2010, 13:54:09 MET

Witam! 

Chciałbym się odnieść do zacytowanego poniżej fragmentu "Opisu 
funkcjonalnego RSI":

"Wszystkie informacje związane z procesem legislacyjnym 
udostępnianie będą na stronie internetowej w postaci
zeskanowanych dokumentów i pism. Dokumenty zamieszczane będą w 
postaci plików PDF/A zgodnych ze standardami ISO 19005"

W związku z rozpowszechnioną praktyką publikacji przez instytucje 
rządowe zeskanowanych dokumentów papierowych jako obrazka (bitmapy) 
osadzonej w formacie PDF proponuję by w projekcie uwzględnić 
możliwość przepuszczania takich plików przez oprogramowanie OCR. 

Funkcjonalność taką z dość dużą skutecznością realizuje np. Adobe 
Acrobat. W dokumencie napisano, że pliki będą zgodne z PDF/A więc i 
tak konieczne będzie ich dodatkowe przetwarzanie. Acrobat potrafi 
również przetwarzać dokumenty masowo.

Pliki PDF zawierające bitmapy są nieprzeszukiwalne, nie da się 
wykopiować fragmentów tekstu do skomentowania i są ignorowane przez 
wyszukiwarki. Znormalizowanie ich formatu oraz zawartości 
radykalnie poprawiłoby ich czytelność i dostępność dla 
komentujących.

Równocześnie proszę o rozważenie możliwości, by wszystkie dokumenty 
PDF dodawane do systemu były dostępne do przetwarzania 
automatycznego i spełniały następujące zalecenia:

1) Każdy plik ma stały i niezmienny adres zawierający unikalną 
nazwę pliku. Przykład dobrej nazwy:

http://www.mf.gov.pl/_files_/bip/bip_projekty_aktow_prawnych/oc/2009
/ustawa_gry_13.11/osr_131109.pdf

Przykład złej nazwy (chodzi wyłącznie o format adresu URL, akurat 
ten nie prowadzi do pliku ale niektóre BIP taki stosują):

http://www.mf.gov.pl/dokument.php?const=6&dzial=640&id=191789&typ=ne
ws

2) Dostęp do każdego pliku PDF nie wymaga uprzedniego zalogowania, 
uwierzytelnienia i nie jest zabezpieczony przez CAPTCHA. Jeśli 
istnieje prawdopodobieństwo, że automatyczne przetwarzanie może 
powodować problemy z wydajnością to proszę rozważyć rozdzielenie 
serwisu interaktywnego od serwisu statycznych dokumentów i 
publikować te ostatnie za pomocą usług typu CDN (Content Delivery 
Network - ceny zaczynają się od $15/miesięcznie np. w Cachefly)

3) Udostępniany jest katalog wszystkich zarejestrowanych w systemie 
plików PDF publikowany w formacie XML. Ze względu na ich znaczną 
liczbę konieczne może być publikowanie wielu katalogów (np. dla 
poszczególnych sekcji) oraz wskazującego na nie metakatalogu. 
Formatem dokumentów XML może być format opracowany specjalnie na tę 
potrzebę lub Atom (http://tools.ietf.org/html/rfc4287).

4) Strona zawiera mapę (sitemap) dostępną dla wyszukiwarek zgodną z 
formatem XML Sitemap (http://www.sitemaps.org/protocol.php) 
publikowaną pod stałym adresem (np. http://serwer/sitemap.xml)

5) Serwis udostępnia informacje o nowych dokumentach w postaci 
feedu RSS publikowanego w formacie RDF lub Atom 
(http://tools.ietf.org/html/rfc4287). Ze względu na znaczną liczbę 
dokumentów konieczne może być publikowanie wielu feedów (np. dla 
poszczególnych sekcji). Różnica pomiędzy feedem a katalogiem 
opisanym w pkt 3 polega na tym, że katalog może się jedynie 
powiększać, zaś feed jest dokumentem o treści zmiennej, opisującej 
tylko nowe dokumenty.

-- 
Paweł Krawczyk
http://ipsec.pl