[Rejestr] Uwagi do dokumentu "Opis funkcjonalny rządowego systemu informacji"
Paweł Krawczyk
pawel.krawczyk w hush.com
Pon, 8 Mar 2010, 13:54:09 MET
Witam!
Chciałbym się odnieść do zacytowanego poniżej fragmentu "Opisu
funkcjonalnego RSI":
"Wszystkie informacje związane z procesem legislacyjnym
udostępnianie będą na stronie internetowej w postaci
zeskanowanych dokumentów i pism. Dokumenty zamieszczane będą w
postaci plików PDF/A zgodnych ze standardami ISO 19005"
W związku z rozpowszechnioną praktyką publikacji przez instytucje
rządowe zeskanowanych dokumentów papierowych jako obrazka (bitmapy)
osadzonej w formacie PDF proponuję by w projekcie uwzględnić
możliwość przepuszczania takich plików przez oprogramowanie OCR.
Funkcjonalność taką z dość dużą skutecznością realizuje np. Adobe
Acrobat. W dokumencie napisano, że pliki będą zgodne z PDF/A więc i
tak konieczne będzie ich dodatkowe przetwarzanie. Acrobat potrafi
również przetwarzać dokumenty masowo.
Pliki PDF zawierające bitmapy są nieprzeszukiwalne, nie da się
wykopiować fragmentów tekstu do skomentowania i są ignorowane przez
wyszukiwarki. Znormalizowanie ich formatu oraz zawartości
radykalnie poprawiłoby ich czytelność i dostępność dla
komentujących.
Równocześnie proszę o rozważenie możliwości, by wszystkie dokumenty
PDF dodawane do systemu były dostępne do przetwarzania
automatycznego i spełniały następujące zalecenia:
1) Każdy plik ma stały i niezmienny adres zawierający unikalną
nazwę pliku. Przykład dobrej nazwy:
http://www.mf.gov.pl/_files_/bip/bip_projekty_aktow_prawnych/oc/2009
/ustawa_gry_13.11/osr_131109.pdf
Przykład złej nazwy (chodzi wyłącznie o format adresu URL, akurat
ten nie prowadzi do pliku ale niektóre BIP taki stosują):
http://www.mf.gov.pl/dokument.php?const=6&dzial=640&id=191789&typ=ne
ws
2) Dostęp do każdego pliku PDF nie wymaga uprzedniego zalogowania,
uwierzytelnienia i nie jest zabezpieczony przez CAPTCHA. Jeśli
istnieje prawdopodobieństwo, że automatyczne przetwarzanie może
powodować problemy z wydajnością to proszę rozważyć rozdzielenie
serwisu interaktywnego od serwisu statycznych dokumentów i
publikować te ostatnie za pomocą usług typu CDN (Content Delivery
Network - ceny zaczynają się od $15/miesięcznie np. w Cachefly)
3) Udostępniany jest katalog wszystkich zarejestrowanych w systemie
plików PDF publikowany w formacie XML. Ze względu na ich znaczną
liczbę konieczne może być publikowanie wielu katalogów (np. dla
poszczególnych sekcji) oraz wskazującego na nie metakatalogu.
Formatem dokumentów XML może być format opracowany specjalnie na tę
potrzebę lub Atom (http://tools.ietf.org/html/rfc4287).
4) Strona zawiera mapę (sitemap) dostępną dla wyszukiwarek zgodną z
formatem XML Sitemap (http://www.sitemaps.org/protocol.php)
publikowaną pod stałym adresem (np. http://serwer/sitemap.xml)
5) Serwis udostępnia informacje o nowych dokumentach w postaci
feedu RSS publikowanego w formacie RDF lub Atom
(http://tools.ietf.org/html/rfc4287). Ze względu na znaczną liczbę
dokumentów konieczne może być publikowanie wielu feedów (np. dla
poszczególnych sekcji). Różnica pomiędzy feedem a katalogiem
opisanym w pkt 3 polega na tym, że katalog może się jedynie
powiększać, zaś feed jest dokumentem o treści zmiennej, opisującej
tylko nowe dokumenty.
--
Paweł Krawczyk
http://ipsec.pl
Więcej informacji o liście dyskusyjnej Rejestr