O firmě | Kontakty | Společenská odpovědnost | Kariéra | Podpora | Fotogalerie

Úvodní stranaČlánky › Identifikace formátů souborů je nově integrována do systému GINIS

Identifikace formátů souborů je nově integrována do systému GINIS

Zveřejněno: 01.04.2014

Od verze 372 je možno systém GINIS® rozšířit o identifikaci datového formátu dokumentů v digitální podobě prostřednictvím modulu GWSDDF01, díky čemuž je možné rozpoznání, kontrola a validace typů dokumentu v digitální podobě a jeho příloh.

Úvod do problematiky:

V dobách elektronizace a digitalizace dokumentů je nutno se k souborům v dlouhodobém horizontu chovat s maximální pečlivostí hlavně co se týká volby formátu souboru. Ten by měl být i v dlouhodobém horizontu „čitelný“.

Připomenutí: Formát souboru není dán koncovkou v názvu souboru, ta může být mnohdy zavádějící. Formát souboru je dán vnitřním uspořádáním dat v souboru.

Co v sobě skrývá pojem „čitelnost“ souboru? Existuje řada studií a konceptů, jak vypočítat hodnotu čitelnosti v dlouhodobém horizontu. Z nich lze vyvodit ve zkratce tytozákladní vlastnosti formátu elektronických souborů, které čitelnost ovlivňují: otevřenost, míra osvojení, složitost, technická ochrana, vlastní dokumentace, robustnost a závislost.

Otevřenost – určuje míru otevřenosti formátu, tedy dostupnost informací o jeho struktuře. Čím snadnější je získat tyto informace, tím je větší pravděpodobnost dlouhodobějšího využití formátu.

  • Míra osvojení – určuje míru používání daného formátu, tedy kolik uživatelů daný formát používá pro čtení a zápis. Mezi počtem uživatelů a počtem vývojářů software vyvíjejících programy využívající daný formát totiž existuje téměř přímá úměrnost.
  • Složitost – určuje složitost struktury formátu, tedy jeho složitost pro implementaci. Čím větší složitost, tím je formát méně vhodný pro archivaci.
  • Technická ochrana – určuje možnosti omezení přístupu k obsahu dokumentu, tedy zda formát poskytuje možnost ochrany pomocí hesla, digitálního podpisu, omezení kopírování, tisku získání obsahu. Při archivaci totiž mohou tyto vlastnosti znamenat určitý problém při migraci jednoho formátu do druhého.
  • Vlastní dokumentace – určuje schopnost formátu nést s sebou i dodatkové informace, tzv. metadata. Tato metadata mohou obsahovat například informace o formátu souboru, o názvu, popisu, autorovi. Obecně platí čím více metadat formát poskytuje, tím je vhodnější pro archivaci.
  • Robustnost – určuje schopnost formátu poskytnout zpětnou a dopřednou kompatibilitu s jinými verzemi formátu, stabilitu formátu (četnost vydávání nových verzí) a vlastní detekci chyb.
  • Závislost – určuje míru závislosti formátu na konkrétním hardware, operačním systému, čtecím software a dalších zdrojích. Čím méně je formát závislý, tím je vhodnější pro dlouhodobou archivaci. 

 

Na základě těchto vlastností lze pak určit, které formáty jsou vhodné pro archivaci. Pro Národní digitální archiv (NDA) se počítá s rozvržením formátů dle následující tabulky:

typ dokumentu

preferované formáty

akceptovatelné formáty

formáty s nízkou trvanlivostí

textový dokument

prostý text, XML struktura, PDF A/1a

OpenDocument, OpenOffice 1.0, Rich Text Format 1 .X, Office Open XML

MS-Word, TeXt6O2,
602 PC Suite, Amipro,
WordPerfect

tabulky

Delimited text (CSV)

PDF, OpenDocument, Office Open XML

MS-Excel, Ca1c602, Lotus

prezentace

 

PDF, OpenDocument, Office Open XML

MS-PowerPoint

rastrová grafika

TIFF, PNG

BMP. JPEG, JPEG2000. TIFF (komprimovaný LZW, JPEG), GIF

TIFF (jiná komprese), PCX, interní formáty grafických aplikací

vektorová grafika

SVG 1.1 (bez Javy)

Computer Graphic Metafile

interní formáty
grafických aplikací

zvukové dokumenty

WAV, AIFF. Broadcast Wave

MP3, MP2, OGG Vorbis

Windows Media Audio,
RealNetworks

video dokumenty

MPEG-l, MPEG-2, QuickTime, AVI (nekomprimované)

OGG Theora, MPEG-4

AVI, QuickTime
(komprimované),
Windows Media Video,
RealNetworks

       

Fotky:

Autor:

Petr Juřík

 

Energetika
Ubytování a turistika