11/36 - text příspěvku - Aleš Keprt / VŠB-TU Ostrava - 7 s.

2020 - Doplňující informace k digitalizaci TSW 2004

Odkazy na on-line databáze, srovnávané v příspěvku:
   Falstaff:
         www.keprt.cz/povidky

   TSW:
         TSW 2004 - Témata, Uznání
         30 let Informací, Inspirace a Interakce - DB sborníků TSW a Programování - XML a XWEB jako nástroje

Komentář ke způsobu pořízení dat pro TSW 2004:

  • texty v digitálním formátu byly k dispozici až pro 1999-2004 (6 ročníků, celkem 1445 stran)
  • starší texty 1975-1998 bylo nutno skenovat z rozebraných sborníků (24 ročníků = 80%, celkem 6449 stran = 82%)

   Svého času jsem byl hlavním řešitelem materiálové agendy ve VS Ingstav, kdy jsme pomocí OCR snímali 20.000 prvotních dokladů měsíčně, takže jsou mi dobře známy nejen přínosy, ale i rizika takové digitalizace. Hlavním problémem je, že se vždy vyskytne určité procento chybného rozpoznání a výsledek je proto zásadním způsobem ovlivněn formou a kvalitou podkladu, ze kterého je snímáno.

   V případě materiálových dokladů s výhradně číselnými informacemi, bylo možno prakticky všechny údaje nějakým způsobem automaticky kontrolovat aplikačním programem, takže k manuálnímu porovnání s originálem a opravám ze strany uživatelů bylo možno předložit opis pouze těch dokladů, u kterých byly zjištěny chyby.

   Jednotlivé stránky skenovaných sborníků, tištěných v průběhu 24 let však měly nejen různou kvalitu (někdy hodně špatnou, danou tehdejšími možnostmi tisku), ale i velké množství grafických prvků, které byly libovolně rozložené v textu. Šlo o tabulky, vývojové diagramy, schemata, příklady zdrojových textů atd. Při celkovém počtu 6449 stran by už samotné rozlišení, zda mají zůstat jako obrázek nebo přečteny OCR bylo neúměrně intelektuálně i časově náročné a jakékoliv řešení chybného rozpoznání by bylo velice problematické.   

Závěry systémové analýzy,*) provedené v rámci projektu digitalizace TSW 2004:

  • riziko nezvládnutelné pracnosti a nezískání kvalitních výsledků OCR čtení bylo příliš vysoké,
    proto byly pro prezentaci ponechány naskenované stránky jako obrázky
      
  • z vyhodnocení bilance nároků a přínosů vyplynulo, že by nemělo smysl samostatné řešení OCR,
    když by pro více než 80% podkladů nebylo použitelné
      
  • v době realizace projektu sice už existovaly moderní databankové technologie, ale jejich využití by vyžadovalo nejen zakoupení potřebného programového vybavení, které neměl kdo financovat, ale především časově náročné získání znalostí a potřebných dovedností pro jejich využívání, což by ohrozilo daný termín dokončení projektu pro jubilejní 30. ročník konferencí
      
    jako hlavní a jediný řešitel SW jsem však disponoval nejen mohaletými zkušenostmi v jazyku COBOL, ale především spolehlivými a velice výkonnými nástroji pro generování různých zdrojových textů i příkazů a tak jsem vytvořil a pro potřeby organizátorů zdarma věnoval víceúčelové programové vybavení XWEB, které umožňovalo offline generovat a dle potřeby aktualizovat rozsáhlou navigační síť ve formátu HTML, složenou z jednotlivých obrázků se stránkami a jejich obálek, definovaných ve formátu XML

 

*) Systémová analýza a realizace projektů byla nejdůležitější věcí, kterou jsem se před 50 lety v roce 1970 naučil od v branži tehdy zkušenějších kolegů v úplně novém kolektivu vedení VS Ingstav Brno. Její filozofie se dá shrnout do jedné věty: "vyhledat a přiměřeně vyřešit vše, co ovlivňuje dosažení požadovaného výsledku". Ještě stručněji a lapidárně to vystihuje naše tehdejší zásada: "analytik může za všechno".

   Důsledné uplatňování uvedených pricipů ze strany vedení pak následujících 20 let stálo v pozadí všech důležitých úspěchů, kterých bylo společným úsilím pracovníků VS dosaženo. Podobně jsem je pak vždy ku prospěchu věci využíval ve své soukromé firmě "PG služby COBOL" i v různých následných aktivitách do dneška.


Vlastimil Čevela - říjen 2020