Information for libraries

  • na webu

Nacházíte se zde: Úvod Pro přispívající knihovny Jak přispívat do SK ČR Dodávání dat Jak probíhá dávkový import Předimportní kontroly

Předimportní kontroly

Důvody k vyřazení záznamů z importu

Při předimportním zpracování jsou záznamy nejprve převedeny na jednotnou datovou strukturu (formát Aleph) a provedou se základní kontroly, na které nelze použít program MarcMan. Pokud tyto kontroly objeví chybu, je odmítnut celý soubor a knihovna dostane zprávu prostřednictvím pracovníků OKS (e-mail, telefon).

Celý soubor může být vyřazen z dalšího zpracování z těchto důvodů:

- špatná datová struktura (=nepodařilo se převést na formát Aleph)
- v souboru se vyskytuje některé identifikační číslo (pole 001) více než 1x
- v některém záznamu je táž sigla obsažena ve více výskytech pole 910
- chyba v kódování diakritiky (obsažen znak, který je pro příslušnou znakovou sadu nepřípustný)

Následně jsou záznamy rozděleny podle druhu dokumentu. Knihy a speciální dokumenty dále postupují společně, seriály jsou vyřazeny do zvláštního souboru a zpracovávány zvlášť, ne vždy bezprostředně po zpracování monografií. Seriály se zatím přijímají pouze po individuální dohodě, probíhá čištění báze.

Před vlastním importem procházejí záznamy kontrolou na druh dokumentu, správnost polí MARC, konverzemi a vnitřní deduplikací, ze zpracování jsou také vyřazeny záznamy, které již v SK od příslušné knihovny jsou. Zprávy o chybách a nepřijatých záznamech jsou zaznamenány do souboru s přehledem odmítnutých záznamů, k němuž je přístup ze statistiky importů u příslušné sigly.

Kontrola na druh dokumentu

Záznamy v dávce jsou zkontrolovány, zda kódy na příslušných pozicích návěští odpovídají obsahu záznamu. Záznamům je přiděleno Aleph interní pole FMT, které se odvozuje z těchto údajů. (Pole je důležité pro interní kontroly správnosti záznamů v Alephu a rozdělení do virtuálních "logických" bází). Poté jsou záznamy rozděleny na monografie (knihy + speciální dokumenty) a seriály (pokračovací zdroje, periodika). Záznamy, kde byl na příslušných pozicích návěští neznámý kód (chyba formátu 1) nebo kde se objevil rozpor, např. údaj o druhu speciálního dokumentu chyběl v poli Název (chyba formátu 2), jsou z dalšího zpracování vyřazeny. Kontroly primárně vycházejí z údaje o druhu dokumentu v poli 245, resp. 200 (pokud nejde o klasický tištěný dokument, kde se tento údaj neuvádí) - tomu musí odpovídat návěští a pole FMT.

Kontrola na správnost polí MARC

Program kontroluje záznamy na přípustnost a opakovatelnost polí a podpolí MARC21/Unimarc a hodnoty indikátorů. Navíc obsahuje několik kontrol na vzájemnou závislost polí a pro seriály kontrolu správnosti ISSN. Nesprávné záznamy jsou vyřazeny.
V přehledu chyb, k němuž je přístup ze statistiky importů, jsou u každého záznamu uvedeny konkrétní chyby.

Na co je užitečné dávat pozor

Duplicity oproti bázi

V první etapě deduplikace jsou vyřazeny ze zpracování záznamy, kde kombinace údajů sigla+identifikační číslo již má v bázi ekvivalent. Tyto záznamy buď byly poslány znovu (omylem), nebo jde o jiné záznamy a knihovna nemá jedinečná identifikační čísla.
Upozornění k výpisu: pokud jde o duplicitu (nikoli multiplicitu), není první číslo uvedené u záznamu pořadovým číslem v dávce, ale systémovým číslem duplicity v bázi SKC.

Pokud by chtěla knihovna záznamy odmítnuté z důvodů duplicity identifikačního čísla poslat do SKC znovu (záznamy jsou "vylepšené" a měly by nahradit původní záznamy), musí použít jiné pojmenování souboru, aby záznamy procházely jinou větví zpracování - viz Možnosti dávkových oprav záznamů.

Vnitřní duplicity

Pokud se v zaslaném souboru naleznou dva či více záznamů se stejným klíčem, jsou druhý a následující záznamy z dalšího zpracování dočasně vyřazeny.

K vnitřní duplicitě dochází z jednoho z následujících důvodů:

1. knihovna poslala 2x či vícekrát omylem tentýž záznam
2. knihovna poslala skutečnou duplicitu, o níž neví (= má různé záznamy na tentýž dokument uvnitř své báze)
3. nejde o skutečnou duplicitu, pouze o shodu klíčů u různých dokumentů:
a/ není možné postavit takový klíč, aby se duplicita rozlišila - např. dvě vydání či dotisk v tomtéž roce
b/ dokument byl z hlediska tvorby klíčů nevhodně popsán, rozlišující údaj u dvou stejných názvů byl uložen jako "podnázev", nikoli jako název části, a v údajích o rozsahu byly rovněž údaje k rozlišení nepoužitelné (např. 1 sv.)
Podpole 245b v MARC21 obsahuje bohužel na rozdíl od podpole 200e nejrůznější "další názvové údaje" - kromě podnázvu se do něho (po různé interpunkci) ukládá rovněž další název, souběžný název apod., takže použití tohoto podpole pro klíč je veskrze nevhodné. U map však příliš často nastávala situace jako v níže uvedeném příkladu, takže u speciálních dokumentů se podpole 245b pro klíč používá - platíme za to vyšším výskytem duplicit.
U záznamů v UNIMARCu je zde další riziko: při nesprávném pořadí údajů v poli 200 může konvertor způsobit, že údaje o části se dostanou do "dalších názvových údajů" - více viz Na co dát pozor.

Vnitřní duplicity se (od r.2007) posílají následně s menším odstupem, zpravidla do týdne, na import samostatně, čímž ke zmergování dojde. V případech 1 a 2 jde o žádoucí situaci, v případě 3 nežádoucí. Pokud má knihovna zájem vnitřní duplicity analyzovat, může záznamy, které by spadly do této kategorie, upravit a poslat znovu. (Převod údajů z 245b/200e do 245p/200i zmergování zabrání).

Při mergování jsou zachovány v příslušném výskytu pole 910 údaje ze všech záznamů, takže zde zůstávají všechna identifikační čísla a všechny signatury.

Pro ilustraci - fiktivní ukázka případu nesprávného zmergování typu 3b:
1. záznam:
Název- 245a: Statistika krajů ČR
Další názvové údaje- 245b (nebere se do klíče): Jižní Čechy
Rok- 260c: 2000
Rozsah- 300a: 1 sv. (nestr.)
910: OLA001 256321 Mp0015

2. záznam:
Název- 245a: Statistika krajů ČR
Další názvové údaje- 245b (nebere se do klíče): Severní Čechy
Rok- 260c: 2000
Rozsah- 300a: 1 sv. (nestr.)
910: OLA001 256322 Mp0016

Výsledek v SKC:
Název- 245a: Statistika krajů ČR
Další názvové údaje- 245b (nebere se do klíče): Jižní Čechy
Rok- 260c: 2000
Rozsah- 300a: 1 sv. (nestr.)
910: OLA001 256321 256322 Mp0015 Mp0016

23.11.2015
Hledej
Multivyhledávač
Klíčové slovo
Název
Autor
« prosinec 2024 »
prosinec
PoÚtStČtSoNe
1
2345678
9101112131415
16171819202122
23242526272829
3031
Anketa

Co z níže uvedeného využíváte v záznamech v SK ČR nejčastěji?

zobrazení na mapě
propojení do katalogu knihovny
citace
obálky a obsahy
plné texty
spinner
Total Votes: 700