Deduplikační procedury
Jak probíhá import a mergování záznamů
Na základě algoritmů různých pro různé druhy záznamů se vytvoří z různých polí a podpolí záznamu tzv. "otevřené" klíče. Tyto různě dlouhé klíče se hashovací metodou MD5 zakódují do řetězce o 30 alfanumerických znacích, který se uloží do záznamu do pole KEY, podpole a. Při tvorbě "otevřených" klíčů se potlačují mezery a nealfanumerické znaky, veškerá písmena se převádějí na ASCII hodnoty, používají se různé metody pro výběr určitého počtu či určitého druhu znaků z podpole.
Stručný popis tvorby klíčů:
Monografie:
KEY1 (je-li přítomno 020/024):
020a/024a + několik znaků z 245a + 260c + 300a
KEY2:
FMT+245a+245n+245p+100a+260c+300a+255a
Seriály:
KEY1 (je-li přítomno 022a)
022a+245a+245n+245p
KEY2 (jen je-li 245 delší než 13 znaků; nepoužívá se pro mergování, je-li ve vstupním záznamu přítomno 022a)
FMT+245a+245n+245p+260a+110
KEY3 (je-li přítomno 022a - nemerguje, pouze signalizuje duplicitu):
022a
KEY4 (nemerguje, pouze signalizuje duplicitu):
FMT+245a+245n+245p+kód země z 008
Důležité upozornění:
Na rozdíl od Unimarcu, kde měl podnázev své podpole, není žádoucí v MARC21 využít podnázev pro tvorbu klíče (245b obsahuje různé typy dalších názvových informací). Je-li údaj o názvu části uložen omylem do podpole 245b, resp. 200e Unimarc, nebere se při tvorbě klíče v úvahu. Pokud svazky odlišuje počet stran, problém nevzniká. Pokud však dokument nemá číslované strany nebo maji části stejný počet stran, všechny části se výsledně sejdou pod jedním záznamem.
Podrobněji viz Předimportní kontroly - Vnitřní duplicity.
Porovnávání záznamů na vstupu vůči záznamům v bázi
(=deduplikace, mergování a import)
V první etapě jsou vyřazeny ze zpracování záznamy, kde kombinace údajů sigla+identifikační číslo již má v bázi ekvivalent. Tyto záznamy buď byly poslány znovu (omylem), nebo jde o jiné záznamy a knihovna nemá jedinečná identifikační čísla. Hláška se objeví v přehledu chyb.
Následuje porovnávání podle klíčů. Pro mergování je nutné, aby každý klíč byl v importované dávce jedinečný, takže vyskytne-li se stejný klíč více než jednou, druhý (příp. další) záznam je z porovnávání vyřazen - hláška se objeví v přehledu chyb. Záznamy obsahující ISBN/ISSN/ISMN se porovnávají se záznamy z báze na KEY1, ostatní na KEY2; u seriálů probíhá u neduplicitních záznamů také porovnávání na KEY3/KEY4 - zde však záznamy, kde došlo ke shodě se záznamem v bázi, dostávají pouze příznak duplicity, aby správce prověřil oba záznamy a případně provedl ruční deduplikaci.
Při porovnávání záznamů z dávky vůči bázi mohou nastat následující situace:
1/ záznam s odpovídajícím klíčem v bázi není - záznam se importuje jako nový (NEW)
2/ k záznamu se nalezl v bázi právě jeden záznam se stejným klíčem (duplicita) - dále se zpracovává podle váhy záznamu:
a/ váha záznamu na vstupu je stejná nebo nižší (ADD) - v bázi zůstává původní záznam a z nového záznamu se přidává pole 910 + vybraná další pole, která mají zůstat z obou záznamů zachována
b/ váha záznamu na vstupu je vyšší (UPD) - z původního záznamu v bázi zůstávají všechny výskyty pole 910 + vybraná další pole, jinak je záznam kompletně nahrazen přicházejícím záznamem
3/ k záznamu se nalezlo v bázi více záznamů se stejným klíčem (multiplicita) - záznam se importuje jako nový (NEW), protože nelze určit, se kterým záznamem má být mergován; záznam dostane označení příznakem v poli BAS a správce ho může později prověřit
Jestliže u seriálů dojde ke shodě u KEY3 nebo KEY4, záznamy jsou importovány jako nové, s příznakem duplicity/multiplicity v poli BAS (k pozdějšímu dořešení správcem).
Pokud nastane situace, že záznam v bázi již obsahuje výskyt pole 910 se siglou totožnou se záznamem na vstupu, neidentická podpole ze vstupu se přidávají.