FES | |||
|
|
Maschinelle Indexierung in der Bibliothek der Friedrich-Ebert-Stiftung / Hubert Woltering - [Electronic ed.] - 20 KB, Text Erschienen in: ProLibris ; 2002, Nr. 3, S. 160 - 161 Electronic ed.: Bonn: FES Library, 2002
Maschinelle Indexierung in der Bibliothek der Friedrich-Ebert-Stiftung Die Bibliothek der Friedrich-Ebert-Stiftung (FES)(1) zählt mit zur Zeit 630.000 Medieneinheiten zu den größten Spezialbibliotheken in der Bundesrepublik Deutschland, im Bereich ihres Sammelschwerpunktes "Geschichte der deutschen und europäischen Arbeiterbewegung" zu den größten der Welt. Die Bibliothek ist in eine internationale Kooperation von Spezialbibliotheken auf dem Gebiet der Geschichte der Arbeit, die "International Association of Labour History Institutions" (IALHI)(2), eingebunden. Die Bibliothek sieht in der Durchführung sammelschwerpunktbezogener Projekte mit forschungsrelevantem und förderndem Akzent eine wichtige Aufgabe. Bei der Realisation der Projekte ist von entscheidender Bedeutung, dass die Deutsche Forschungsgemeinschaft (DFG)(3) die Bibliothek als Spezialbibliothek überregionaler Bedeutung für die Veröffentlichungen von Parteien und Gewerkschaften fördert. So bot sich auch die Möglichkeit, die Digitalisierung und Erschließung des "Sozialdemokratischen Pressedienstes"(4) als bibliothekarisches und zeithistorisches Großprojekt zu realisieren. Der Pressedienst, der zwischen 1946 und 1995 fünf- bis sechsmal wöchentlich erschien, bietet eine sehr dichte Dokumentation des politischen Geschehens in der Bundesrepublik Deutschland. Projekt-Aufgabe war nicht nur, mehr als 12.000 Einzelnummern bzw. ca. 85.000 Einzelseiten des Pressedienstes zu digitalisieren und anhand einer Schreibanweisung formal zu erfassen, sondern die Online-Version des Pressedienstes auch bestmöglich sachlich zu erschließen. Im Vorfeld dieses Projektes war eines von vornherein klar: die Digitalisierung des Pressedienstes würde nicht Inhouse zu bewerkstelligen sein; ebenso wenig wäre die Formalkatalogisierung im Rahmen des täglichen Bibliotheksgeschäftes realisierbar gewesen. Diese Arbeiten wurden finanziert im Rahmen des DFG-Gesamtprojektes der niederländischen Firma DMP in Barendrecht (NL)(5) übertragen, die trotz bereits vorliegender mikroverfilmter Vorlage aus dem "Archiv der sozialen Demokratie" (AdsD)(6) der FES einige technische Hürden zu überwinden hatte:
Neben der Digitalisierung wurde auch die Katalogisierung zunächst von DMP realisiert. Die Katalogisate erreichten die Bibliothek in einer Textdatei, deren Datenmaterial via Importschnittstelle in Allegro-C umgesetzt und danach zu einer Datenbank aufgebaut wurde. In der weiteren Bearbeitung der Digitalisate ergab sich, dass zur Erstellung der PDF-Files die TIFF-Vorlagen in voller Auflösung genutzt worden waren, was zur Generierung von über 2 MB großen, so nicht nutzbaren Dateien führte. Durch die EDV-Abteilung der Bibliothek konnten über PERL-Skripte neue, händelbare PDF-Dateien generiert werden. Die Überprüfung der Verknüpfung von Katalogisaten und Digitalisaten schloss diese Projektphase ab. Dieser Erstellungsphase folgte eine Phase der Qualitätssicherung und steigerung durch eine Diplom-Bibliothekarin in der Bibliothek der FES. Neben Überprüfung und Korrektur der von DMP gelieferten Katalogisate (Qualitätssicherung) wurden diese durch die Kollegin angereichert (Qualitätssteigerung). So wurden
Auch die dritte Phase des Projektes, die Verbesserung der Erschließung des bestehenden Materials, war keinesfalls eine im normalen Tagesgeschäft zu bewältigende Aufgabe. Die Masse der Dokumente führte jeden Gedanken an eine intellektuelle Erschließung von vornherein ad absurdum. Aus diesem Grund wurde das im Rahmen eines DFG-Projektes an der ULB Düsseldorf (Projekt-Leiter: Prof. Dr. Klaus Lepsky) entwickelte automatische Indexierungsprogramm MILOS(8) über eine Lizenzvereinbarung mit der DFG zu Sonderkonditionen erworben und zum Einsatz gebracht. Entscheidende Bedeutung kam dem an der Universität des Saarlandes (Fachrichtung Informationswissenschaft der Universität des Saarlandes/ Prof. Dr. Harald Zimmermann) entwickelten und in MILOS eingebrachten Freitext-Indexierungssystem IDX zu.(9) Zum Zweck der Indexierung wurden verschiedene Kategorien der Katalogisate (Ident-Nummer, Titel, Untertitel und zusätzliche Stichwortkategorie; nicht jedoch die Autoren-Kategorie) in ein von MILOS verarbeitbares Format gebracht. Da es sich um eine deutschsprachige Indexierungs-Menge handelte, war ein vorheriges Sprachsplitting bzw. eine Sprachselektion nicht erforderlich. Ebenfalls aus Personalgründen konnte und kann die Bibliothek der FES für MILOS keine auf ihren Sammelschwerpunkt bezogene Pflege der Programm-Wörterbücher durchführen. Daher wurden Standard-Rechtschreibwörterbuch (Stammformreduzierung des Wortmaterials) und Standard-Relationenwörterbuch (intellektuelle Verknüpfung des Wortmaterials) zur Indexierung genutzt. Das auf die Ident-Nummern bezogen generierte Indexwortmaterial wurde wieder in das Allegro-C-Format transferiert und dann in einer eigenen Index-Kategorie (#399) zurück in das Katalogisat der Ausgangs-Datenbank übertragen. Nach diesem Schritt erfolgte der Aufbau der Datenbank-Indizes auf der Basis klassischer Index-Kategorien und des von MILOS generierten Wortmaterials. Der EDV-Administrator der Bibliothek entwickelte zusätzlich auf der Basis von Allegro-C-Avanti ein Web-Interface bzw. eine Benutzeroberfläche: mittels Anklickens des Personen-Links des Katalogisates kann der Datenbanknutzer eine Google-Recherche im WWW zu dieser Persönlichkeit der Zeitgeschichte anstoßen. Hervorzuheben ist, dass sich MILOS bei der nachträglichen Erschließung großer Bestände als Instrument bewährt hat. Dies zeigte sich in der Bibliothek der FES nicht nur im Rahmen des Projektes "Sozialdemokratischer Pressedienst 1946-1995", sondern bereits bei der maschinellen Indexierung von Aufsatzkatalogisaten aus ca. 250 in der Bibliothek laufend gehaltenen Zeitschriften. Das Datenmaterial wird regelmäßig von der Firma SWETS (Dienst: SWETS SCAN) erworben. Die Zeitschriften-Katalogisate und die mit ihnen verbundenen Erschließungsdaten (Autor, Stichwörter aus Aufsatztiteln, Titelanfänge von Aufsatztiteln, Ausgewertete Zeitschriften) werden in der Bibliothek in einer eigenen, regelmäßig aktualisierten Aufsatz-Datenbank angeboten.(10) Die Datenbank enthält zwischenzeitlich über 200.000 Aufsatzkatalogisate, die aber aus urheberrechtlichen Gründen nicht via Internet recherchierbar, sondern nur vor Ort in der Bibliothek nutzbar sind. In einer Intranet-Lösung wird das Potential der Datenbank jedoch bestmöglich genutzt: die FES-MitarbeiterInnen außerhalb Bonns (z.B. Berlin, AuslandsmitarbeiterInnen) werden bei Wunsch per Email automatisiert mit den per PERL-Skript erstellten Inhaltsverzeichnissen der Zeitschrift versorgt und können gewünschte Aufsätze durch Anklicken einer Direktbestellfunktion in der Fernleihe der Bibliothek ordern. Der Einsatz von MILOS und seiner Programmkomponenten so zeigen die Anwendungen des Programmes in der Bibliothek der FES kann im Bereich Sacherschließung zwar nicht die Qualität intellektueller Verschlagwortung erreichen. Leisten kann die automatische Indexierung mittels MILOS die schnelle und wertgesteigerte Erschließung großer Katalogisatmengen. Die wissenschaftliche Nutzbarkeit der zeithistorischen Quelle "Sozialdemokratischer Pressedienst" konnte erheblich gesteigert, die Investition in Digitalisierung und Erschließungsinstrumentarium gerechtfertigt werden. Für das laufende DFG-Projekt "SPD-Pressemitteilungen und Informationen" wird MILOS als erprobtes Instrument erneut zum Einsatz kommen. Hubert Woltering,
© Friedrich Ebert Stiftung | technical support | net edition fes-library | Dezember 2002 |