FES HOME MAIL SEARCH HELP NEW
[DIGITALE BIBLIOTHEK DER FES]
TITELINFO


Maschinelle Indexierung in der Bibliothek der Friedrich-Ebert-Stiftung / Hubert Woltering - [Electronic ed.] - 20 KB, Text
Erschienen in: ProLibris ; 2002, Nr. 3, S. 160 - 161

Electronic ed.: Bonn: FES Library, 2002


INHALT


Maschinelle Indexierung in der Bibliothek der Friedrich-Ebert-Stiftung

Die Bibliothek der Friedrich-Ebert-Stiftung (FES)(1) zählt mit zur Zeit 630.000 Medieneinheiten zu den größten Spezialbibliotheken in der Bundesrepublik Deutschland, im Bereich ihres Sammelschwerpunktes "Geschichte der deutschen und europäischen Arbeiterbewegung" zu den größten der Welt. Die Bibliothek ist in eine internationale Kooperation von Spezialbibliotheken auf dem Gebiet der Geschichte der Arbeit, die "International Association of Labour History Institutions" (IALHI)(2), eingebunden.

Die Bibliothek sieht in der Durchführung sammelschwerpunktbezogener Projekte mit forschungsrelevantem und –förderndem Akzent eine wichtige Aufgabe. Bei der Realisation der Projekte ist von entscheidender Bedeutung, dass die Deutsche Forschungsgemeinschaft (DFG)(3) die Bibliothek als Spezialbibliothek überregionaler Bedeutung für die Veröffentlichungen von Parteien und Gewerkschaften fördert. So bot sich auch die Möglichkeit, die Digitalisierung und Erschließung des "Sozialdemokratischen Pressedienstes"(4) als bibliothekarisches und zeithistorisches Großprojekt zu realisieren. Der Pressedienst, der zwischen 1946 und 1995 fünf- bis sechsmal wöchentlich erschien, bietet eine sehr dichte Dokumentation des politischen Geschehens in der Bundesrepublik Deutschland. Projekt-Aufgabe war nicht nur, mehr als 12.000 Einzelnummern bzw. ca. 85.000 Einzelseiten des Pressedienstes zu digitalisieren und anhand einer Schreibanweisung formal zu erfassen, sondern die Online-Version des Pressedienstes auch bestmöglich sachlich zu erschließen.

Im Vorfeld dieses Projektes war eines von vornherein klar: die Digitalisierung des Pressedienstes würde nicht Inhouse zu bewerkstelligen sein; ebenso wenig wäre die Formalkatalogisierung im Rahmen des täglichen Bibliotheksgeschäftes realisierbar gewesen. Diese Arbeiten wurden – finanziert im Rahmen des DFG-Gesamtprojektes – der niederländischen Firma DMP in Barendrecht (NL)(5) übertragen, die trotz bereits vorliegender mikroverfilmter Vorlage aus dem "Archiv der sozialen Demokratie" (AdsD)(6) der FES einige technische Hürden zu überwinden hatte:

  • Trennung von eigentlichem Pressedienst und Beilagen im Rahmen der Digitalisierung;

  • Erneute Zusammenführung der im TIFF-Format gescannten Images der Einzelseiten zu einer PDF-Datei der kompletten Einzelausgabe und die systematische Benennung dieser Dateien;

  • Einbindung von Sonderheften in das Grundschema;

  • Protokollierung von Problemfällen zur Nachbearbeitung in der Bibliothek.

Neben der Digitalisierung wurde auch die Katalogisierung zunächst von DMP realisiert. Die Katalogisate erreichten die Bibliothek in einer Textdatei, deren Datenmaterial via Importschnittstelle in Allegro-C umgesetzt und danach zu einer Datenbank aufgebaut wurde. In der weiteren Bearbeitung der Digitalisate ergab sich, dass zur Erstellung der PDF-Files die TIFF-Vorlagen in voller Auflösung genutzt worden waren, was zur Generierung von über 2 MB großen, so nicht nutzbaren Dateien führte. Durch die EDV-Abteilung der Bibliothek konnten über PERL-Skripte neue, händelbare PDF-Dateien generiert werden. Die Überprüfung der Verknüpfung von Katalogisaten und Digitalisaten schloss diese Projektphase ab.

Dieser Erstellungsphase folgte eine Phase der Qualitätssicherung und –steigerung durch eine Diplom-Bibliothekarin in der Bibliothek der FES. Neben Überprüfung und Korrektur der von DMP gelieferten Katalogisate (Qualitätssicherung) wurden diese durch die Kollegin angereichert (Qualitätssteigerung). So wurden

  • weitere im Artikel genannte Personen(7) aufgenommen,

  • Autorenkürzel, die für Pressedienst-Artikel typisch sind, so weit als möglich aufgelöst und

  • Normsätze kontrolliert und gegebenenfalls angepasst.

Auch die dritte Phase des Projektes, die Verbesserung der Erschließung des bestehenden Materials, war keinesfalls eine im normalen Tagesgeschäft zu bewältigende Aufgabe. Die Masse der Dokumente führte jeden Gedanken an eine intellektuelle Erschließung von vornherein ad absurdum. Aus diesem Grund wurde das im Rahmen eines DFG-Projektes an der ULB Düsseldorf (Projekt-Leiter: Prof. Dr. Klaus Lepsky) entwickelte automatische Indexierungsprogramm MILOS(8) über eine Lizenzvereinbarung mit der DFG zu Sonderkonditionen erworben und zum Einsatz gebracht. Entscheidende Bedeutung kam dem an der Universität des Saarlandes (Fachrichtung Informationswissenschaft der Universität des Saarlandes/ Prof. Dr. Harald Zimmermann) entwickelten und in MILOS eingebrachten Freitext-Indexierungssystem IDX zu.(9)

Zum Zweck der Indexierung wurden verschiedene Kategorien der Katalogisate (Ident-Nummer, Titel, Untertitel und zusätzliche Stichwortkategorie; nicht jedoch die Autoren-Kategorie) in ein von MILOS verarbeitbares Format gebracht. Da es sich um eine deutschsprachige Indexierungs-Menge handelte, war ein vorheriges Sprachsplitting bzw. eine Sprachselektion nicht erforderlich.

Ebenfalls aus Personalgründen konnte und kann die Bibliothek der FES für MILOS keine auf ihren Sammelschwerpunkt bezogene Pflege der Programm-Wörterbücher durchführen. Daher wurden Standard-Rechtschreibwörterbuch (Stammformreduzierung des Wortmaterials) und Standard-Relationenwörterbuch (intellektuelle Verknüpfung des Wortmaterials) zur Indexierung genutzt. Das auf die Ident-Nummern bezogen generierte Indexwortmaterial wurde wieder in das Allegro-C-Format transferiert und dann in einer eigenen Index-Kategorie (#399) zurück in das Katalogisat der Ausgangs-Datenbank übertragen. Nach diesem Schritt erfolgte der Aufbau der Datenbank-Indizes auf der Basis klassischer Index-Kategorien und des von MILOS generierten Wortmaterials.

Der EDV-Administrator der Bibliothek entwickelte zusätzlich auf der Basis von Allegro-C-Avanti ein Web-Interface bzw. eine Benutzeroberfläche: mittels Anklickens des Personen-Links des Katalogisates kann der Datenbanknutzer eine Google-Recherche im WWW zu dieser Persönlichkeit der Zeitgeschichte anstoßen.

Hervorzuheben ist, dass sich MILOS bei der nachträglichen Erschließung großer Bestände als Instrument bewährt hat. Dies zeigte sich in der Bibliothek der FES nicht nur im Rahmen des Projektes "Sozialdemokratischer Pressedienst 1946-1995", sondern bereits bei der maschinellen Indexierung von Aufsatzkatalogisaten aus ca. 250 in der Bibliothek laufend gehaltenen Zeitschriften. Das Datenmaterial wird regelmäßig von der Firma SWETS (Dienst: SWETS SCAN) erworben. Die Zeitschriften-Katalogisate und die mit ihnen verbundenen Erschließungsdaten (Autor, Stichwörter aus Aufsatztiteln, Titelanfänge von Aufsatztiteln, Ausgewertete Zeitschriften) werden in der Bibliothek in einer eigenen, regelmäßig aktualisierten Aufsatz-Datenbank angeboten.(10) Die Datenbank enthält zwischenzeitlich über 200.000 Aufsatzkatalogisate, die aber aus urheberrechtlichen Gründen nicht via Internet recherchierbar, sondern nur vor Ort in der Bibliothek nutzbar sind. In einer Intranet-Lösung wird das Potential der Datenbank jedoch bestmöglich genutzt: die FES-MitarbeiterInnen außerhalb Bonns (z.B. Berlin, AuslandsmitarbeiterInnen) werden bei Wunsch per Email automatisiert mit den per PERL-Skript erstellten Inhaltsverzeichnissen der Zeitschrift versorgt und können gewünschte Aufsätze durch Anklicken einer Direktbestellfunktion in der Fernleihe der Bibliothek ordern.

Der Einsatz von MILOS und seiner Programmkomponenten – so zeigen die Anwendungen des Programmes in der Bibliothek der FES – kann im Bereich Sacherschließung zwar nicht die Qualität intellektueller Verschlagwortung erreichen. Leisten kann die automatische Indexierung mittels MILOS die schnelle und wertgesteigerte Erschließung großer Katalogisatmengen. Die wissenschaftliche Nutzbarkeit der zeithistorischen Quelle "Sozialdemokratischer Pressedienst" konnte erheblich gesteigert, die Investition in Digitalisierung und Erschließungsinstrumentarium gerechtfertigt werden. Für das laufende DFG-Projekt "SPD-Pressemitteilungen und Informationen" wird MILOS als erprobtes Instrument erneut zum Einsatz kommen.

Hubert Woltering,
Bibliothek der Friedrich-Ebert-Stiftung


    1 Zu Aufbau und Geschichte der Bibliothek: Zimmermann, Rüdiger: Das gedruckte Gedächtnis der Arbeiterbewegung bewahren. Die Geschichte der Bibliotheken der deutschen Sozialdemokratie. Bonn 2001 (in elektronischer Form unter: http://library.fes.de/fulltext/bibliothek/01083toc.htm).
    Weiterhin: Das gedruckte Gedächtnis der Arbeiterbewegung : Festschrift zum 30-jährigen Bestehen der Bibliothek der Friedrich-Ebert-Stiftung. Bonn 1999 (in elektronischer Form unter: http://library.fes.de/fulltext/bibliothek/00699toc.htm). Die Bibliothek der FES findet sich unter der URL http://library.fes.de im Internet.

    2 http://www.ialhi.org

    3 http://www.dfg.de

    4 Zum Katalogeinstieg "Sozialdemokratischer Pressedienst" (inkl. Projektinformationen): http://library.fes.de/cgi-bin/populo/spdpd.pl.
    Zum Projekt "Sozialdemokratischer Pressedienst": Zimmermann, Rüdiger: Arbeiterbewegung online? Die Retrodigitalisierung des Sozialdemokratischen Pressedienstes mit Hilfe der Deutschen Forschungsgemeinschaft. Ein Projekt der Bibliothek der Friedrich-Ebert-Stiftung. In: Mitteilungen des Förderkreises Archive und Bibliotheken zur Geschichte der Arbeiterbewegung ; Nr. 21 (2002), S. 4 – 8.

    5 Zur Homepage der Firma DMP: http://www.dmpdata.nl/.

    6 Zum "Archiv der sozialen Demokratie" der FES: http://www.fes.de/archive/index_gr.html.

    7 Die Personenangaben wurden mit den Personen-Normsätzen des Kataloges synchronisiert. Die im Rahmen der Erschließung des Materials hinzukommenden Personen wurden als neue Personen-Normsätze dem Dienstkatalog der Bibliothek der FES hinzugefügt und stellen so einen weiteren Mehrwert für die Bibliothek dar.

    8 Neben der Bibliothek der FES nutzen auch die Universitäts- und Landesbibliothek Düsseldorf und die Bibliothek des Zentralinstituts für Kunstgeschichte München MILOS. Zur Entwicklung und den Möglichkeiten von MILOS ist besonders auf die Aufsätze und Berichte der MILOS-Homepage der Universitäts- und Landesbibliothek Düsseldorf (http://www.uni-duesseldorf.de/WWW/ulb/mil_home.htm) zu verweisen; dort weisen z.B. verschiedene Retrievaltests die Mehrwertsteigerung durch den MILOS-Einsatz nach.
    Als weitere Literatur ist zu nennen:
    Grummann, Martin: Sind Verfahren zur maschinellen Indexierung für Literaturbestände Öffentlicher Bibliotheken geeignet? Retrievaltests von indexierten ekz-Daten mit der Software IDX. In: Bibliothek. Forschung und Praxis 24.2002, S. 297-318 (in elektronischer Form unter:http://www.bibliothek-saur.de/2000_3/297-318.pdf);
    Gödert, Winfried: Maschinelle Indexierung auf dem Prüfstand. Ergebnisse eines Retrievaltests zum MILOS II Projekt. In: Bibliotheksdienst 31.1997, S. 59-68 (in elektronischer Form unter: http://www.dbi-berlin.de/dbi_pub/bd_art/97_01_06.htm);
    Nohr, Holger: Automatische Dokumentindexierung – Eine Basistechnologie für das Wissensmanagement. Stuttgart 2000 (in elektronischer Form unter: http://www.iuk.hdm-stuttgart.de/nohr/KM/KmAP/Indexing.pdf).
    Zum Nachfolgeprojekt KASCADE an der ULB Düsseldorf: http://www.uni-duesseldorf.de/WWW/ulb/kas_home.htm.

    9 Zur Entwicklung und den Möglichkeiten von IDX ist zu verweisen auf ein Online-Handbuch (http://is.uni-sb.de/studium/handbuch/exkurs.ind.php) von Heinz-Dirk Luckhardt.

    10 Die Implementierung der Daten in den Bibliothekskatalog kam nicht in Frage, da die Verschlagwortung im Bestandskatalog der Bibliothek sehr viel ausdifferenzierter nach einem eigenen Schlagwort-Thesaurus (Gülich) erfolgt und auch die urheberrechtlichen Vorgaben es nicht erlaubten.



© Friedrich Ebert Stiftung | technical support | net edition fes-library | Dezember 2002