Literaturverwaltung

Die wichtigste Regel in Bezug auf Literaturverwaltungen ist, eine zu benutzen. Egal, wie das Vorgehen bei der Literaturrecherche sonst aussieht, wichtig ist, dass das Ergebnis in einer Literaturverwaltungssoftware landet. Dafür gibt es zwei Gründe:

  • Einmal gefundene Quellen sind rasch und auf unterschiedlichen Suchpfaden wieder auffindbar. Dies vermeidet Ordner am Rechner, die man nach Jahren von „Literatur“ auf „unsorted“ umbenennt, und die unzählige kryptisch benannte PDFs enthalten, in denen Artikel ohne weitere Metadaten abgespeichert sind.
  • Der Aufwand für die Erstellung eines korrekt formatierten Literaturverzeichnisses wird massiv reduziert. Spätestens beim Ändern des Zitierstils in einem Artikel mit 60 Referenzen, weil sich das Zielmedium geändert hat, ist dieser Punkt leicht nachzuvollziehen.

Der Mehrwert einer Literaturverwaltung erschließt sich aber erst, wenn diese korrekt eingesetzt wird und wenn für das jeweilige Verwendungsszenario das geeignete Produkt gewählt wurde. Im folgenden werden wir deshalb zuerst auf die Verwendung von Literaturverwaltungssoftware eingehen, und danach die unterschiedlichen Produktkategorien in diesem Bereich hinsichtlich ihrer Stärken und Schwächen betrachten.

Nutzung einer Literaturverwaltung

Bei der Nutzung einer Literaturverwaltung sind im wesentlichen drei Schritte zu unterscheiden, die von der Software adäquat unterstützt werden sollten. Während der Literatursuche sollte die Software das Einpflegen von Daten möglichst einfach machen, so dass gefundene Quellen rasch und korrekt hinzugefügt werden können und zur weiteren Verwendung bereit stehen. Die Auswertung der verwalteten Literatur wird von den existierenden Produkten sehr verschieden gehandhabt und in unterschiedlichem Ausmaß unterstützt – während manchmal nur einfach Gruppierungsoperationen unterstützt werden, stellen andere Produkte umfangreiche Funktionalität zum Annotieren und Exzerpieren der verwalteten Artikel zur Verfügung. Letztendlich ist die Unterstützung bei der Erstellung wissenschaftlicher Artikel jene Funktionalität, die potentiell den stärksten unmittelbaren Mehrwert bzgl. Zeitersparnis und Vermeidung von Fehler bietet, indem Sie das Verzeichnis der in einem Artikel verwendeten Literatur entsprechend der Formatvorgaben des Publikationsorgans automatisiert erstellt.

Einpflegen von Daten in Literaturverwaltungen

Während der Literatursuche als möglicherweise relevant identifizierte Artikel sollten unmittelbar in die Literaturverwaltung importiert werden. Je nach verwendetem Produkt ist die unterschiedlich aufwändig. Die manuelle Eingabe der relevanten Metadaten sollte aber immer nur der letzte Ausweg sein, da dies aufwändig und fehleranfällig ist. Üblicherweise bieten Literaturverwaltungen eine Import-Schnittstelle an, die mit gängigen Metadatenformaten umgehen können. Datensätze in diesen Formaten stellen die meisten digitalen Bibliotheken zum Download bereit. Auch Literatursuchmaschinen wie der Googel Scholar können oft so konfiguriert werden, dass sie strukturierte Metadaten zu den Suchergebnissen zum Download anbieten. Manche Produkte, bieten auch Browser-Extensions an, die einen Import durch einen simplen Klick auf einen Toolbar-Button ermöglichen. Diese Extensions versuchen, die relevanten Metadaten automatisiert zu extrahieren, was nicht immer in der notwendigen Qualität gelingt.

Nach dem Import sollte die Literaturreferenz auf Korrektheit und Vollständigkeit geprüft werden. Vor allem bei automatisiert importierten Literaturreferenzen oder bei der Verwendung der durch eine Suchmaschine generierten Metadaten ist die Datenqualität oft mangelhaft, was den Nutzen der Literaturverwaltung bei der Generierung eines Literaturverzeichnisses zunichte macht oder sogar ins Gegenteil verkehrt.

Ein wesentlicher Stolperstein beim automatisierten Import ist eine fehlerhaft Festlegung der Literaturart eines Artikels. Für die Angabe der Referenz im Literaturverzeichnis ist es relevant, in welcher Form ein wissenschaftlicher Artikel erschienen ist. Zu einem Buchkapitel werden für die Quellenangabe andere Informationselemente benötigt als für einen Zeitschriftenartikel. Wird ein Zeitschriftenartikel nun etwa fehlerhaft als Buchkapitel importiert, werden zwar Titel, Autoren und Erscheinungsjahr korrekt angeführt werden, unter Umständen ist auch noch der Zeitschriftenartikel korrekt eingebunden. Die für einen Zeitschriftenartikel notwendige Angabe von Jahrgang und Ausgabe, in der der Artikel erschienen ist, wird jedoch in jedem Fall fehlen – entweder bereits in den Metadaten oder zumindest bei der Generierung des Literaturverzeichnisses. Literaturverwaltungen sind nämlich zumeist so aufgebaut, dass sie zu einem Artikel beliebige Informationselemente speichern können und erst bei der Generierung eines Literaturverzeichnisses auf Basis der festgelegten Literaturart ausgewählt wird, welche Element für die Erstellung der Referenz verwendet werden. Auch bei auf dem ersten Blick vollständigen Metadaten ist es also möglich, dass durch eine falsch festgelegte Literaturart die erzeugte Referenz unvollständig ist. Wird die Literaturart nach dem Import geändert, ist deshalb auf die korrekte Befüllung der Metadaten-Felder zu achten.

Nach dem Import sollte deshalb zuerst die Literaturart kontrolliert und ggf. korrigiert werden. Danach sollten die Metadaten auf Vollständigkeit kontrolliert werden. Welche Metadaten für welche Literaturart üblicherweise angegeben werden, wird im Abschnitt “Das Quellenverzeichnis” beschrieben. Soll die Literaturverwaltung nicht nur zur Generierung des Literaturverzeichnisses verwendet werden, sondern auch bei der eigentlichen wissenschaftlichen Arbeit unterstützen, so sollte im letzen Schritt auch der Volltext der Publikation als digitale Datei (zumeist als PDF) hinzugefügt werden, sofern dieser verfügbar ist. Literaturverwaltugen speichern diese Volltexte zumeist in von ihnen verwalteten Ordnerhierarchien im Dateisystem und verwendet dabei sprechende Datei- und Ordernamen, so dass die Volltext auch ohne die Literaturverwaltungs-Software auffindbar sind (gängig ist hier etwa eine Ebene an Ordnern mit den Namen der erstgenannten Autoren von Publikationen, in denen die jeweiligen Dateien mittels eines Namenschemas abgelegt sind, das zumindest die Namen der ersten zwei bis drei Autoren, das Erscheinungsjahr, sowie unter Umständen die ersten Worte des Titels der Publikation enthält. Ein Beispiel hierfür wäre (Ordnername -> Dateiname):

Oppl -> OpplStary2009TabletopConceptMapping.pdf

In dieser Form abgelegt, sind die verwalteten Volltexte auch einfach und nachvollziehbar etwa via eMail versendbar, weswegen – sofern überhaupt optional – von der Möglichkeit der automatisierten Verwaltung der Volltexte Gebrauch gemacht werden sollte.

Auswertung von verwalteter Literatur

In den Fähigkeiten zur Arbeit mit verwalteter Literatur unterschieden sich die am Markt befindlichen Produkte stark voneinander. Allen gemein ist jedoch, dass sie in der Lage sind, Publikationen in Gruppen zu organisieren. Während sich die dazu verwendeten Mechanismen wiederum unterscheiden (von statischer Kategorisierung, über Tagging, bis hin zu dynamische Gruppierung basierend auf Filterregeln), ist ihnen gemein, dass sie damit Literatur unabhängig von der Suche auf Basis der vorhandenen Metadaten einfacher auffindbar machen wollen.

Während hier kein allgemeiner Kategorisierungsleitfaden angegeben werden kann, soll doch auf zwei gängige Ansätze zur Strukturierung von Literaturquellen hingewiesen werden. Einerseits ist dies die Ablage nach Themenbereichen, andererseits die Zusammenfassung von Quellen, die gemeinsam in einem Artikel verwendet wurden.

Die erstgenannte Art der Strukturierung ist naheliegend. Wächst die Anzahl der Quellen in einer Literaturverwaltung über die Zeit hinweg an, so ist es wahrscheinlich, dass durch die unterschiedlichen bearbeiteten Fragestellungen Literatur zu unterschiedlichen Themen verwaltet wird. Um diese rasch und in ihrer Gesamtheit überblicken zu können, ist es sinnvoll, Publikation nach behandelten Themen zu kategorisieren. Dabei können auch die Keywords einer Publikation herangezogen werden, sinnvoller ist aber eine manuelle Kategorisierung nach selbst festgelegten, mit dem eigenen Forschungszugang abgestimmten Kategorien.

Die Gruppierung von Publikationen nach deren gemeinsamen Verwendung in einer Publikation ist eine Empfehlung, die der Arbeitspraxis des Autors dieses Skriptums entstammt. Dafür gibt es zwei Gründe. In Einzelfällen fordern Verlage von Autoren die in einem Artikel verwendete Literatur in einem strukturierten Metadatenformat an. Die meisten Literaturverwaltungen sind in der Lage, einen derartigen Export durchzuführen und dabei die exportierten Datensätze auch auf die einer bestimmten Gruppe zugeordneten Publikationen zu beschränken. Der mit dem Export verbundene Arbeitsaufwand reduziert sich damit auf einige wenige Mausklicks. Der zweite Grund liegt wie oben in der Wiederauffindbarkeit von Literaturquellen begründet. Es kommt bei einem längerfristigen Forschungsprojekt vor, dass mehrere Publikationen ähnlich Argumente enthalten, um etwa eine bestimmte Designentscheidung zu begründen. Erfahrungsgemäß ist es einfacher, sich zu erinnern, in welchem Artikel ein bestimmtes Argument verwendet wurde, als sich an die exakte Literaturquelle zu erinnern, die zum Beleg desselben verwendet wurde. Bei einer Gruppierung von Publikationen nach Verwendung in verfassten Artikeln sind damit Belege für bestimmte Argumente rascher wieder aufzufinden. Durch die beinahe immer vorhandene Möglichkeit der Mehrfachzuordnung einer Publikation zu mehreren Kategorien können die beschriebenen Ansätze zur Strukturierung auch kombiniert werden.

Neben der Gruppierung von Publikationen bieten einige Literaturverwaltungen auch Funktionen zur Arbeit mit den verwalteten Volltexten an. Diese umfassen üblicherweise die Möglichkeit zur Annotation einer Publikation, teilweise wird auch das Erstellen eines Exzerptes unterstützt. Die Annotationsfunktionalität ähnelt üblicherweise jener, die von PDF-Viewern bekannt ist und umfasst Möglichkeiten, einzelne Passagen durch Anstreichen hervorzuheben und Kommentare hinzuzufügen. Diese Annotationen werden üblicherweise einerseits im PDF eingebettet, andererseits aber auch in die Literaturdatenbank importiert, um dort für die Suche nach der Publikation bzw. zur Dokumentation relevanter Aspekte derselben verfügbar zu sein. Diese Übernahme von Annotationen bildet üblicherweise auch den Kern der Unterstützung des Exzerpierens. Dort besteht üblicherweise zusätzlich die Möglichkeit, selbst freien Text hinzuzufügen. Dies kann etwa dazu genutzt werden, die unterschiedlichen Aspekte, auf die beim Exzerpt eingegangen wird (siehe Abschnitt “Exzerpieren”) im Text vor zu strukturieren.

Letztendlich bieten einige Produkte die Möglichkeit, Teile der eignen Literaturdatenbank für andere Personen freizugeben, um diesen die Ansicht oder sogar die kollaborative Bearbeitung zu ermöglichen. Dies ist vor allem bei wissenschaftlichen Arbeiten nützlich, die nicht in Einzelautorenschaft erstellt werden, sondern an der mehrere AutorInnen beteiligt sind. In Art und Umfang der Freigabe unterscheiden sich die verfügbaren Produkte hier wiederum stark, weswegen hier nicht weiter auf Details eingegangen werden soll.

Unterstützung bei der Erstellung wissenschaftlicher Artikel

Während sich der Mehrwert einer Literaturverwaltung zur Auswertung der verwalteten Literatur meist erst bei längerer Verwendung zeigt, wird deren effizienzsteigernde Wirkung bei der Generierung des Literaturverzeichnisses eines Artikels unmittelbar sichtbar.

Jeder wissenschaftliche Artikel muss im Sinne der Nachvollziehbarkeit des Beitrags zum Stand der Forschung mit Referenzen auf bereits existierende Arbeiten versehen werden. Diese Referenzen werden im Text an jenen Stellen eingefügt, an denen auf die jeweilige Quelle Bezug genommen wird. Dies geschieht zur besseren Lesbarkeit in Form eines Kurzzitats (etwa durch Nummern in eckigen Klammern oder die Angabe der Autoren und des Erscheinungsjahrs einer Publikation in runden Klammern – siehe dazu den Abschnitt “Das Quellenverzeichnis”), die am Ende des Artikels im Quellenverzeichnis in eine vollständige Literaturreferenz aufgelöst wird. Die Form der Angabe des Kurzzitats und die Formatierung des Quellenverzeichnisses unterscheidet sich stark zwischen den Publikationsorganen, in denen ein Artikel erscheinen kann. Zudem kann vor allem bei nummernbasierten Kurzzitaten kann eine nachträgliche Änderung der verwendeten Quellen durch die notwendige Neunummerierung sehr aufwändig sein. Insgesamt ist die Erstellung des Quellenverzeichnisses und das korrekte Auflösen der Kurzzitate eine Aufgabe, die manuell sehr aufwändig und fehleranfällig ist, bei entsprechend vorhandenen Informationen über die Richtlinien des jeweiligen Publikationsorgans aber gut automatisiert werden kann.

Ein wesentliches Kennzeichen von Literaturverwaltungen bei deren Marktauftritten ist deswegen die Anzahl der unterstützten Formate für die Erstellung von Kurzzitaten und Quellenverzeichnissen.

Zur Verwendung bieten die meisten Produkte Extensions für gängige Textverarbeitungsprogramme an, die den Zugriff auf die verwaltete Literatur ermöglichen. Soll nun ein Kurzzitat in den Text eingefügt werden, wird in der Extension die jeweilige Quelle ausgewählt. Dies führt dazu, dass eine produktspezifischen Textmarke in den Text eingefügt wird, die später bei der abschließenden Formatierung durch das jeweils korrekt formatierte Kurzzitat ersetzt wird. In manchen Produkten ist diese Textmarke selbst sprechend, d.h. gibt Aufschluss über die verwendete Literaturquelle, was beim Editierprozess hilfreich sein kann.

Ist der Artikel fertiggestellt, kann die jeweilige Extension dazu verwendet werden, das Quellenverzeichnis zu generieren. Dazu muss üblicherweise Im ersten Schritt der zu verwendete Zitierstil gewählt werden. Die Literaturverwaltung scannt danach das Dokument nach den eingefügten Textmarken und ersetzt diese durch die jeweiligen Kurzzitate. Im Hintergrund werden die verwendeten Quellen gesammelt um dann in ein korrekt formatiertes Quellenverzeichnis zusammengeführt zu werden. Dieses wird üblicherweise automatisiert am Ende des Dokuments eingefügt. Viele Produkte sind in der Lage, diesen Prozess nicht nur einmal durchzuführen, sondern ermöglichen ein beliebiges Umformatieren der Kurzzitate und Quellenverzeichnisse. Dies kann notwendig sein, wenn ein Artikel bei einem anderen als dem ursprünglich geplanten Publikationsorgan eingereicht wird. Sinnvoll ist dies aber auch, wenn die finale Arbeit einen Zitierstil erfordert, der ein Editieren oder Korrekturlesen erschwert. Dies ist etwa bei nummernbasierten Kurzzitaten der Fall, die im Text keinen Rückschluss auf die verwendeten Quellen ermöglicht. Für derartige Zwecke kann so vorübergehend ein „sprechendes“ Format für Kurzzitate eingesetzt werden.

Software zur Literaturverwaltung

Software zur Literaturverwaltung gibt es heute wie in großer Auswahl. Historisch gesehen haben alle Produkte einen gemeinsamen Ahnen. Das BibTeX-System, dass im Kontext von LaTeX bereits in den 80er-Jahren entwickelt wurde, weißt im Wesentlichen bereits alle Eigenschaften auf, die auch moderne Systeme auszeichnen. Insbesondere führt BibTeX einen Ansatz zur Verwaltung der Metadaten ein, der unterschiedliche Artikeltypen (etwa Zeitschriftenartikel, Buchbeiträge, Monographien oder Dissertationen) unterscheidet und jeweils die für die vollständige Beschreibung desselben notwendigen Felder definiert. Dieser Ansatz ist bis heute in allen gängigen Systemen zu finden.

Technisch mag BibTeX heute mit seinem proprietären, textbasierten Beschreibungsformat für Literatur-Referenzen antiquiert wirken, es ist jedoch nach wie vor ein gängiges System, dass vor allem in den Naturwissenschaften in Kombination mit LaTeX noch häufig eingesetzt wird. Dementsprechend gibt es auch moderne Produkte, die versuchen, die Verwaltung von Referenzen in BibTeX zugänglicher zu machen. Der Großteil der aktuellen Produkte versucht jedoch, einen moderneren Zugang zu Literaturverwaltung anzubieten und konzentriert sich vor allem darauf, die Verwendung von Referenzen bei der Erstellung von Artikeln in den verschiedensten Textverarbeitungssystemen zu vereinfachen.

Es ist wenig sinnvoll, an dieser Stelle auf konkrete Produkte einzugehen – wichtiger ist es, die grundlegenden Typen zu kennen und deren Vor- und Nachteile abschätzen zu können. Eine Gegenüberstellung konkreter Produkte ist z.B. auf Wikipedia zu finden. Grundsätzlich können wir vier Typen unterscheiden:

  • Stand-Alone-Verwaltungssoftware
  • Online-Dienste
  • Literaturdatenbanken von Textverarbeitungsprogrammen
  • Frontends für Standard-Bibliographie-Formate

Im Folgenden werden wir diese vier Typen kurz näher behandeln und einander gegenüberstellen. Konkrete Systeme sind auch oft Mischformen dieser Typen und weisen Eigenschaften von mehreren Kategorien auf. Zumeist sind sie aber hinsichtlich ihrer Philosophie einen Typ zuzuordnen.

Stand-Alone-Verwaltungssoftware

Stand-Alone-Verwaltungssoftware für wissenschaftliche Literatur ist zumeist desktop-basiert und enthält neben einer Benutzungsschnittstelle zur Literaturverwaltung auch eine Datenbank in der die Metadaten zu den verwalteten Artikeln abgelegt werden. Beispiele für derartige Software sind Produkte wie Endnote, Papers oder Citavi. Der Vorteil dieser Produkte ist die oft bessere Einbettung in das jeweilige Betriebssystem und damit die Möglichkeit der Nutzung von Systemdiensten wie Volltextsuche im Dateisystem abgelegten Metadaten. Mit der steigenden Verbreitung von mobilen Endgeräten steigt auch die Anzahl an für den Betrieb auf Smartphones oder Tablets konzipierten Apps, wobei diese zumeist eher als Companion-Apps konzipiert sind und in Funktionsumfang und Bedienbarkeit nicht an ihre Desktop-Pendants heranreichen. Für die Auswertung verwalteter Literatur sind diese durch integrierte PDF-Bearbeitungswerkzeuge aber oft durchaus geeignet.

Online-Dienste

Seit einigen Jahren existieren Literaturverwaltungen, die versuchen, die Literaturverwaltung näher an die heutzutage gängigsten Datenquellen, die digitalen Bibliotheken, heranzuführen und eine möglichst einfach Integration zu ermöglichen. Während diese System alle eine Online-Komponente beinhalten, unterscheiden sich die Ansätze der Datenextraktion und -verwaltung aber grundlegend. Beispielhaft beschreiben wir kurz drei Vertreter unterschiedlicher Strömungen.

Die Suchmaschine Google Scholar bietet eine integrierte Literaturverwaltung, die zur Verfügung steht, sobald die Suche mit einem aktiven Google Account genutzt wird. Die Funktionalität ist auf die grundlegenden Funktionalitäten beschränkt und ermöglicht im Kern nur das Hinzufügen einer Publikation aus der Suchergebnisliste zu einer privaten Sammlung. Darüber hinaus wird kaum Funktionalität angeboten, vor allem gibt es keine Integration mit Textverarbeitungsprogrammen zur automatisierten Erstellung eines Quellenverzeichnisses.

Zotero ist als Browser-Extension implementiert und führt die gesamte Verwaltung von Literatur im Browser durch. Die Daten werden dabei lokal gespeichert, es gibt zusätzlich eine Online-Platform, auf der Quellen verwaltet und mit Gruppen geteilt werden können. Der Anspruch von Zotero war seit seiner Einführung die möglichst automatisierte Extraktion von Metadaten eines wissenschaftlichen Artikels aus seiner Webseite. Zotero war der erste Dienst, der diesen Ansatz erfolgreich umgesetzt hat und ist hier bis heute führend. Diese Rolle hat sich aber durch die verbesserte Metadatenextraktion der Literatursuchmaschinen relativiert, da die Übertragen von Metadaten über diesen Kanal in andere Literaturverwaltungen nur wenig aufwändiger ist. Zotero bietet Extensions für gängige Textverarbeitungsprogramme und kann so umfassend zur Literaturverwaltung genutzt werden.

Mendeley legt seinem Design einen Social-Media-Zugang zu Verwaltung wissenschaftlicher Literatur zugrunde. Es unterstützt die Erstellung und kollaborative Verwaltung von Literatursammlungen in einer Onlineplattform. Zusätzlich bietet Mendeley einen Offline-Client, mittels dem die Literaturdatenbank auch ohne Internet-Verbindung genutzt werden kann. Die Integration mit Textverarbeitungsprogrammen ist hier inkludiert.

Literaturdatenbanken von Textverarbeitungsprogrammen

Neben Produkten, die explizit das Ziel haben, die Verwaltung von wissenschaftlicher Literatur zu unterstützen, bieten auch Textverarbeitungssysteme wie Microsoft Word oder LibreOffice Funktionen zur Literaturverwaltung an. Die Literatur wird dabei ähnlich wie in Stand-Alone-Produkten erfasst und in einer internen Datenbank des Textverarbeitungssystems abgelegt. Der Fokus liegt in der Folge nicht auf der Auswertung der erfassten Literatur, sondern auf deren Verwendung zur Erstellung eines Quellenverzeichnisses. Da diese Funktionalität inhärenter Bestandteil des Textverarbeitungssystems ist und nicht durch Extensions realisiert werden muss, ist die Integration tendenziell enger und weniger fehleranfällig als bei Stand-Alone-Produkten. Dies wird erkauft mit einer propriäteren Datenhaltung, die nur innerhalb der jeweiligen Textverarbeitung verwendet werden kann und wenig bis keine Export-Möglichkeiten bietet.

Frontends für BibTeX-Dateien

Auch das älteste Literaturverwaltungssystem BibTeX ist vor allem im naturwissenschaftlichen und technischen Bereich noch weit verbreitet, und hat auch unabhängig von LaTeX durchaus sinnvolle Einsatzbereiche. Der größte Vorteil von BibTeX ist die einfach, robuste Speicherung der Literaturdatenbank als Textdatei. Diese wird beim Einsatz in Kombination mit LaTeX auch direkt als Datenquelle verwendet, weswegen kein weiterer Konvertierungsschritt notwendig ist, bei dem Daten verloren oder in unerwarteter Weise abgebildet werden könnten.

Die Verwaltung von BibTeX-Dateien kann durch den Einsatz dedizierter Frontend-Software vereinfacht werden. Diese stellt im Wesentlichen die Funktionalität von Stand-Alone-Software zur Verfügung, greift aber zur Datenhaltung auf eine BibTeX-Datei zurück. Beispiele für derartige Produkte sind JabRef oder BibDesk (letzteres ist ausschließlich für MacOS verfügbar). Beiden Produkten ist gemein, dass sie keine Integration für Textverarbeitungssysteme bieten. Die direkte Verwendung der verwalteten Literatur ist nur in Kombination mit LaTeX möglich.