KATI – Ein Deckel für viele Datentöpfe

Autor: Dr. Marcus John

Pünktlich zur Hannover Messe 2021 verkündeten Digital Science und das Fraunhofer INT eine Kooperation, um das KATI-System Interessenten außerhalb der Fraunhofer-Gesellschaft zur Verfügung zu stellen. Damit wurde die Basis dafür gelegt, KATI zu vermarkten – ein Meilenstein in der Entwicklung von KATI und der Geschichte des Instituts. 

In diesem Artikel werden sowohl die Vorteile der Erweiterung des KATI Systems durch die Dimensions-Daten als auch die technischen Herausforderungen für die Realisierung erläutert. Alles begann ein Jahr zuvor im März 2020 mit einem ersten Gespräch zwischen Christian Herzog und Mario Diwersy von Digital Science am Fraunhofer INT, um die Möglichkeiten einer Kooperation auszuloten. Schnell wurde klar, dass beide Seiten darin eine Chance sehen und so begannen parallel zu den Gesprächen über die Formalitäten die technischen Arbeiten zur Erschließung des umfangreichen Datensatzes.  Die Dimensions- Publikationsdatenbank umfasst immerhin mehr als 120 Millionen Publikationen. 

Die Struktur der Daten

In der Dimensions Datenbank sind die bibliographischen Daten von mehr als 120 Millionen Publikationen erfasst, darunter Angaben zum Titel, den Autoren, dem Journal und dem Jahr der Veröffentlichung eines Papers. Insofern waren relativ wenige Anpassungen des am Fraunhofer INT entwickelten Datenmodell notwendig, welches auf der Nutzung einer sogenannten Graphdatenbank oder auch RDF-Stores basiert. Letzteres steht für Ressource Description Framework und erlaubt es, die Beziehungen zwischen sogenannten Ressourcen zu modellieren, welche durch Relationen miteinander verknüpft sind. Im Falle von KATI ist beispielsweise ein Paper eine solche Ressource und ein Autor eine weitere. Diese können nun durch die Relation „wurde geschrieben von“ miteinander verknüpft werden. Auf diese Weise entstehen sogenannte Triples aus zwei Ressourcen und einer Relation:

        Paper A - wurde geschrieben von – Autor X

Diese Art der Datenaufbereitung hat sich als sehr mächtig erwiesen und ist die Grundlage für viele Möglichkeiten und Features, die das KATI System seinen Nutzer*innen bietet.

Trotz dieser prinzipiellen Ähnlichkeiten, gibt es einige dezidierte Neuerungen und Erweiterungen der Dimensions-Daten, die ein paar Anpassungen auch im Maschinenraum von KATI nötig machten.

Das ist zum einen der Umstand, dass Dimensions Institutionen durch einen eindeutigen Identifikator beschreibt. Dies erleichtert eine ganze Reihe von Analysen, die man mit KATI durchführen kann.

Ein weiterer wichtiger Unterschied besteht darin, dass Dimensions nicht nur ein Klassifikationssystem benutzt, sondern mehrere. Dazu zählen insbesondere:

  • Die sogenannten Fields of Research, die auf einem australisch-neuseeländischen Klassifikationssystem beruhen und insgesamt zwei Ebenen umfassen. Sie entsprechen einer klassischen Unterteilung in wissenschaftliche Disziplinen und Teildisziplinen. 
  • Die Sustainable Development Goals, die am 1. Januar 2016 von den Vereinten Nationen in Kraft gesetzt wurden. 
  • Diverse weitere Systeme, die vor allem aus dem medizinischen Bereich stammen

Die Zuordnung einer Publikation zu den verschiedenen Klassen wird automatisch vorgenommen und nutzt entsprechend trainierte Klassifikationsalgorithmen. Es handelt sich also um eine artikel-basierte Klassifikation, die nicht auf der Zuordnung der jeweiligen Journale zu einer oder mehrerer Klassen beruht. Dies erlaubt eine feinere und genauere Zuordnung von Publikationen zu den verschiedenen Klassen. 

Die Struktur des Systems

Um dieser leicht unterschiedlichen Struktur der Daten Rechnung tragen zu können, musste natürlich auch das KATI-System angepasst werden. Das betraf zunächst das Datenmodell, welches dem System zugrunde liegt. Anschließend wurde der sogenannte Transformator modifiziert. Dieses Programm ist dafür zuständig, die Rohdaten in die oben erwähnten Triples zu überführen, die dann in einem zweiten Schritt in eine entsprechende Datenbank geladen werden. Anschließend werden diese mittels einer geeigneten Suchmaschine/Search Engine durchsuchbar gemacht. Dafür hat das KATI Lab die sogenannte Pumpe programmiert, welche dafür sorgt, dass die durchsuchbaren Daten aus der eigentlichen Graphdatenbank in den Suchindex kopiert werden.

All diese Anpassungen fanden zunächst im sogenannten Backend, also sozusagen im Maschinenraum statt. Aber auch am Frontend, der eigentlichen Benutzeroberfläche mussten Anpassungen vorgenommen werden, die alle Komponenten des KATI-Systems betrafen, also sowohl die Gestaltung der Suchoberfläche als auch die der sogenannten Ressource-Seiten und die Analyseseiten mit den verschiedenen Dashboards. 

So musste beispielsweise die Gestaltung der Filter auf der Suchseite angepasst werden, um dem Umstand Rechnung zu tragen, dass man die Ergebnisse nun nach mehreren Kategoriensystemen filtern kann und diese zum Teil auch noch hierarchisch angeordnet sind.

Die größten Änderungen gab es naturgemäß im Analyseteil des KATI-Systems, da hier alle Visualisierungen, die auf den Dashboards genutzt werden, angepasst werden mussten. Hinter jeder dieser Abbildungen stecken letztlich eine oder mehrere Datenbankabfragen, welche dafür verantwortlich sind, dass die notwendigen Daten bereitgestellt werden. All diese Suchanfragen mussten modifiziert werden, um der geänderten Datenstruktur Rechnung zu tragen. Das umfasste mehr als 30 Visualisierungen für die mehr als 30 Datenbankabfragen erstellt oder angepasst werden mussten.

Diese Gelegenheit hat das Team des KATI Labs genutzt, um die gesamte Benutzeroberfläche einem umfassenden Re-Design zu unterziehen. Das betrifft sowohl die Struktur des Codes, um dessen Pflege und Erweiterung künftig einfacher zu gestalten, als auch das Erscheinungsbild. So wurden wichtige Elemente wie die Filter für die Suchergebnisse oder der Workspace neugestaltet und funktional erweitert. Weitere wichtige Verbesserungen betreffen die Gestaltung der Dashboards, welches nun bspw. die Möglichkeit bieten, das Erscheinungsbild der Visualisierungen zu beeinflussen. 

Mit der Erschließung der Dimensions-Daten durch das KATI-Team steht nun eine Version des Systems zur Verfügung, die wir Interessent*innen außerhalb der Fraunhofer-Gesellschaft zur Verfügung stellen können, so dass eine kommerzielle Vermarktung möglich ist. Dabei haben wir mit Digital Science einen starken und kompetenten Partner an unserer Seite. Im Laufe des Prozesses konnte die Gruppe demonstrieren, dass sowohl das Datenmodell als auch das Gesamtkonzept des KATI-Systems so flexibel gestaltet sind, dass dieses um weitere Datentöpfe erweitert werden kann. Derzeit arbeiten wir an der Erschließung von Patentdaten, um hiermit eine weitere wichtige Informationsquelle für die Technologiefrühaufklärung am Fraunhofer INT zur Verfügung zu haben. Damit ist das Institut für die weitere Entwicklung im Bereich Data Driven Foresight sehr gut aufgestellt.