PIA Enterprise ist eine Suchmaschine und ein Wissensmanagement-System mit dem Ziel die täglichen Arbeiten in Behörden und Unternehmen zu unterstützen. Das System ermöglicht einen einheitlichen und schnellen Zugang zu Information aus verschiedenen Quellen, wie z.B. dem Intranet, Webseiten, Datenbanken, E-Mails und lokalen Dateien, unter Berücksichtigung von Zugriffsrechten und dem Schutz der Privatsphäre.
PIA Enterprise ist ein verteiltes System deren Komponenten unterschiedliche Fähigkeiten besitzen. Für die Berliner Verwaltung wurden diese Komponenten verwendet um unter anderem eine Suchmaschine zu realisieren bei der mit nur einer Suchanfrage alle verfügbaren Quellen gleichzeitig durchsucht werden und dem Nutzer ein intelligent aggregiertes Ergebnis angezeigt wird. Die mehrfache Eingabe der Suchanfrage in den jeweiligen Applikation entfällt dadurch. Dies vereinfacht und beschleunigt die Suche erheblich. Beispielsweise muss man sich als Nutzer keine Gedanken darüber machen ob die Information eventuell auf dem eigenen PC, auf einer Webseite oder auf dem Fileserver im Intranet liegt. Es entfällt also die Entscheidung wo (Desktop-Suche, Outlook-Suche, Wiki-Suche) man als Nutzer die Suchanfrage stellen muss, sprich wo die Information verortet sein könnte. Durch PIA Enterprise können mit nur einer Anfrage alle Quellen gleichzeitig durchsucht werden.
Seit Anfang 2014 wird PIA Enterprise als Landesweite Suchmaschine in der Berliner Verwaltung eingesetzt. Eine vorher eingesetzte Google Search Appliance wurde durch PIA Enterprise ersetzt. Im Folgenden geben wir Ihnen einen kleinen Einblick bzw. Überblick über die Notwendigkeit und die Vorteile für den Einsatz des Systems in der Berliner Verwaltung.
Infrastruktur der Berliner Verwaltung
Die Verteilung der Daten im Rechnernetz der Berlin Veraltung muss man sich als ein großes zentrales Intranet (nicht öffentliches Rechnernetz) und vielen weiteren hausinternen Intranets vorstellen. Auf das zentrale Intranet (Zentralnetz) kann von allen Beschäftigten der Berliner Verwaltung zugegriffen werden. Auf die hausinternen Intranets (Hausnetz) hingegen kann man nur als Beschäftigter des jeweiligen Hauses zugreifen. Ein Hausnetz kann z.B. das Netz eines Bezirks, einer Senatsverwaltung oder auch einer einzelnen Abteilung sein. Darüber hinaus gibt es dann noch sehr viele Arbeitsplatzrechner, welche wir in dieser Betrachtung auch als einzelne Netze betrachten.
Datenhoheit im eigenen Netz
Alle oben beschriebenen Netze enthalten Informationen – sehr viele Informationen. Wichtig ist, dass die jeweiligen Besitzer der Netze die volle Datenhoheit behalten, d.h. Herr ihrer eigenen Daten bleiben. Dazu gehört auch die Anforderung, das Informationen aus unterschiedlichen Netze nicht miteinander gespeichert oder verknüpft werden sollen.
Verteiltes Wissensmanagement und Suche
In dem Projekt PIA Enterprise – Persönlicher Informationsassistent für Behörden und Unternehmen – wurden Komponenten (IRML Services + JIAC) entwickelt die es ermöglichen unter Berücksichtung der Datenhoheit und bestehender Zugriffsrechte ein System zum Wissensmanagement und zur Suche in einer verteilten Infrastruktur zu ermöglichen. Dabei werden die Komponenten in den einzelnen Netzen installiert und voneinander unabhängige Indizes erstellt. D.h. es wird hierbei kein zentraler Index der alle Daten der Netze (also z.B. der einzelnen Behörden) umfasst erstellt. Damit bleibt die individuelle Datenhoheit erhalten. Die Daten werden nicht miteinander verbunden und es muss kein Zugriff für einen zentralen Service gewährt werden.
Sicherheit
Die Sicherheit bei der Suche ist durch die bereits bestehenden Sicherheitsarchitekturen aus Firewall, Datei-Rechtemanagement und dem Rechtemanagement der jeweiligen Systeme (Wiki, DMS) gewährleistet. An der bestehenden Firewall müssen für PIA Enterprise keine zusätzlichen Zugänge geöffnet werden. Vielmehr wird die Firewall teil des Systems, da Anfragen an PIA Enterprise Komponenten in einem fremden Netz, auf das der jeweilige Nutzer keinen Zugriff hat, durch die Firewall geblockt werden. Gleichzeitig ist es möglich die, für den Nutzer durchsuchbaren, Netzte einfach über die Firewall-Einstellungen zu erweitern oder zu verringern.
Die PIA Enterprise Komponenten adaptieren sich an das bestehende Rechtemanagement. Man kann sich mit seinem Benutzerkonto des Arbeitsplatzes (LDAP, AD) anmelden. Es werden dann bei einem Fileserver die für Dateien und Ordner hinterlegten Zugangsrechte berücksichtigt und immer nur Links und Meta-Daten zu Informationen angezeigt zu denen der Nutzer auch Zugang hat. D.h., wenn der Nutzer ein Ergebnis angezeigt bekommt, kann er es durch einen Klick darauf auch öffnen. Er bekommt als nur Informationen angezeigt für die er mindestens ein Lese-Recht besitzt.
Intelligente Aggregation und Diversität
Da es sich bei den Informationen in den einzelnen Netzen um beliebige Arten und Typen von Daten handeln kann, ist die Aggregation dieser, neben der verteilten Architektur, die größte Herausforderung in diesem Projekt. Mit PIA Enterprise können beliebig viele Quellen durchsuchbar gemacht werden. Diese Quellen können die unterschiedlichsten Datei-Typen und -Formate enthalten. Als Quelle kann z.B. eine interne oder externe Webseite hinzugefügt werden oder speziell strukturierte Web-Dienste, wie z.B. interne Wiki-Seiten oder Dokumentenmanagementsysteme. Gleichzeitig können Datei Ordner auf dem Fileserver oder dem lokalen Desktop-Rechner als Quellen eingebunden werden.
Web Interface
Das Web Interface, sprich die Webseite, der mit PIA Enterprise umgesetzten Suchmaschine ist der Ort an dem alle Informationen aggregiert werden. Die Webseite kennt alle installierten PIA Enterprise Komponenten und versucht diese vom Rechner des Nutzers aus zu erreichen. Die Webseite wird als Web Client von einem zentralen Server ausgeliefert. Sie enthält damit keine Informationen selbst sondern nur die Logik mit der sie die Informationen von den, für den jeweiligen Nutzer erreichbaren, Komponenten abrufen kann. Damit werden auch in der Webseite nur die Informationen zusammengeführt auf die der Nutzer Zugriff hat.
Administration
Zur Administration der verfügbaren Quellen gibt es ebenfalls eine entsprechende Komponente mit der alle Quellen aktiviert bzw. deaktiviert werden können. Außerdem können zur Laufzeit neue Quellen hinzugefügt werden und durchsuchbar gemacht werden. Die Komponente stellt dazu eine entsprechende Benutzeroberfläche bereit.
Ausblick
Eine personalisierte Suche, die ständige Versorgung mit aktuellen und relevanten Informationen aus verschiedenen Quellen, wie auch die Möglichkeit Wissen zu konservieren und zu teilen, sind die Ziele von PIA Enterprise. Die Integration neuer Quellen und Formate ist ein Bestandteil der weiteren Arbeiten, wie auch die fortlaufende Evaluation und Verbesserung der angewandten Algorithmen und Verfahren. Dazu wird das Feedback der 50.000 Nutzer der Berliner Verwaltung regelmäßig ausgewertet und fließt in diese Verbesserungen ein.
Für die folgenden Jahre liegen die Forschungsschwerpunkte auf der Erforschung neuer Algorithmen zur Aggregation externer Quellen aus unkooperativen Umgebungen, sowie der Einbindung von implizitem und explizitem User-Feedback zur Erweiterung des personalisierten Wissensmanagement. Dabei liegt ein Schwerpunkt auf der Untersuchung inwieweit Möglichkeiten zur Verbesserung der Benutzerbeteiligung durch Gamification (Spielifizierung) genutzt werden können.