Die "Panama Papers" sind das größte Datenleak der Mediengeschichte. Ihre Veröffentlichung bringt eine unglaubliche Zahl von Korruptions-, Steuer- und anderen Delikten bis zum Bruch von UN-Sanktionen zutage. Die Arbeit des Recherchenetzwerks wird deshalb als Glanzleistung des Enthüllungsjournalismus gefeiert. Zu Recht. Doch wurden möglicherweise noch nicht alle Möglichkeiten genutzt, um in kurzer Zeit noch mehr verborgene Zusammenhänge zu finden. "Die Sternstunde von Datenjournalismus und Data Science steht noch aus", meint Data-Science-Experte Dr. Christian Nietner vom Big-Data-Spezialisten The unbelievable Machine Company (*um). Er erläutert, wie effektiver recherchiert und analysiert werden könnte, um neue Erkenntnisse aus den Daten zu gewinnen.
Bei den Panama Papers hat die Süddeutsche Zeitung gemeinsam mit einem Netzwerk von 400 Journalisten aus über 100 Medienorganisationen und 80 verschiedenen Nationen mehr als ein Jahr recherchiert sowie die Daten analysiert und ausgewertet – teils mit technischer Unterstützung, aber auch manuell. Aus Data-Science-Sicht besteht hier ein hohes Optimierungspotenzial bei der Automatisierung und Qualität der Auswertung. "Die Vorgehensweise mit herkömmlichen Datentools ist nicht schnell und letztlich nicht wirksam genug. Sie verschenkt viele Möglichkeiten", so Nietner. "Die Aufdeckung der Panama Papers ist beispiellos und könnte ein exzellentes Beispiel für wirksam angewandte Data Science sein, die auch die Zusammenführung und Verarbeitung unstrukturierter Daten, wie Emails, PDFs und Grafiken ermöglicht und damit zu wesentlich besseren Endergebnisse führen könnte".
Beschleunigte Recherche mit Data Science
Der Big-Data-Spezialist The unbelievable Machine Company " (*um) hat die Berichterstattung zu den Panama Papers aus Data-Science-Perspektive betrachtet und sich selbst die Frage gestellt, was mithilfe der aktuell verfügbaren Datentechnologien bei der Analyse und Auswertung dieser riesigen Datenmenge schneller und effektiver gemacht werden könnte. Anstatt jeden Ordner einzeln zu durchsuchen, empfiehlt sich beispielsweise der Einsatz einer hochgradig skalierbaren und konfigurierbaren Volltextsuchmaschine, die sowohl strukturierte als auch unstrukturierte Textdaten in einem gemeinsamen Datenpool konsolidieren kann. "Die automatisierte Auswertung von Bilddaten kann mittels tiefer neuronaler Netze erfolgen, wahlweise in Kombination mit Machine-Learning-Algorithmen für die Verarbeitung natürlicher Sprache. Die so gewonnenen Daten können anschließend dem Datenpool hinzugefügt werden. Statt vieler einzelner Dokumente, die über hunderte Ordner verteilt sind, erhält man auf diese Weise einen einzigen, effizient durchsuchbaren Datenpool aller Dokumente", erklärt Nietner.
Zusammenhänge und Muster erkennen
Ein wesentlicher Teil der Auswertung besteht nicht alleine in der Konsolidierung der Daten, sondern im Aufdecken und Validieren von unbekannten und nicht offensichtlichen Mustern und Zusammenhängen in den Informationen. Gerade hier leistet die Data Science einen enormen Mehrwert. "Ganz konkret könnten etwa Algorithmen zur Named Entity Recognition (NER) verwendet werden, die drauf trainiert sind, einen Fließtext automatisiert auf Eigennamen von Personen, Orten, Organisationen oder auch Zeitangaben zu durchsuchen", so Nietner.
Dr. Christian Nietner ist Data Scientist bei The unbelievable Machine Company (*um). Er ist Experte für die Implementierung von Machine-Learning-Algorithmen und die Analyse von Big Data. Zuvor hat er sich als Post-Doc an der Technischen Universität Berlin (nach der Promotion in theoretischer Quantenphysik) mit der mathematischen und algorithmischen Analyse physikalischer Phänomene, computergestützter Datenverarbeitung und Numerik befasst.
Mehr Informationen zu diesem Thema finden sie auf den Blog-Beiträgen von *um: https://www.unbelievable-machine.com/blog/panama-papers-und-data-science/
https://www.unbelievable-machine.com/blog/panama-papers-data-science-neuer-stand/
Weitere Informationen:
The unbelievable Machine Company
Museumsplatz 1/Stiege 10/Tür 13 - 1070 Wien
Lukas große Klönne – Marketing Manager
Tel.: + 49 173 2461738
lukas.grosse-kloenne@unbelievable-machine.com - www.unbelievable-machine.at
Presse- und Öffentlichkeitsarbeit:
Press’n’Relations Austria GmbH
Lange Gasse 65/16 – 1080 Wien
Natalie Eiffe-Kuhn
Tel.: +43 1 907 61 48-11
nek@press-n-relations.at -
www.press-n-relations.com
The unbelievable Machine Company
The unbelievable Machine Company The unbelievable Machine Company GmbH (*um) mit Sitz in Berlin und Wien wurde 2008 von CEO Ravin Mehta gegründet. *um ist Spezialist für Big Data (Data Science und Data Engineering), Cloud Services und Internet Applikationen und entwickelt mit mehr als 120 Mitarbeitern maßgeschneiderte Lösungen. *um wurde von Gartner als einziger europäischer Anbieter als Cool Vendor in der Kategorie "Information Infrastructure and Big Data" prämiert und aktuell zum zweiten Mal in Folge von der Experton Group zum "Big Data Leader" gekürt. Zu den Kunden zählen Unternehmen wie Bawag P.S.K., easybank, Porsche Austria, Nokia, Gebr. Heinemann, Parship und Deutsche Post.