Der automatisierte Modellierer kommt!

Neuer Algorithmus lernt automatisch physikalisch korrekte Modelle aus Messdaten

Simulierte Daten von räumlich gemusterten Proteinkonzentrationen. © Suryanarayana Maddu et al.

Mathematische Modellierung ist wesentlich für das Verständnis und die Vorhersage von Naturphänomenen. Der klassische Ansatz der hypothesenbasierten Modellierung hat sich in vielen Bereichen der Wissenschaft bewährt. In der Biologie weisen die resultierenden Modelle jedoch oft viele unbekannte Parameter auf oder es bleibt unklar, welche Annahmen als Grundlage für das Modell verwendet werden sollen. Es ist daher ein seit langem gehegter Traum von Systembiologen, Modelle und Hypothesen rein datengetrieben und unvoreingenommen direkt aus Messdaten abzuleiten. Ivo Sbalzarini, Professor für Informatik an der TU Dresden und Forschungsgruppenleiter am MPI-CBG, und seine Arbeitsgruppe beschäftigten sich mit dieser Herausforderung, um einen Algorithmus zu entwickeln, der direkt interpretierbare und physikalisch korrekte mathematische Modelle aus Daten lernen kann.

Suryanarayana Maddu, Nachwuchswissenschaftler aus Indien und Doktorand in der Gruppe von Ivo Sbalzarini am Zentrum für Systembiologie Dresden (CSBD) im Rahmen von ScaDS.AI (dem BMBF-Zentrum für Skalierbare Datenanalytik und Künstliche Intelligenz Dresden/Leipzig), hat dieses grundlegende Machine-Learning-Problem in Zusammenarbeit mit Christian Müller, Professor für Statistik an der LMU München und Gruppenleiter am Flatiron Institute in New York City, gelöst. Das Ergebnis ist ein statistisches Lernsystem. Ihr Algorithmus kann automatisch mathematische Modelle direkt aus Daten lernen, während er sich an grundlegende physikalische Gesetze hält und dabei stabil ist. Dies erlaubt es Wissenschaftlern, ihre Daten schneller zu interpretieren, ermöglicht Vorhersagen mittels Computersimulationen komplexer Raum-Zeit-Dynamiken und ermöglicht einen mechanistischen Einblick in biologische Prozesse. Der Algorithmus basiert auf dem Konzept der group-sparse regression, das vorhandenes physikalisches oder chemisches Wissen in ein maschinelles Lernproblem einbezieht und dann das einfachste physikalisch konsistente Modell findet, das die Daten zuverlässig erklären kann.

In ihrer Studie betrachteten die Forscher um Ivo Sbalzarini Beispiele aus der Biologie, wie die Bestimmung von zellulären Signalübertragungswegen, den Computern der chemischen Informationsverarbeitung in lebenden biologischen Zellen. Der Algorithmus wurde mit Messungen von Enzymkonzentrationen gespeist, zusammen mit ein paar grundlegenden chemischen Regeln. Der Algorithmus war dann in der Lage, den korrekten Signalweg und die damit verbundenen kinetischen Reaktionsraten direkt aus einer kleinen Menge verrauschter Daten zu bestimmen. Die Autoren zeigen, dass die Einbeziehung von physikalischem Wissen in den maschinellen Lernprozess den Algorithmus deutlich widerstandsfähiger gegen Störungen in den Daten und Unsicherheiten im Modellierungsprozess selbst macht. Darüber hinaus haben die Forscher ihren Algorithmus auch auf die Daten von Proteinkonzentrationen übertragen, die an der Musterbildung auf Membranen in Zellen beteiligt sind. Die Herausforderung hier bestand darin, das physikalische Modell zu lernen, das für die beobachteten Muster verantwortlich ist. Dieses Mal wurde der Algorithmus auch auf das Vorhandensein einer versteckten Variablen hingewiesen, deren Messwerte nicht gegeben waren. Der Group-Regression-Algorithmus war dann in der Lage, das zugrundeliegende physikalische Modell zu erlernen. Ein erfreulicher Nebeneffekt war, dass der Algorithmus auch die Werte der versteckten Variablen lernte.

Für die Zukunft stellt sich die Sbalzarini-Gruppe vor, dass der Algorithmus in Mikroskope integriert wird, um die Messdaten in Echtzeit zu analysieren und datengetrieben physikalisch zu modellieren. Wissenschaftlerinnen und Wissenschaftler können dann mit dem Algorithmus interagieren, möglicherweise in der Virtual Reality CAVE im CSBD, um grundlegende Regeln zu erproben, die der Algorithmus in den Lernprozess einbezieht, um ein physikalisch konsistentes Modell zu erstellen, das den jeweiligen biologischen Prozess in Raum und Zeit erklären kann. Dies ist ein wichtiger Schritt in Richtung des datengetriebenen und KI-unterstützten digitalen Labors der Zukunft.

Originalpublikation

Suryanarayana Maddu, Bevan L. Cheeseman, Christian L. Müller, and Ivo F. Sbalzarini: Learning physically consistent differential equation models from data using group sparsity. Phys. Rev. E 103, 042310, 13 April 2021 doi: 10.1103/PhysRevE.103.042310