CD-CODE - Datenbank und Enzyklopädie für membranlose Tröpfchen: Max Planck Institute of Molecular Cell Biology and Genetics

Dresdner Forschungsteam entwickeln CrowDsourcing COndensate Database and Encyclopedia (CD-CODE), eine Plattform und Datenbank für biomolekulare Kondensate, die von der Community bearbeitet werden kann.

[Translate to Deutsch:] Logo of CD-CODE. Copyright: MPI-CBG

Biomolekulare Kondensate sind membranlose Organellen, die selektiv Biomoleküle wie Proteine und Nukleinsäuren in der Zelle anreichern. Diese dynamischen flüssigkeitsähnlichen Tröpfchen bilden sich sehr schnell durch Phasentrennung - ähnlich wie Öltröpfchen in Wasser - und bilden temporäre Strukturen, die vor dem wässrigen Zellinneren geschützt sind. In den letzten Jahren haben Forscherinnen und Forscher gezeigt, dass diese membranlosen Flüssigkeitskondensate bei zahlreichen zellulären Prozessen eine Rolle spielen, darunter bei der zellulären Signalübertragung, der Zellteilung, der ineinander verschachtelten Struktur der Nukleoli im Zellkern und der Regulierung der DNA. Daher werden biomolekulare Kondensate zunehmend als eine neue Klasse therapeutischer Ziele genutzt.

Um interdisziplinäres wissenschaftliche Kenntnisse über die Funktion und Zusammensetzung von biomolekularen Kondensaten zu verknüpfen, hat die Forschungsgruppe von Agnes Toth-Petroczy am Max-Planck-Institut für molekulare Zellbiologie und Genetik (MPI-CBG) und am Zentrum für Systembiologie Dresden (CSBD) eine Datenbank und Enzyklopädie entwickelt, die kürzlich in der Fachzeitschrift Nature Methods veröffentlicht wurde. Die CrowDsourcing COndensate Database and Encyclopedia (CD-CODE.org) ist eine von der Community editierbare Plattform. Sie umfasst eine Datenbank mit verifizierten biomolekularen Kondensaten aus der Literatur, eine Enzyklopädie mit relevanten wissenschaftlichen Begriffen und eine Crowdsourcing-Webanwendung. Agnes Toth-Petroczy, die die Studie leitete, erklärt: „Der Aufbau einer umfassenden Datenbank ist eine nahezu unmögliche Aufgabe für ein einzelnes Labor oder sogar ein Institut wie das unsere, das ein Zentrum der Kondensatforschung ist. Deshalb haben wir uns entschieden, eine Crowd-Sourcing-Funktion einzubauen, damit sich die Gemeinschaft daran beteiligen kann.“

Soumyadeep, einer der Erstautoren, fügt hinzu: „Ziel des Projekts war es, die umfangreichste und weltweit anerkannteste Datenbank für Kondensate zu entwickeln. Deshalb erlauben wir den Nutzern, neue Daten oder Aktualisierungen wie bei Wikipedia einzureichen. Die Qualität kann jedoch nur durch fachkundige Moderatoren gewährleistet werden, weshalb die Betreuer eine wichtige Rolle spielen. Wir hoffen, dass Experten aus aller Welt die Datenbank hilfreich finden und dazu beitragen werden, das Wissen über Kondensate zu pflegen und erweitern.“

„Es gibt andere Datenbanken, die Proteine katalogisieren, die an der Phasentrennung beteiligt sind. Sie geben jedoch keine Antwort auf Fragen wie: Welche biomolekularen Kondensate sind bisher identifiziert und bestätigt worden? Was sind ihre bereits bekannten Proteinkomponenten? Von welchen Kondensaten ist bekannt, dass sie ein bestimmtes Protein enthalten? Welche experimentellen Hinweise gibt es auf das Vorhandensein eines Proteins in einem bestimmten Kondensat?“, so Agnes. Nadia, eine experimentelle Biologin und Mitautorin der Publikation, erklärt: „Hier kommt unsere CD-CODE-Datenbank ins Spiel. Unsere Datenbank enthält einen Katalog von Kondensat-Protein-Beziehungen und den entsprechenden experimentellen Nachweis, der manuell kuratiert wird. Zum Zeitpunkt der Veröffentlichung enthielt CD-CODE 9861 Proteine, die mit 244 verschiedenen biomolekularen Kondensaten aus 49 verschiedenen Organismen verbunden waren. Diese Zahlen werden laufend aktualisiert, da weitere Daten hinzugefügt und von den Mitwirkenden überprüft werden.“

Agnes gibt einen Ausblick: "Unsere Plattform wird die Entdeckung und experimentelle Untersuchung von biomolekularen Kondensaten und ihren Proteinbestandteilen beschleunigen und damit unser Verständnis ihrer Rolle bei Krankheiten und als therapeutische Targets verbessern. Während sich das Thema weiterentwickelt, ermöglicht der Crowd-Sourcing-Aspekt eine genauere Untersuchung von Konzepten und Beweisen. Dadurch wird sichergestellt, dass das ständig wachsende Wissen der Kondensatforschung schnell in die Datenbank und Enzyklopädie einfließt. Darüber hinaus dienen die umfassenden und kuratierten Daten in CD-CODE als qualitativ hochwertige Trainingsdaten für KI-Anwendungen, auf die wir uns derzeit im Labor hauptsächlich konzentrieren. Wir hoffen, dass CD-CODE dazu beitragen kann, die molekularen Determinanten der Proteinkondensation zu entschlüsseln." Dieses Projekt ist eine interdisziplinäre Teamleistung von Softwareingenieuren und Wissenschaftlern aus den Forschungsgruppen von Agnes Toth-Petroczy und Anthony Hyman, der Scientific Computing Facility am MPI-CBG und Dewpoint Therapeutics.

Original Publication

Rostam, N., Ghosh, S., Chow, C.F.W. et al. CD-CODE: crowdsourcing condensate database and encyclopedia. Nat Methods (2023). doi.org/10.1038/s41592-023-01831-0

Link zum Blogpost "Behind the paper": https://protocolsmethods.springernature.com/posts/condensing-information-on-condensates