UM WAS GEHT ES?
Diffusionsmodelle wurden bisher hauptsächlich zur Erzeugung von Bildern und Videos eingesetzt. In jüngster Zeit hat sich ihr Anwendungsbereich auf neue Gebiete ausgeweitet, beispielsweise auf die Chemie zur Erzeugung neuer Moleküle. Für unsere Analyse haben wir auf Allgemeingültigkeit abgezielt und uns der Erklärung von Diffusionsmodellen für das Linker-Design von Molekülen mit unterschiedlichen Anwendungen genähert.
WAS IST EIN „LINKER“?
Ein Linker ist eine Teilstruktur eines Moleküls, die zwei oder mehr voneinander getrennte Atomfragmente miteinander verbindet. Das Linker-Design ist eine wichtige Aufgabe in der Arzneimittelentwicklung, da es eine zentrale Rolle bei der Entwicklung wirksamer Moleküle mit spezifischen Eigenschaften spielt.
WIE FUNKTIONIEREN DIFFUSIONSMODELLE IM PRINZIP?
Diffusionsmodelle lernen eine Datenverteilung und generieren durch Stichproben aus dieser Verteilung neue Daten. Das Diffusionsmodell selbst ist ein fortschrittliches KI-Modell. Wir versuchen, seine Generierungen nachzuvollziehen.
WIE KOMMT DABEI DAS „RAUSCHEN“ INS SPIEL?
Das Hinzufügen und Entfernen von Rauschen ist das Kennzeichen von Diffusionsmodellen. Ausgehend von einer Stichprobe im Datensatz (einem Bild oder, in unserem Fall, einem Molekül) fügen sie „Rauschen“ hinzu, bis die ursprüngliche Stichprobe „zerstört“ ist - wie der Übergang von einem detaillierten Bild zu einem „Fernsehrauschen-Effekt“. Anschließend lernt das Modell, wie dieses hinzugefügte Rauschen entfernt werden muss, um eine gültige Stichprobe wiederherzustellen, und generiert so ein neues Bild (oder Molekül).
WIE SIND SIE VORGEGANGEN?
Für unsere Studie wählten wir ein hochmodernes Diffusionsmodell für das Linker-Design und entwickelten eine neuartige Strategie zur Erklärbarkeit, die ein bekanntes Konzept aus dem Bereich der erklärbaren künstlichen Intelligenz erweitert: die Shapley-Werte. Für unsere Methode, DiffSHAPer, haben wir den weit verbreiteten Shapley-Wert-Formalismus zur Erklärung von Vorhersagen des maschinellen Lernens auf Diffusionsmodelle angepasst. Unser Ziel war es, herauszufinden, welche Fragmentatome den größten Einfluss auf die Linker-Generierung hatten.
WAS IST DAS WICHTIGSTE ERGEBNIS?
Wir haben festgestellt, dass Diffusionsmodelle zur Erzeugung chemisch valider Linker keine chemischen Prinzipien erlernen oder nutzen, sondern sich hauptsächlich auf Abstandsbeschränkungen zwischen Atomen stützen. Daher berücksichtigen sie wiederkehrende statistische Muster in den Daten, ohne verallgemeinerbare chemische Regeln zu erlernen.
WAS WAR DIE GRÖSSTE HERAUSFORDERUNG?
Aus rechnerischer Sicht sind die Durchführung von Inferenzverfahren und die Erklärung der Generierung von Diffusionsmodellen zeitaufwändige Aufgaben. Aus methodischer Sicht stellt unser Ansatz eine Neuheit dar, weshalb wir den besten Weg finden mussten, unsere Ergebnisse wirkungsvoll zu präsentieren.
GIBT ES EINE ANWENDUNG?
Unsere Methodik kann genutzt werden, um zu verstehen, was molekulare Diffusionsmodelle lernen. Im konkreten Fall des Linker-Designs ist es nützlich zu bestimmen, was die Generierung des Linkers antreibt. Linker sind im Wirkstoffdesign wichtig, da sie entscheidende molekulare Eigenschaften (wie Wirksamkeit und Stabilität) verbessern können. Folglich garantiert ein Linker, der ausschließlich auf der Grundlage von Abstands- und geometrischen Einschränkungen generiert wurde, keine Optimierung der Eigenschaften oder praktischen chemischen Verwendbarkeit.
WAS SIND DIE NÄCHSTEN SCHRITTE?
Der erste Schritt wäre die Anwendung von DiffSHAPer auf molekulare Diffusionsmodelle, die auf verschiedene Aufgaben zugeschnitten sind. Zukünftige Forschung wird sich auf die Entwicklung von Modellen konzentrieren, die in der Lage sind, mehr chemischen Kontext in ihre interne Argumentation einzubeziehen.