Was ist passiert, seit Sie den ersten Platz im Wettbewerb der Universität zum Geburtstag von Marvin, unserem HPC-Supercomputer, gewonnen haben?
Nicholas Kluge Corrêa: Dieses Jahr war voller Meilensteine. Zu Beginn des Jahres haben wir Mittel vom Transdisziplinären Forschungsbereich (TRA) „Sustainable Futures“ erhalten, im März beim Marvin-Wettbewerb Experten-Unterstützung sowie zusätzliche Rechenkapazitäten gewonnen und im Sommer einen Artikel über Tucano veröffentlicht. Als Brasilianer habe ich gesehen, dass Sprachmodelle wie ChatGPT auf Englisch viel besser als in vielen anderen Sprachen funktionieren – einfach, weil es so viel mehr qualitativ hochwertige englische Trainingsdaten gibt. Mit Tucano wollte ich den Grundstein für ein starkes portugiesisches Sprachmodell legen. Es war unser Pilotprojekt.
Wie sehen Ihre nächsten Schritte aus?
Nicholas Kluge Corrêa: Unter dem Namen Polyglot wollen wir an das anknüpfen, was wir mit Tucano erreicht haben, und es für viele weitere Sprachen verfügbar machen. Im März 2026 planen wir einen viertägigen Workshop in Zusammenarbeit mit den Fachbereichen IT und Informatik der Universität. Die Forschenden der Uni werden die Möglichkeit haben, zu lernen, wie man große Sprachmodelle für sogenannte „ressourcenarme Sprachen“ erstellt. Wir haben auch damit begonnen, an Modellen für Bengali und Hindi zu arbeiten – was natürlich mit dem Background von Shiza und Aniket zusammenhängt.
Wie weit sind Sie mit diesen neuen Modellen?
Shiza Fatimah: Wir haben unsere Trainingskorpora zusammengestellt und stehen kurz davor, mit dem Training zu beginnen. Wir haben auch mehr Daten zu Tucano hinzugefügt. Für das erste Training hatten wir 200 Milliarden Token – das ist sehr viel für Portugiesisch. Seither haben wir weitere 100 Milliarden Token gesammelt, so dass unser Datensatz in nur einem Jahr um rund ein Drittel gewachsen ist. Für Bengali haben wir 20 Milliarden Token und für Hindi 80 Milliarden. In Anbetracht der Menge an Menschen, die diese Sprachen sprechen, mag das überraschend klingen, aber das ist die Realität der Datenlage.
Aber wenn mehr Menschen eine Sprache sprechen, sollte es dann nicht auch mehr Texte online geben?
Aniket Sen: Das könnte man meinen, aber so ist es nicht. Brasilianerinnen und Brasilianer nutzen das Internet aktiv und produzieren viel Content auf Portugiesisch, wodurch wir eine solide Grundlage erhalten, auf der wir aufbauen können. Aber in anderen Sprachen, insbesondere in postkolonialen Kontexten, wie bei Indien, sieht es anders aus. Viele Texte in Bengali und Hindi sind mit Englisch vermischt, und Materialien hoher Qualität, die sich für das KI-Training eignen, werden – insbesondere im akademischen Bereich – häufig direkt auf Englisch verfasst. Das macht es unglaublich schwer, saubere, verwendbare Daten zu sammeln. Darin besteht unsere größte Herausforderung: Unterrepräsentierte Sprachen haben einfach nicht genug digitale Präsenz im Internet.
Wie haben Sie die portugiesischen Trainingsdaten für Tucano ausgewählt? Woher stammen sie?
Aniket Sen: Der Großteil stammt von Common Crawl, einer gemeinnützigen Organisation, die systematisch Webinhalte sammelt und die Daten öffentlich zugänglich macht. Es handelt sich um einen riesigen, offenen Datensatz. Aber das ist nur der Anfang. Anschließend müssen wir die Daten bereinigen: sie filtern, Duplikate löschen und problematische Inhalte entfernen.
Nicholas Kluge Corrêa: Wir haben gezielt nach Bildungsinhalten gesucht und Metadaten verwendet, um extremistische oder toxische Websites von vornherein auszuschließen. Aber auch wenn wir uns anstrengen, toxische Inhalte aus unseren Datensätzen zu entfernen, ist es fast unmöglich, diese Modelle so zu trainieren, dass sichergestellt ist, dass sie nie potenziell problematische Tendenzen zeigen. Wir versuchen, einige dieser Probleme durch Post-Training und Alignment abzumildern, aber letztlich ist das Entwickeln von Sprachmodellen, die unabhängig vom Kontext ihrer Verwendung fair und unbedenklich sind, ein großes ungelöstes Problem in diesem Bereich.
Worin unterscheidet sich Tucano von kommerziellen Modellen wie ChatGPT?
Nicholas Kluge Corrêa: Tucano ist auf die portugiesische Sprache spezialisiert und der gesamte Trainingsprozess – vom Pre- bis zum Post-Training – wurde ausschließlich in dieser Sprache durchgeführt. Das macht es zu einem sehr schlanken und spezialisierten Modell. Es ist ideal für ressourcenarme Settings, beispielsweise wenn die KI lokal auf Ihrem Smartphone laufen soll. Der bedeutendste Unterschied ist jedoch, dass es wirklich offen ist. Jeder kann reproduzieren, was wir gemacht haben – wir verbergen keine geheimen Quellen.
Sophia Falk: Und wir wollen auf jeden Fall, dass das so bleibt. Was uns antreibt, ist unser Forscherdrang und unser Wunsch, Wissen zu teilen. Daraus ein kommerzielles Produkt zu machen, würde unseren Werten widersprechen.
Wofür stehen die Namen Ihrer Sprachmodelle?
Nicholas Kluge Corrêa: Polyglot bedeutet mehrsprachig, was zu unserem Ziel passt, leistungsstarke Modelle in vielen Sprachen zu entwickeln. Tucano, unser portugiesisches Modell, ist nach dem farbenprächtigen Tukan benannt, einem in Brasilien heimischen Vogel. Wir haben diesen Namen gewählt, weil es mittlerweile fast schon Trend ist, große Sprachmodelle (LLMs) nach Tieren zu benennen. Auch den anderen Modellen werden wir einprägsame Namen geben. Vielleicht möchte uns jemand an der Universität Bonn dabei helfen, ein Modell speziell für Deutsch aufzubauen? Wir freuen uns auch über Hilfe bei der Namenswahl! Also: Wer das liest und bei uns mitmachen möchte, meldet euch gerne. Darüber würden wir uns sehr freuen.
Wie funktioniert die interdisziplinäre Zusammenarbeit in Ihrem Team?
Nicholas Kluge Corrêa: Wir sind nicht nur Kolleginnen und Kollegen – wir sind Freunde. Kennengelernt haben wir uns im Internationalen Club der Universität. Dass jeder von uns einen anderen akademischen Hintergrund hat, hat sich als echter Vorteil erwiesen.
Sophia Falk: Mein Fokus liegt auf der Nachhaltigkeit der KI, deshalb haben wir den Energieverbrauch und die CO₂-Emissionen unserer Trainingsprozesse dokumentiert und große Anstrengungen unternommen, um unseren ökologischen Fußabdruck zu minimieren. Aus diesem Grund haben wir mit kleineren Experimenten an kleineren Modellen angefangen. Die Idee ist, im kleinen Rahmen zu lernen und Fehler zu machen – wenn der energetische Fußabdruck noch nicht so bedeutend ist – und sobald wir ein klares Bild davon haben, was zu tun ist, skalieren wir und nutzen alles, was Marvin zu bieten hat. Mit diesem Motto ist es uns gelungen, den Energie- und CO₂-Fußabdruck unserer Arbeit zu reduzieren.
Aniket Sen: Ich habe meine Erfahrungen im Hochleistungsrechnen eingebracht. Nicholas hatte die Idee für Tucano, und ich dachte sofort daran, Marvin für Polyglot einzusetzen. Ohne den Supercomputer der Universität wäre dieses Projekt nicht möglich gewesen. Wir sind extrem dankbar dafür – denn nicht jede Universität verfügt über eine solche Infrastruktur.
Es muss toll gewesen sein, zusätzliche Rechenkapazitäten und Unterstützung durch die HPC-Experten (Hochleistungsrechen-Experten) zu gewinnen. Wie wurden Sie unterstützt?
Shiza Fatimah: Das Beste war, dass wir genau definieren konnten, wo wir Unterstützung benötigen – von der Optimierung unseres Codes bis hin zu maßgeschneiderten Einzelschulungen. Die Kurse des HRZ-/HPC-Teams zur Arbeit mit Hochleistungsrechner-Clustern waren wirklich hilfreich. Und Jan Steiner vom HPC-Team war einfach fantastisch. Er hat mit uns eine zweitägige Schulung durchgeführt, bei der wir so viel gelernt haben – Wissen, das wir sofort zur Verbesserung unserer Arbeit und unserer Experimente genutzt haben. Außerdem hat er uns durch Marvin geführt, was ein echtes Highlight war. Und was uns besonders freut: Wir werden Jan nächstes Jahr bei unserem Workshop zur Entwicklung von Sprachmodellen als Experte an unserer Seite haben.
Was erhoffen Sie sich für die Zukunft des Polyglot-Projekts?
Nicholas Kluge Corrêa: Mit einer langfristigen Finanzierung könnten wir Polyglot noch mehr Zeit widmen. Dieses Jahr im März haben wir eine Finanzierung über die Deutsche Forschungsgemeinschaft beantragt. Wir hoffen auf eine positive Antwort. Das wäre eine große Sache für uns.
Das Interview führte Evelyn Stolberg.