10. Oktober 2025

KI- Chatbots für alle Sprachen Projekt Polyglot: Vier junge Forschende entwickeln an der Universität Bonn Open-Source-Sprachmodelle

Projekt Polyglot: Vier junge Forschende entwickeln an der Universität Bonn Open-Source-Sprachmodelle

Mit der Power unseres Supercomputers Marvin wurden bereits zahlreiche Projekte realisiert. Sieben davon, die aufgrund ihrer herausragenden Ergebnisse ausgewählt wurden, nahmen im März 2025 an einem universitätsweiten Wettbewerb teil – anlässlich des ersten Geburtstags von Marvin. Der Hauptpreis: exklusive Unterstützung durch das High-Performance-Computing-Team (Hochleistungsrechnen) zur Weiterentwicklung ihrer Forschung. Der erste Platz ging an Tucano, eine Art ChatGPT für Portugiesisch, das bereits Anfang des Jahres Fördermittel vom Transdisziplinären Forschungsbereich (TRA) „Sustainable Futures“ erhalten hatte. Die Entwickler von Tucano kommen aus verschiedenen Disziplinen und Ländern: Dr. Nicholas Kluge Corrêa (Philosophie, Brasilien), Aniket Sen (Physik, Indien), Shiza Fatimah (Informatik, Indien) und Sophia Falk (Umweltwissenschaften, Deutschland). Die vier Forschenden arbeiten nicht nur zusammen, sondern sind auch enge Freunde, die eine klare Vision teilen: Sprach-KI muss offen, ethisch und – was in Zukunft am wichtigsten ist – für mehr Sprachen verfügbar sein, insbesondere diejenigen, die im Netz unterrepräsentiert sind. Die Herausforderung: Im Gegensatz zum Englischen fehlen für diese Sprachen oft die großen, hochwertigen Datensätze, die für das Training von Sprachmodellen benötigt werden. In diesem Interview spricht das Team über sein Polyglot-Projekt, darüber, was es in den letzten Monaten gelernt hat und seine Hoffnungen für die Zukunft.

Über die Erstplatzierung beim Marvin-Wettbewerb freuten sich (von links): Dr. Nicolas Kluge Corrêa, Aniket Sen, Shiza Fatimah und Sophia Falk, die mit „Tucano: Advancing Neural Text Generation for Portuguese“ ins Rennen gingen. Foto: Barbara Frommann / Uni Bonn
Über die Erstplatzierung beim Marvin-Wettbewerb freuten sich (von links): Dr. Nicolas Kluge Corrêa, Aniket Sen, Shiza Fatimah und Sophia Falk, die mit „Tucano: Advancing Neural Text Generation for Portuguese“ ins Rennen gingen. Foto: Barbara Frommann / Uni Bonn © Volker Lannert / Uni Bonn
Alle Bilder in Originalgröße herunterladen Der Abdruck im Zusammenhang mit der Nachricht ist kostenlos, dabei ist der angegebene Bildautor zu nennen.
Bitte füllen Sie dieses Feld mit dem im Platzhalter angegebenen Beispielformat aus.
Die Telefonnummer wird gemäß der DSGVO verarbeitet.

Was ist passiert, seit Sie den ersten Platz im Wettbewerb der Universität zum Geburtstag von Marvin, unserem HPC-Supercomputer, gewonnen haben?

Nicholas Kluge Corrêa: Dieses Jahr war voller Meilensteine. Zu Beginn des Jahres haben wir Mittel vom Transdisziplinären Forschungsbereich (TRA) „Sustainable Futures“ erhalten, im März beim Marvin-Wettbewerb Experten-Unterstützung sowie zusätzliche Rechenkapazitäten gewonnen und im Sommer einen Artikel über Tucano veröffentlicht. Als Brasilianer habe ich gesehen, dass Sprachmodelle wie ChatGPT auf Englisch viel besser als in vielen anderen Sprachen funktionieren – einfach, weil es so viel mehr qualitativ hochwertige englische Trainingsdaten gibt. Mit Tucano wollte ich den Grundstein für ein starkes portugiesisches Sprachmodell legen. Es war unser Pilotprojekt.

Wie sehen Ihre nächsten Schritte aus?

Nicholas Kluge Corrêa: Unter dem Namen Polyglot wollen wir an das anknüpfen, was wir mit Tucano erreicht haben, und es für viele weitere Sprachen verfügbar machen. Im März 2026 planen wir einen viertägigen Workshop in Zusammenarbeit mit den Fachbereichen IT und Informatik der Universität. Die Forschenden der Uni werden die Möglichkeit haben, zu lernen, wie man große Sprachmodelle für sogenannte „ressourcenarme Sprachen“ erstellt. Wir haben auch damit begonnen, an Modellen für Bengali und Hindi zu arbeiten – was natürlich mit dem Background von Shiza und Aniket zusammenhängt.


Wie weit sind Sie mit diesen neuen Modellen?

Shiza Fatimah: Wir haben unsere Trainingskorpora zusammengestellt und stehen kurz davor, mit dem Training zu beginnen. Wir haben auch mehr Daten zu Tucano hinzugefügt. Für das erste Training hatten wir 200 Milliarden Token – das ist sehr viel für Portugiesisch. Seither haben wir weitere 100 Milliarden Token gesammelt, so dass unser Datensatz in nur einem Jahr um rund ein Drittel gewachsen ist. Für Bengali haben wir 20 Milliarden Token und für Hindi 80 Milliarden. In Anbetracht der Menge an Menschen, die diese Sprachen sprechen, mag das überraschend klingen, aber das ist die Realität der Datenlage.

Aber wenn mehr Menschen eine Sprache sprechen, sollte es dann nicht auch mehr Texte online geben?

Aniket Sen: Das könnte man meinen, aber so ist es nicht. Brasilianerinnen und Brasilianer nutzen das Internet aktiv und produzieren viel Content auf Portugiesisch, wodurch wir eine solide Grundlage erhalten, auf der wir aufbauen können. Aber in anderen Sprachen, insbesondere in postkolonialen Kontexten, wie bei Indien, sieht es anders aus. Viele Texte in Bengali und Hindi sind mit Englisch vermischt, und Materialien hoher Qualität, die sich für das KI-Training eignen, werden – insbesondere im akademischen Bereich – häufig direkt auf Englisch verfasst. Das macht es unglaublich schwer, saubere, verwendbare Daten zu sammeln. Darin besteht unsere größte Herausforderung: Unterrepräsentierte Sprachen haben einfach nicht genug digitale Präsenz im Internet.

Wie haben Sie die portugiesischen Trainingsdaten für Tucano ausgewählt? Woher stammen sie?

Aniket Sen: Der Großteil stammt von Common Crawl, einer gemeinnützigen Organisation, die systematisch Webinhalte sammelt und die Daten öffentlich zugänglich macht. Es handelt sich um einen riesigen, offenen Datensatz. Aber das ist nur der Anfang. Anschließend müssen wir die Daten bereinigen: sie filtern, Duplikate löschen und problematische Inhalte entfernen.

Nicholas Kluge Corrêa: Wir haben gezielt nach Bildungsinhalten gesucht und Metadaten verwendet, um extremistische oder toxische Websites von vornherein auszuschließen. Aber auch wenn wir uns anstrengen, toxische Inhalte aus unseren Datensätzen zu entfernen, ist es fast unmöglich, diese Modelle so zu trainieren, dass sichergestellt ist, dass sie nie potenziell problematische Tendenzen zeigen. Wir versuchen, einige dieser Probleme durch Post-Training und Alignment abzumildern, aber letztlich ist das Entwickeln von Sprachmodellen, die unabhängig vom Kontext ihrer Verwendung fair und unbedenklich sind, ein großes ungelöstes Problem in diesem Bereich.

Worin unterscheidet sich Tucano von kommerziellen Modellen wie ChatGPT?

Nicholas Kluge Corrêa: Tucano ist auf die portugiesische Sprache spezialisiert und der gesamte Trainingsprozess – vom Pre- bis zum Post-Training – wurde ausschließlich in dieser Sprache durchgeführt. Das macht es zu einem sehr schlanken und spezialisierten Modell. Es ist ideal für ressourcenarme Settings, beispielsweise wenn die KI lokal auf Ihrem Smartphone laufen soll. Der bedeutendste Unterschied ist jedoch, dass es wirklich offen ist. Jeder kann reproduzieren, was wir gemacht haben – wir verbergen keine geheimen Quellen.

Sophia Falk: Und wir wollen auf jeden Fall, dass das so bleibt. Was uns antreibt, ist unser Forscherdrang und unser Wunsch, Wissen zu teilen. Daraus ein kommerzielles Produkt zu machen, würde unseren Werten widersprechen.

Wofür stehen die Namen Ihrer Sprachmodelle?

Nicholas Kluge Corrêa: Polyglot bedeutet mehrsprachig, was zu unserem Ziel passt, leistungsstarke Modelle in vielen Sprachen zu entwickeln. Tucano, unser portugiesisches Modell, ist nach dem farbenprächtigen Tukan benannt, einem in Brasilien heimischen Vogel. Wir haben diesen Namen gewählt, weil es mittlerweile fast schon Trend ist, große Sprachmodelle (LLMs) nach Tieren zu benennen. Auch den anderen Modellen werden wir einprägsame Namen geben. Vielleicht möchte uns jemand an der Universität Bonn dabei helfen, ein Modell speziell für Deutsch aufzubauen? Wir freuen uns auch über Hilfe bei der Namenswahl! Also: Wer das liest und bei uns mitmachen möchte, meldet euch gerne. Darüber würden wir uns sehr freuen.

Wie funktioniert die interdisziplinäre Zusammenarbeit in Ihrem Team?

Nicholas Kluge Corrêa: Wir sind nicht nur Kolleginnen und Kollegen – wir sind Freunde. Kennengelernt haben wir uns im Internationalen Club der Universität. Dass jeder von uns einen anderen akademischen Hintergrund hat, hat sich als echter Vorteil erwiesen.

Sophia Falk: Mein Fokus liegt auf der Nachhaltigkeit der KI, deshalb haben wir den Energieverbrauch und die CO₂-Emissionen unserer Trainingsprozesse dokumentiert und große Anstrengungen unternommen, um unseren ökologischen Fußabdruck zu minimieren. Aus diesem Grund haben wir mit kleineren Experimenten an kleineren Modellen angefangen. Die Idee ist, im kleinen Rahmen zu lernen und Fehler zu machen – wenn der energetische Fußabdruck noch nicht so bedeutend ist – und sobald wir ein klares Bild davon haben, was zu tun ist, skalieren wir und nutzen alles, was Marvin zu bieten hat. Mit diesem Motto ist es uns gelungen, den Energie- und CO₂-Fußabdruck unserer Arbeit zu reduzieren.

Aniket Sen: Ich habe meine Erfahrungen im Hochleistungsrechnen eingebracht. Nicholas hatte die Idee für Tucano, und ich dachte sofort daran, Marvin für Polyglot einzusetzen. Ohne den Supercomputer der Universität wäre dieses Projekt nicht möglich gewesen. Wir sind extrem dankbar dafür – denn nicht jede Universität verfügt über eine solche Infrastruktur.

Es muss toll gewesen sein, zusätzliche Rechenkapazitäten und Unterstützung durch die HPC-Experten (Hochleistungsrechen-Experten) zu gewinnen. Wie wurden Sie unterstützt?

Shiza Fatimah: Das Beste war, dass wir genau definieren konnten, wo wir Unterstützung benötigen – von der Optimierung unseres Codes bis hin zu maßgeschneiderten Einzelschulungen. Die Kurse des HRZ-/HPC-Teams zur Arbeit mit Hochleistungsrechner-Clustern waren wirklich hilfreich. Und Jan Steiner vom HPC-Team war einfach fantastisch. Er hat mit uns eine zweitägige Schulung durchgeführt, bei der wir so viel gelernt haben – Wissen, das wir sofort zur Verbesserung unserer Arbeit und unserer Experimente genutzt haben. Außerdem hat er uns durch Marvin geführt, was ein echtes Highlight war. Und was uns besonders freut: Wir werden Jan nächstes Jahr bei unserem Workshop zur Entwicklung von Sprachmodellen als Experte an unserer Seite haben.


Was erhoffen Sie sich für die Zukunft des Polyglot-Projekts?

Nicholas Kluge Corrêa: Mit einer langfristigen Finanzierung könnten wir Polyglot noch mehr Zeit widmen. Dieses Jahr im März haben wir eine Finanzierung über die Deutsche Forschungsgemeinschaft beantragt. Wir hoffen auf eine positive Antwort. Das wäre eine große Sache für uns.
Das Interview führte Evelyn Stolberg.

Wird geladen