06. März 2026

Forschende entwickeln ein ChatGPT für Portugiesisch Forschende entwickeln ein ChatGPT für Portugiesisch

+++FORSCHUNGSTICKER UNI BONN: neuronale Texterzeugung+++

Große Sprachmodelle wie ChatGPT sind auf Portugiesisch deutlich weniger leistungsfähig als in Englisch – obwohl beide Sprachen weltweit verbreitet sind. Diese Lücke ist nun mit „GigaVerbo“ geschlossen. Das Team um Dr. Nicholas Kluge Correa vom Center for Science and Thought der Universität Bonn stellt das Projekt nun im Journal „Patterns“ vor. Die Forschenden nutzten hierfür als eine der ersten den neuen Supercomputer „Marvin“ der Bonner Uni. Nicholas Kluge Correa und sein Kollege Aniket Sen sind beide Mitglieder im Transdisziplinären Forschungsbereich „Sustainable Futures“ der Universität Bonn.

Team Tucano (von links): - Dr. Nicholas Kluge Correa, Dr. Aniket Sen, Shiza Fatimah und Sophia Falk belegten den ersten Platz bei der "most interesting results competition", der im Rahmen der Veranstaltung zum ersten Geburtstag des Supercomputers Marvin an der Universität Bonn verliehen wurde. Die Veranstaltung "Marvin's 1st Anniversary: 365 Days of Supercomputing" wurde am 25. März 2025 vom HPC Team des Hochschulrechenzentrums, dem HPC/A Lab und der TRA Modelling gemeinsam organisiert. © Foto: Barbara Frommann/Uni Bonn

Alle Bilder in Originalgröße herunterladen Der Abdruck im Zusammenhang mit der Nachricht ist kostenlos, dabei ist der angegebene Bildautor zu nennen.

UM WAS GEHT ES?
GigaVerbo ist der Name des Datensatzes, den die Forschenden erstellt haben. Das Projekt „Tucano: Advancing Neural Text Generation for Portuguese“ zielt darauf ab, die Ressourcenlücke in der portugiesischen natürlichen Sprachverarbeitung (NLP) zu schließen, indem es hochwertige Datensätze und hochmoderne Sprachmodelle bereitstellt, die speziell auf Portugiesisch zugeschnitten sind. Die Erstellung und Freigabe des GigaVerbo-Korpus mit 200 Milliarden deduplizierten Token und der Tucano-Modellfamilie soll vollständig offen und in reproduzierbarer Weise Fortschritte bei der neuronalen Texterzeugung fördern und einen gleichberechtigten Zugang unterstützen.

WIE SIND SIE VORGEGANGEN?
Die Forschenden haben portugiesische Korpora aus verschiedenen Quellen zusammengestellt, um eine hohe sprachliche Vielfalt und Qualität zu gewährleisten. Diese Korpora wurden dann dedupliziert und gefiltert, um den GigaVerbo-Datensatz zu bilden. Anhand dieses Datensatzes trainierten sie auf dem Marvin-Supercomputer mehrere Decoder-Modelle, die strengen Bewertungs- und Optimierungszyklen folgten.

WELCHE LÜCKE FÜLLT DAS PROJEKT?
Das Projekt schließt zwei große Lücken: Erstens: Das Fehlen von umfangreichen Open-Source-Ressourcen für Portugiesisch, eine Sprache, die oft im Schatten von Sprachen mit großen Ressourcen wie Englisch steht. Zweitens: Das Fehlen von Open-Source-LLM-Entwicklung, was die wissenschaftliche Reproduzierbarkeit dieser Modelle behindert.

WIE HABEN SIE DEN SUPERCOMPUTER MARVIN GENUTZT?
Der Marvin-Cluster war entscheidend für das Training der Tucano-Modelle. Wir nutzten seine leistungsstarken Rechenkapazitäten, um den großen GigaVerbo-Datensatz effizient zu verarbeiten, Transformationsmodelle zu trainieren und umfangreiche Evaluierungen mit mehreren Benchmarks durchzuführen.

WAS IST DER NÄCHSTE SCHRITT?
Die Forschenden arbeiten daran, ihre Entwicklungen zu skalieren, ihren Datensatz zu verbessern und größere Modelle zu trainieren. Außerdem entwickeln sie Grundlagen für andere Sprachen mit geringen Ressourcen, wie Bengali und Hindi.

WER WAR AN DEM PROJEKT BETEILIGT?
Nicholas Kluge Correa (Center for Science and Thought), Aniket Sen (High Performance Computing and Analytics Lab und Helmholtz-Institut für Strahlen- und Kernphysik), Sophia Falk (Institute for Science and Ethics) und Shiza Fatimah (Institute for Computer Science).

WIE LAUTET DIE QUELLE?
Nicholas Kluge Corrêa, Aniket Sen, Sophia Falk, Shiza Fatimah: Tucano: Advancing Neural Text Generation for Portuguese, Patterns, DOI: 10.1016/j.patter.2025.101325

WO KANN ICH MEHR ERFAHREN?
Dr. Nicholas Kluge Correa, Transdisziplinärer Forschungsbereich „Sustainable Futures“, Institut für Philosophie, Center for Science and Thought, Tel. +49 (0)228/73-54017, E-Mail: kluge@uni-bonn.de, Internet: https://nkluge-correa.github.io/Tucano/

Neu: Tucano 2

Das von TRA Sustainable Futures (Universität Bonn) finanzierte Projekt Polyglot entwickelt offene, effiziente Sprachmodelle für unterversorgte Sprachen. Mit einem Budget von nur 10.000 Euro hat das Team Tucano 2 veröffentlicht, eine Familie von portugiesischen Sprachmodellen (0,5–3,7 Mrd. Parameter), die viel größere mehrsprachige Systeme übertreffen, sowie LilMoo (Hindi) und LilTii (Bengali). Insgesamt hat das Projekt 28 Modelle, mehr als 20 kuratierte Großdatensätze, maßgeschneiderte Bewertungssuiten und vollständige Trainingsrezepte veröffentlicht, die alle unter freizügigen Lizenzen stehen. Vom 10. bis 13. März 2026 veranstaltet das Team den Polyglot-Workshop an der Universität Bonn, bei dem Teilnehmer aus aller Welt lernen, Sprachtechnologien für ihre eigenen Communities zu entwickeln. Weitere Informationen: https://huggingface.co/Polygl0t ; https://huggingface.co/blog/Polygl0t/tucano2 ; https://huggingface.co/blog/Polygl0t/liltii