Echtzeit-Graph-Neuronales Netzwerk für Belle II kombiniert FPGA- und AI-Engines

01.06.2026

Im Rahmen eines gemeinsamen Projekts der Fachbereiche Teilchenphysik und Elektrotechnik des KIT hat ein Studententeam den ersten Beschleuniger für Graph-Neuralnetzwerke in der Teilchenphysik entwickelt, der FPGA- und KI-Engine-Architekturen auf einem einzigen Chip vereint und für die Trigger-Modernisierung von Belle II bestimmt ist.

Ein gemeinsam von einem KIT-Studententeam aus den Bereichen Teilchenphysik (ETP) und Elektrotechnik (ITIV) entwickelter Demonstrator wurde als Finalist für die Reconfigurable Computing Challenge (RCC 2026) ausgewählt, die vom 13. bis 16. Mai 2026 im Rahmen des 34. IEEE International Symposium on Field-Programmable Custom Computing Machines (FCCM) in Atlanta, USA, stattfindet. Teamleiter Marc Neu präsentierte die Arbeit im Rahmen einer Demo Night als Teil des von AMD gesponserten Wettbewerbs. Insgesamt wurden 7 von 30 Teams als Finalisten ausgewählt, um ihre Arbeit persönlich vorzustellen

Das Interesse am Einsatz von Graphen-Neuralnetzwerken in Triggersystemen für Kollisionsversuche wächst, doch die Latenz- und Durchsatzbeschränkungen dieser Systeme erschweren den Einsatz auf eingebetteten Plattformen. Da Detektoren immer feiner auflösend werden, steigt die Anzahl der Eingaben pro Inferenz, und reine FPGA-Implementierungen stoßen an Ressourcenengpässe. Das Team entwickelte einen End-to-End-Demonstrator für den Echtzeit-Einsatz eines dynamischen Graphen-Neuralnetzwerks für den Hardware-Trigger des elektromagnetischen Kalorimeters von Belle II. Das Design zielt auf den AMD Versal VCK190 ab und nutzt sowohl die FPGA-Struktur als auch die AI-Engine-Tiles. Dies ist der erste Beschleuniger für graphische neuronale Netze für Anwendungen in der Teilchenphysik, der den Designraum von Field Programmable Gate Arrays (FPGAs) und Coarse-Grained Reconfigurable Gate Arrays (CGRAs) auf einem einzigen System-on-Chip auslotet. Die Erkundung des Designraums wird durch einen Python-basierten, halbautomatischen Design-Flow ermöglicht, der Operatorfusion, Partitionierung, Mapping, räumliche Parallelisierung und Optimierung auf Kernel-Ebene abdeckt. Auf dem VCK190, einer handelsüblichen System-on-Chip-Plattform, erreicht das Design einen Durchsatz von 2,94 Millionen Ereignissen pro Sekunde bei einer End-to-End-Latenz von 7,15 Mikrosekunden. Im Vergleich zur reinen FPGA-Basislinie entspricht dies einer Durchsatzsteigerung von 53 %, während die DSP-Auslastung von 99 % auf 19 % sinkt, bei einer Auslastung der AI-Engine-Tiles von 29 %. Die Verlagerung rechenintensiver Operationen auf die AI-Engine-Partition ermöglicht eine höhere Parallelisierung und damit einen höheren Durchsatz des gesamten Hardware-Beschleuniger-Designs. Zur Validierung der Implementierung entwickelte das Team eine interaktive Visualisierungspipeline, die die Inferenzergebnisse in Echtzeit auf dem 3D-Display überwacht. Der RCC 2026-Wettbewerb lud zur Einreichung selbst definierter Projekte zu FPGA-, AI-Engine- und NPU-Architekturen ein, die nach technischer Qualität, Innovation, praktischer Relevanz und Präsentation bewertet wurden, wobei von allen Finalisten eine persönliche Demonstration verlangt wurde.

Die Arbeit wurde als Kurzbeitrag in den Tagungsberichten der IEEE FCCM 2026 angenommen und ist auch als Preprint auf arXiv verfügbar.

Kontakt: Prof. Torben Ferber

Bilder vom 34. IEEE International Symposium on FCCMs



