
Kubernetes still standing
About this event
Dieses Mal treffen wir uns nicht in einem klassischen Eventspace, sondern im Digital Retro Park in Offenbach.
JAAAA OFFENBACH!!!!
Der Retro Park ist ein gemeinnütziger Verein und Museum für Computergeschichte. Zwischen alten Heimcomputern, Konsolen und anderer historischer Hardware machen wir einen kleinen Stilbruch und reden über Kubernetes, Cloud Native und moderne Infrastruktur.
Hier ist es dann so, dass ne Spende nice wäre bzw. Getränkekauf (bitte Kleingeld mitbringen).
So kommt man hin: https://www.digitalretropark.net/digital-retro-park/anfahrt/
Agenda:
• 18:30 Ankommen und Networking
• 19:00 Talk 1: Stefan Schimanski: Von Claw64 zum LLM
• 20:00 Pause
• 20:30 Talk 2: Christopher Haar: Dein Prompt trifft den falschen Pod. 96.000 Tokens. Und Nochmal von vorne
Abstract 1: Stefan Schimanski: Von Claw64 zum LLM
Wie LLMs funktionieren und wo Kubernetes ins Spiel kommt
Ein Commodore 64 mit 64 KB RAM, den ein LLM zum Leben erweckt — das Projekt Claw64 macht das tatsächlich: Der C64 wird zum autonomen Agenten, der selbstständig BASIC-Programme schreibt und ausführt. Aber was passiert eigentlich in einem Large Language Model? Dieser Talk startet beim C64, taucht dann tief ein in die Architektur eines GPT-2-Modells — Tokens, Embeddings, Attention, Positional Encoding, Backpropagation — und zeigt, warum ein Modell überhaupt lernen kann, wie man es trainiert und wie Inferenz funktioniert. Am Ende der Ausblick zurück in die Cloud-Native-Welt: Wie bringt man so ein Modell eigentlich zum Laufen, und was hat Kubernetes damit zu tun?
Abstract 2: Christopher Haar: Dein Prompt trifft den falschen Pod. 96.000 Tokens. Und Nochmal von vorne
Jetzt kommt der Teil den Kubernetes nicht kennt.
Ein LLM ist kein Webservice. Aber wir deployen es wie einen? Round-Robin Load Balancer. Standard HPA. Kein Konzept von State, Cache, oder davon dass Turn 10 eines Gesprächs 96.000 Tokens mitschleppt, von denen 20 neu sind.
Das Ergebnis: die GPU berechnet was sie schon berechnet hat. Jedes Mal. 5 Sekunden Time to First Token statt 50ms.
Dieser Talk zeigt die Reise vom Prompt bis in die GPU, was auf jedem Layer passiert, wo es bricht, und welches Open-Source Tool es auf welchem Layer fixt.
vLLM, llm-d, AIBrix, Dynamo, KServe
Engine. Routing. Cluster. Control Plane.
Ein Layer nach dem anderen.
Source: meetup