Brainberg
Kubernetes still standing
Cloud & DevOpsMeetupFree

Kubernetes still standing

Tue 5 May · 16:30
Offenbach am Main, 🇩🇪 Germany
< 50 attendees
Digital Retro Park · Frankfurter Str. 13-15 (Walter-Passage)

About this event

Dieses Mal treffen wir uns nicht in einem klassischen Eventspace, sondern im Digital Retro Park in Offenbach.

JAAAA OFFENBACH!!!!

Der Retro Park ist ein gemeinnütziger Verein und Museum für Computergeschichte. Zwischen alten Heimcomputern, Konsolen und anderer historischer Hardware machen wir einen kleinen Stilbruch und reden über Kubernetes, Cloud Native und moderne Infrastruktur.
Hier ist es dann so, dass ne Spende nice wäre bzw. Getränkekauf (bitte Kleingeld mitbringen).

So kommt man hin: https://www.digitalretropark.net/digital-retro-park/anfahrt/

Agenda:
​•⁠ ⁠18:30 Ankommen und Networking
​•⁠ ⁠19:00 Talk 1: Stefan Schimanski: Von Claw64 zum LLM
​•⁠ ⁠20:00 Pause
​•⁠ ⁠20:30 Talk 2: Christopher Haar: Dein Prompt trifft den falschen Pod. 96.000 Tokens. Und Nochmal von vorne

Abstract 1: Stefan Schimanski: Von Claw64 zum LLM

Wie LLMs funktionieren und wo Kubernetes ins Spiel kommt
​Ein Commodore 64 mit 64 KB RAM, den ein LLM zum Leben erweckt — das Projekt Claw64 macht das tatsächlich: Der C64 wird zum autonomen Agenten, der selbstständig BASIC-Programme schreibt und ausführt. Aber was passiert eigentlich in einem Large Language Model? Dieser Talk startet beim C64, taucht dann tief ein in die Architektur eines GPT-2-Modells — Tokens, Embeddings, Attention, Positional Encoding, Backpropagation — und zeigt, warum ein Modell überhaupt lernen kann, wie man es trainiert und wie Inferenz funktioniert. Am Ende der Ausblick zurück in die Cloud-Native-Welt: Wie bringt man so ein Modell eigentlich zum Laufen, und was hat Kubernetes damit zu tun?

Abstract 2: Christopher Haar: Dein Prompt trifft den falschen Pod. 96.000 Tokens. Und Nochmal von vorne

Jetzt kommt der Teil den Kubernetes nicht kennt.
Ein LLM ist kein Webservice. Aber wir deployen es wie einen? Round-Robin Load Balancer. Standard HPA. Kein Konzept von State, Cache, oder davon dass Turn 10 eines Gesprächs 96.000 Tokens mitschleppt, von denen 20 neu sind.
Das Ergebnis: die GPU berechnet was sie schon berechnet hat. Jedes Mal. 5 Sekunden Time to First Token statt 50ms.
Dieser Talk zeigt die Reise vom Prompt bis in die GPU, was auf jedem Layer passiert, wo es bricht, und welches Open-Source Tool es auf welchem Layer fixt.
vLLM, llm-d, AIBrix, Dynamo, KServe
Engine. Routing. Cluster. Control Plane.
Ein Layer nach dem anderen.

Source: meetup