DeepSeek hat am 8. April heimlich drei Modus-Testmodi geschoben: Schnell, Experte, visuell – dreifache Aufteilung nach Bedarf, von der Community als letzter Warm-up vor dem offiziellen Go-live von V4 angesehen.
(Hintergrund: DeepSeek V4 lehnt NVIDIA ab und sucht stattdessen Huawei! Alibaba, ByteDance, Tencent – alle springen auf und wollen den Ascend 950PR-Chip kaufen)
(Zusatz-Hintergrund: DeepSeek V4 kündigt an, auf NVIDIA zu verzichten! Wie weit ist der Ausbruchskampf der chinesischen KI „Rechenleistung unabhängig“ – wohin führt er?)
Inhaltsverzeichnis
Umschalten
Am frühen Morgen des 8. April hat DeepSeek seine Website und App synchron mit einem Update versorgt; die Oberfläche wurde in drei Modus-Optionen umgestellt. Das ist kein vollständig abgeschlossenes offizielles Go-live, sondern ein Vorabtest für einen Teil der Nutzer – doch kaum war die Nachricht draußen, verband die Community sie sofort mit dem Veröffentlichungszeitplan von V4.
Die Aufgabenteilung der drei Modi ist recht eindeutig:
Schnellmodus (Fast Mode) ist die Standardoption. Er ist für Alltagsgespräche und sofortige Antworten ausgelegt; er nutzt ein leichtgewichtiges, niedrig latentes Modell. Es gibt keine Beschränkung nach Nutzungslimits, aber bei Anhängen wird nur Texteingabe unterstützt – keine Verarbeitung von Bildern oder Sprache.
Expertenmodus (Expert Mode) ist für komplexe Aufgaben mit tiefgreifendem Schlussfolgern positioniert. Er unterstützt einen Modus für tiefes Nachdenken; Community-Tests zeigen, dass ein einzelner Denkvorgang über 500 Sekunden auslösen kann. In Spitzenzeiten muss man warten, und auch hier werden keine Anhänge sowie kein Hochladen von Sprache unterstützt. Derzeit befindet er sich noch in der Testphase und ist noch nicht für alle Nutzer freigegeben.
Visueller Modus (Vision Mode) ist der bedeutungsvollste von den dreien im Sinne von Symbolik. Das ist das erste Mal, dass DeepSeek auf der Endverbraucher-Seite offiziell visuelle Eingaben unterstützt. Die Multi-Modal-Fähigkeit ist damit nicht mehr nur eine technische Option auf der API-Ebene, sondern direkt an allgemeine Nutzer gerichtet.
Die Gesamtlogik lautet: Den Rechenleistungsverbrauch nach Aufgabentyp aufteilen. Häufige, geringe Anforderungen laufen über den schnellen Kanal, rechenintensive Schlussfolgerungen über den Expertenkanal, und Eingaben aus Text und Bild über den visuellen Kanal. Diese Designidee selbst ist nicht neu – aber DeepSeek ist als eines der führenden Modelle in China das erste, das so etwas im Bereich der Consumer-Produkte umsetzt.
Die Diskussionen der Community über diesen Test konzentrierten sich schon bald auf einen technischen Knackpunkt.
Ein Teil der Testnutzer stellte fest, dass die Antwortqualität im Expertenmodus im Vergleich zum Schnellmodus nur geringfügig besser ist; der Unterschied ist nicht so groß wie erwartet. Noch entscheidender: Einige Nutzer fragten das Modell direkt selbst, und die Antwort lautete: Die beiden Modi nutzen die gleiche zugrunde liegende Architektur, der Unterschied kommt hauptsächlich von der Anpassung des system prompt.
Wenn das stimmt, ist das „Expert-Modus“-Wesen eher mit einem fein abgestimmten System-Prompt vergleichbar – statt mit einem eigenständigen Schlussfolgerungsmodell.
DeepSeek hat diese Kritik nicht offiziell beantwortet. Aus externer Perspektive gibt es zwei mögliche Deutungen: Erstens könnte es sich nur um eine temporäre Konfiguration in der Graustufenphase handeln, und die eigentliche Modellschichtung wird erst nach dem Go-live von V4 aktiviert; zweitens ist das Ziel des Schichtdesigns von Anfang an nicht ein Umschalten auf Modellenebene, sondern es geht darum, den Rechenleistungsverbrauch über unterschiedliche Schlussfolgerungsbudgets und Systemkonfigurationen zu steuern, sodass mehr Nutzer gleichzeitig nutzen können.
Die Drei-Modus-Oberfläche selbst ist zwar ein Upgrade auf der Ebene der Nutzererfahrung. Doch die V4, an die sie im Hintergrund gekoppelt ist, ist das eigentliche Gewicht in diesem Update.
Das DeepSeek-Team hat bestätigt, dass V4 auf den April verschoben wird; Hauptgrund ist die tiefgehende Anpassungsarbeit an Huawei Ascend-Chips. Die bekannten technischen Spezifikationen sind ziemlich ambitioniert: 8B Parameter, SWE-bench-Codierungstest mit 81% Durchlaufquote, ein API-Preis von $0.30/MTok sowie eine selbst entwickelte Langzeitgedächtnis-Technologie namens Engram: ein bedingungsbasiertes Gedächtnismechanismus, der es dem Modell ermöglicht, über Dialoge hinweg die Nutzerpräferenzen und den Kontext beizubehalten.
Doch das, was bei V4 am meisten beobachtet werden sollte, ist die Auswahl der Rechenleistungsbasis.
Wenn V4 wirklich vollständig auf heimischen Chips wie Huawei Ascend und Cambricon usw. umgesetzt wird, dann wäre es die erste Mainstream-Großmodell-Variante, die in der Consumer-Endanwendung skaliert und dabei vollständig an NVIDIAs CUDA-Ökosystem vorbeigeht (wobei wir wissen, dass zahlreiche NVIDIA-Chips über Schmuggel in China gelangen, sodass die tatsächliche Lage im Hintergrund noch komplexer ist).