Artificial Analysis startet mit AA-Briefcase einen Langhorizont-Benchmark
Artificial Analysis hat am 18. Juni AA-Briefcase vorgestellt, einen Benchmark für mehrwöchige Wissensarbeits-Projekte mit vielen verknüpften Teilaufgaben und tausenden Quelldateien. Bewertet werden Rubrik-Passrate, analytische Qualität und Präsentationsqualität in einem kombinierten Elo-Wert. In der eingebetteten Rangliste liegt Claude Fable 5 mit 1587,17 Punkten vor Claude Opus 4.8 mit 1356,01 und GLM-5.2 mit 1265,54; GPT-5.5 steht bei 1158,67. Interessant ist weniger die aktuelle Krone als der Versuch, Agenten endlich an längerer Arbeit statt an Benchmark-Kosmetik zu messen.
Quelle: artificialanalysis.ai
Meta verdoppelt mit SAM 3.1 die Videorate bei mittlerer Objektzahl
Meta positioniert SAM 3.1 als Drop-in-Ersatz für SAM 3 und führt dafür Objekt-Multiplexing ein. Das Modell kann bis zu 16 Objekte in einem einzigen Forward Pass verfolgen und hebt den Durchsatz laut Meta auf einer einzelnen H100-GPU von 16 auf 32 Frames pro Sekunde. Der Gewinn kommt aus globalem Reasoning über mehrere Objekte statt aus separaten Läufen pro Ziel. Das ist keine Chatbot-Meldung, aber genau die Art nüchterner Effizienzarbeit, aus der später echte Produkte werden.
Quelle: ai.meta.com