Artificial Analysis startet AA-Briefcase für Langhorizont-Wissensarbeit
Artificial Analysis bewirbt AA-Briefcase als proprietären Benchmark für „long-horizon knowledge work“, also längere Wissensarbeits-Aufgaben statt einzelner Quizfragen. Das ist relevant, weil klassische LLM-Leaderboards oft kurze, isolierte Aufgaben messen und dadurch Agenten- sowie Recherchefähigkeit nur schlecht abbilden. Für API- und Agenten-Auswahl ist so ein Benchmark interessanter als noch ein MMLU-Kommawert, sofern Methodik und Aufgaben transparent genug sind.
Quelle: artificialanalysis.ai
Hugging Face Papers listet S-Agent für räumliches Tool-Use-Reasoning
Hugging Face Papers führt „S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence“ als aktuellen Paper-Kandidaten. Der Titel deutet auf räumliche Intelligenz durch Werkzeugnutzung hin, also auf ein Feld, in dem Sprachmodelle traditionell schwächeln: Geometrie, Raumbezug und visuelles Planen. Für Benchmarks ist das relevant, weil solche Aufgaben weniger durch Text-Musterlernen lösbar sind als reine Wissensfragen.
Quelle: huggingface.co
arXiv: LLM-Bias durch stochastische Pfadaggregation sichtbar machen
arXiv cs.CL listet „Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation“. Das Paper adressiert ein praktisches Evaluationsproblem: LLM-Bias ist wegen der Zufälligkeit von Textausgaben schwer zu messen, wenn man nur eine einzelne Antwort betrachtet. Der Ansatz versucht, viele mögliche Antwortpfade zusammenzuführen und dadurch versteckte Muster sichtbarer zu machen.
Quelle: arxiv.org