Mehragenten-Workflow für Videoanalyse: Strands Agents, Llama 4 und Amazon Bedrock In diesem Beitrag zeigen wir, wie man mit Strands Agents, den neuesten Llama 4-Modellen von Meta und Amazon Bedrock einen automatisierten Multi‑Agenten‑Workflow für die Videoanalyse erstellt. Durch die Kombination spezialisierter KI‑Agenten, die in enger Koordination arbeiten, lässt sich Videoinhalt effizient analysieren und verstehen. AWS – Machine Learning Blog 21.01.2026 17:47
CLOP: Neue semi-supervised Kontrastive Lernmethode verhindert dimensionalen Kollaps Kontrastives Lernen hat sich als äußerst wirkungsvolle Technik im Deep Learning etabliert, indem es durch Gegenüberstellung von Proben aus unterschiedlichen Verteilungen robuste Repräsentationen erzeugt. Ein häufig auftretendes Problem ist der sogenannte dimensional collapse, bei dem die Embeddings in einen niedrigdimensionalen Raum zusammenfallen und dadurch die Modellleistung stark beeinträchtigt wird. arXiv – cs.LG 10.12.2025 05:00
YOLOv1 im Detail: Von der Idee zur ersten Weltansicht Der Artikel bietet einen umfassenden Einblick in die Architektur von YOLOv1 und zeigt Schritt für Schritt, wie man die komplette Implementierung in PyTorch von Grund auf neu erstellt. Dabei wird die ursprüngliche Idee des Papers – die Erkennung von Objekten in einem einzigen Durchlauf – detailliert erläutert. Towards Data Science 05.12.2025 14:00
FairMT: Gleichberechtigte Multi-Task-Lernmodelle für heterogene Aufgaben In der Welt des maschinellen Lernens wurde Fairness bislang vorwiegend in Einzeltask-Umgebungen untersucht. Das Feld des fairen Multi-Task-Learnings (MTL), insbesondere bei heterogenen Aufgaben wie Klassifikation, Objekterkennung und Regression sowie bei teilweise fehlenden Labels, blieb lange Zeit weitgehend unerforscht. arXiv – cs.LG 02.12.2025 05:00
Laplace trifft Gaussian: Die Rolle zweier Operatoren in der Kantenerkennung In der neuesten Ausgabe von Towards Data Science wird die Kombination der Laplace- und Gaussian-Operatoren detailliert erklärt. Der Artikel zeigt, wie der Laplace-Operator, der die zweite Ableitung eines Bildes berechnet, zusammen mit der Gaussian-Glättung, die Rauschen reduziert, die Kanten in digitalen Bildern präzise hervorhebt. Towards Data Science 12.11.2025 12:30
Kalibrierung des Lehrermodells steigert die Leistung bei Knowledge Distillation In der aktuellen Forschung zur Modellkompression hat sich Knowledge Distillation (KD) als äußerst wirkungsvolle Methode etabliert. Dabei überträgt ein großes Lehrermodell sein Wissen an ein kompakteres Schülermodell. Trotz der bisherigen Erfolge bleibt die Frage offen, welche Faktoren die Effektivität von KD maßgeblich beeinflussen. arXiv – cs.AI 29.08.2025 05:00
Neue Vision‑Language‑Modelle revolutionieren Objekterkennung Eine aktuelle Übersicht aus dem arXiv‑Repository beleuchtet, wie große Vision‑Language‑Modelle (LVLMs) die Objekterkennung neu definieren. Durch die Kombination von natürlicher Sprachverarbeitung und Bildverarbeitung ermöglichen diese Modelle eine vielschichtige Kontextualisierung, die traditionelle Deep‑Learning‑Architekturen übertrifft. arXiv – cs.AI 28.08.2025 05:00
Roboter erkennt Nutzerabsicht dank Vision‑Language‑Modellen Die Zusammenarbeit zwischen Mensch und Roboter verlangt, dass der Roboter die Absicht des Nutzers sofort erkennt, seine Entscheidungen nachvollziehbar macht und bei der Zielerreichung hilft. Unser neues Framework GUIDER erfüllt genau diese Anforderungen, indem es Navigations‑ und Manipulationsabsichten aus dem Kontext des Benutzers ableitet. arXiv – cs.AI 18.08.2025 05:00