Suche nach Schwierigkeitsgrad

Autokorrelation entscheidet: Minimalmodell erklärt optimale Bandit-Strategien

Hey, ich habe darüber nachgedacht, wie wir unser nächstes Projekt noch ansprechender gestalten könnten. Was wäre, wenn wir interaktive Elem…

arXiv – cs.LG 09.03.2026 04:00

Forschung

<h1>LLMs schätzen Schwierigkeitsgrad von Visualisierungsfragen – GPT‑4.1 Modell</h1> <p>Ein neues Forschungsprojekt auf arXiv untersucht, wie große Sprachmodelle (LLMs) die Schwierigkeit von Fragen zur Datenvisualisierung vorhersagen können. Dabei wird speziell das Modell GPT‑4.1‑nano eingesetzt, um aus dem Text der Frage, den Antwortoptionen und dem zugehörigen Bild Informationen zu extrahieren und daraus die Erfolgsquote bei US‑Erwachsenen zu schätzen.</p> <p>Die Studie vergleicht drei unterschiedliche Fe

arXiv – cs.AI 06.03.2026 05:00

Forschung

Neues ERI-Benchmark: 57.750 Aufgaben für Ingenieur-LLMs

Ein brandneues Benchmark-Dataset namens Engineering Reasoning and Instruction (ERI) wurde veröffentlicht, das speziell dafür entwickelt wur…

arXiv – cs.AI 04.03.2026 05:00

Forschung

CUDABench: Neuer Benchmark für LLMs bei Text-zu-CUDA-Generierung

In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam CUDABench, einen umfassenden Benchmark, der die Fähigkeit von Large L…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

In der Welt der großen Sprachmodelle (LLMs) hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als führendes Verfahren…

arXiv – cs.AI 26.02.2026 05:00

Forschung

INDUCTION: Benchmark für Konzeptsynthese in erster Ordnung

Auf der Plattform arXiv wurde das neue Benchmark-Projekt INDUCTION vorgestellt, das die Synthese von Konzepten in erster Ordnung (First‑Ord…

arXiv – cs.AI 24.02.2026 05:00

Forschung

PBS beschleunigt Sprachmodelltraining: Verlustbasierte Stichprobenpriorisierung

Ein neues Verfahren namens Predictive Batch Scheduling (PBS) verspricht, das Training von Sprachmodellen deutlich zu beschleunigen. Dabei w…

arXiv – cs.AI 20.02.2026 05:00

Forschung

LLM-Prompts: Code komprimiert besser als Mathematik – das Perplexity-Paradox erklärt

Eine neue Studie aus dem arXiv-Repository (2602.15843v1) klärt ein bislang unbestätigtes Phänomen in der Welt der großen Sprachmodelle (LLM…

arXiv – cs.AI 19.02.2026 05:00

Forschung

SeleCom: Query-Conditioned Soft Compression für Retrieval-Augmented Generation

Retrieval-Augmented Generation (RAG) verbindet große Sprachmodelle mit externem Wissen und ist besonders bei Web-basierten Aufgaben beliebt…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Neues Multi-Agent-System revolutioniert Vorhersage biologischer Störungen

Ein brandneues Multi-Agent-System namens PBio-Agent verspricht, die Vorhersage von Genregulationen bei komplexen chemischen Störungen zu re…

arXiv – cs.AI 10.02.2026 05:00

Forschung

GrAlgoBench enthüllt Schwächen großer Rechenmodelle bei Graphenalgorithmen

Ein neues Benchmark-Set namens GrAlgoBench, veröffentlicht auf arXiv (2602.06319v1), richtet sich gezielt an große Rechenmodelle (LRMs) und…

arXiv – cs.AI 09.02.2026 05:00

Forschung

LocationAgent: Hierarchischer Bild-Geolokalisierungsagent mit externer Evidenzprüfung

Die Aufgabe der Bild-Geolokalisierung besteht darin, den Aufnahmeort eines Fotos allein anhand seines visuellen Inhalts zu bestimmen. Dabei…

arXiv – cs.AI 28.01.2026 05:00

Forschung

MathMixup: LLMs verbessern Mathe mit kontrollierter Daten‑Synthese

In der Welt der mathematischen Problemlösung setzen große Sprachmodelle (LLMs) zunehmend auf qualitativ hochwertige Trainingsdaten, die kla…

arXiv – cs.LG 27.01.2026 05:00

Forschung

M3Kang: Neues Mehrsprachiges Datenset für mathematisches Multimodales Denken

Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren beeindruckende Fortschritte bei der Beantwortung komplexer Fragen erzielt, doch…

arXiv – cs.AI 26.01.2026 05:00

Forschung

Neues probabilistisches Interpolationsmodell verbessert GEDI-Biomasse-Kartierung

Die präzise Erfassung von Biomasse über die gesamte Erdoberfläche mithilfe der NASA‑Mission GEDI erfordert die Interpolation von spärlich v…

arXiv – cs.LG 26.01.2026 05:00

Forschung

Selbstentwickelndes Framework verbessert die Erzeugung innovativer Matheaufgaben

Im Bereich der intelligenten Bildung gewinnt die automatische Erzeugung von Matheaufgaben zunehmend an Bedeutung. Durch die rasante Entwick…

arXiv – cs.AI 21.01.2026 05:00

Forschung

MetaDG: Dynamische Graphen revolutionieren Verkehrsflussvorhersagen

Die Vorhersage von Verkehrsflüssen ist ein klassisches Problem der spatio‑temporalen Analyse, das in vielen Bereichen von der Verkehrsplanu…

arXiv – cs.LG 16.01.2026 05:00

Forschung

Neue Studie enthüllt: LLM-Agenten verstehen ihre Welt nicht so gut, wie gedacht

Eine neue Untersuchung aus dem arXiv-Repository hat gezeigt, dass große Sprachmodelle (LLM) zwar beeindruckende Leistungen bei komplexen En…

arXiv – cs.AI 15.01.2026 05:00

Forschung

AIConfigurator: Blitzschnelle LLM-Serving-Optimierung über mehrere Frameworks

Die Optimierung von Large Language Model (LLM)-Inference in Produktionsumgebungen wird immer komplexer. Dynamische Arbeitslasten, strenge L…

arXiv – cs.LG 13.01.2026 05:00

Forschung

TowerMind: Neues Tower-Defense-Umfeld für LLM-Agenten

Mit dem neuen TowerMind-Umfeld eröffnet sich ein vielversprechender Testbereich für große Sprachmodelle (LLMs) als Agenten. Durch die Kombi…

arXiv – cs.AI 12.01.2026 05:00

Forschung

Neues Benchmark 'Needle in the Web' testet LLMs bei unscharfen Web-Suchen

Large Language Models (LLMs) haben sich von einfachen Chatbots zu komplexen Agenten entwickelt, die in der Lage sind, reale Aufgaben zu aut…

arXiv – cs.AI 19.12.2025 05:00

Forschung

TS-DP: Spekulatives Decoding beschleunigt Diffusion-Policy in Echtzeit

Die Diffusion Policy (DP) hat sich als leistungsstarke Methode für die Steuerung von Robotern etabliert, leidet jedoch unter hoher Inferenz…

arXiv – cs.LG 19.12.2025 05:00

Forschung

Mini Amusement Parks: Der neue Test für KI-Entscheidungen im Geschäftsbereich

In einer Zeit, in der künstliche Intelligenz rasant voranschreitet, stoßen aktuelle Systeme noch immer an ihre Grenzen, wenn es um komplexe…

arXiv – cs.AI 21.11.2025 05:00

Forschung

KI-gestützte Codebewertung in CS1: Direkt- vs. Reverse-Ansatz im Vergleich

In Einsteigerkursen der Informatik ist die manuelle Bewertung von Programmieraufgaben oft mühsam und kann zu Inkonsistenzen führen. Während…

arXiv – cs.AI 20.11.2025 05:00

Forschung

Adaptive Learning: Evidenz in gezielte Mikrointerventionen umwandeln

Eine neue Studie aus dem arXiv-Repository zeigt, wie adaptive Lernplattformen Lernfortschritt präzise diagnostizieren und gleichzeitig wirk…

arXiv – cs.AI 19.11.2025 05:00

Forschung

Neuer Ansatz: Problemlösung durch gezielte Datensynthese für große Modelle

In einer wegweisenden Veröffentlichung präsentiert ein Forschungsteam einen innovativen Ansatz zur Datensynthese, der große Rechenmodelle f…

arXiv – cs.AI 14.11.2025 05:00

Forschung

Neues Scaffold-Reasoning-Framework verbessert Code‑Debugging von LLMs

In jüngsten Studien haben große Sprachmodelle (LLMs) beeindruckende Problemlösungsfähigkeiten gezeigt, doch die Frage, wie man die einzelne…

arXiv – cs.AI 12.11.2025 05:00

Forschung

Studie zeigt: Schrittweise Denkprozesse steigern Code‑LLM‑Genauigkeit

Eine neue Untersuchung von Forschern auf arXiv beleuchtet, wie große Sprachmodelle (LLMs) beim Programmieren explizite Zwischenschritte erz…

arXiv – cs.AI 11.11.2025 05:00

Forschung

<p>LLMs zeigen versteckte Vorurteile bei Logikrätseln – neues PRIME-Framework enthüllt Bias</p> <p>Ein neues Evaluationssystem namens PRIME (Puzzle Reasoning for Implicit Biases in Model Evaluation) nutzt Logikrätsel, um subtile soziale Vorurteile in großen Sprachmodellen zu entdecken. Durch die automatische Erstellung und Überprüfung von Rätseln in unterschiedlichen Schwierigkeitsgraden kann PRIME gezielt stereotype, antistereotype und neutrale Varianten erzeugen, die auf einer gemeinsamen Struktur basiere

arXiv – cs.AI 11.11.2025 05:00

Forschung

KI erzeugt kreative Schachrätsel – Experten bewerten ihre Originalität

Die rasante Entwicklung von Generative‑AI wirft wichtige Fragen zur Schaffung kreativer und origineller Inhalte auf. In einer aktuellen Stu…

arXiv – cs.AI 29.10.2025 04:00

Finde Modelle, Firmen und Themen

Autokorrelation entscheidet: Minimalmodell erklärt optimale Bandit-Strategien

Neues ERI-Benchmark: 57.750 Aufgaben für Ingenieur-LLMs

CUDABench: Neuer Benchmark für LLMs bei Text-zu-CUDA-Generierung

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

INDUCTION: Benchmark für Konzeptsynthese in erster Ordnung

PBS beschleunigt Sprachmodelltraining: Verlustbasierte Stichprobenpriorisierung

LLM-Prompts: Code komprimiert besser als Mathematik – das Perplexity-Paradox erklärt

SeleCom: Query-Conditioned Soft Compression für Retrieval-Augmented Generation

Neues Multi-Agent-System revolutioniert Vorhersage biologischer Störungen

GrAlgoBench enthüllt Schwächen großer Rechenmodelle bei Graphenalgorithmen

LocationAgent: Hierarchischer Bild-Geolokalisierungsagent mit externer Evidenzprüfung

MathMixup: LLMs verbessern Mathe mit kontrollierter Daten‑Synthese

M3Kang: Neues Mehrsprachiges Datenset für mathematisches Multimodales Denken

Neues probabilistisches Interpolationsmodell verbessert GEDI-Biomasse-Kartierung

Selbstentwickelndes Framework verbessert die Erzeugung innovativer Matheaufgaben

MetaDG: Dynamische Graphen revolutionieren Verkehrsflussvorhersagen

Neue Studie enthüllt: LLM-Agenten verstehen ihre Welt nicht so gut, wie gedacht

AIConfigurator: Blitzschnelle LLM-Serving-Optimierung über mehrere Frameworks

TowerMind: Neues Tower-Defense-Umfeld für LLM-Agenten

Neues Benchmark 'Needle in the Web' testet LLMs bei unscharfen Web-Suchen

TS-DP: Spekulatives Decoding beschleunigt Diffusion-Policy in Echtzeit

Mini Amusement Parks: Der neue Test für KI-Entscheidungen im Geschäftsbereich

KI-gestützte Codebewertung in CS1: Direkt- vs. Reverse-Ansatz im Vergleich

Adaptive Learning: Evidenz in gezielte Mikrointerventionen umwandeln

Neuer Ansatz: Problemlösung durch gezielte Datensynthese für große Modelle

Neues Scaffold-Reasoning-Framework verbessert Code‑Debugging von LLMs

Studie zeigt: Schrittweise Denkprozesse steigern Code‑LLM‑Genauigkeit

KI erzeugt kreative Schachrätsel – Experten bewerten ihre Originalität

🍪 Cookie-Einstellungen