Forschung arXiv – cs.AI

MIMIC: Mit innerer Sprache steuert KI menschliches Verhalten

Die Koordination von Menschen und künstlicher Intelligenz erfordert Agenten, die menschliche Verhaltensweisen nachahmen und gleichzeitig flexibel auf wechselnde Situationen reagieren können. Traditionelle Imitationslern…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Koordination von Menschen und künstlicher Intelligenz erfordert Agenten, die menschliche Verhaltensweisen nachahmen und gleichzeitig flexibel auf wechselnde Situatio…
  • Traditionelle Imitationslernverfahren stoßen dabei an ihre Grenzen, weil sie die Vielfalt und die nicht-Markov‑Charakteristik menschlicher Handlungen nicht vollständig e…
  • In der neuen Arbeit wird das Konzept „innerer Sprache“ – ein zentrales Element menschlicher kognitiver Prozesse – als Leitfaden für die Auswahl von Aktionen genutzt.

Die Koordination von Menschen und künstlicher Intelligenz erfordert Agenten, die menschliche Verhaltensweisen nachahmen und gleichzeitig flexibel auf wechselnde Situationen reagieren können. Traditionelle Imitationslernverfahren stoßen dabei an ihre Grenzen, weil sie die Vielfalt und die nicht-Markov‑Charakteristik menschlicher Handlungen nicht vollständig erfassen und keine Steuerung des Verhaltens während der Ausführung ermöglichen.

In der neuen Arbeit wird das Konzept „innerer Sprache“ – ein zentrales Element menschlicher kognitiver Prozesse – als Leitfaden für die Auswahl von Aktionen genutzt. Das vorgeschlagene Framework namens MIMIC (Modeling Inner Motivations for Imitation and Control) kombiniert vision‑Language‑Modelle mit einem konditionalen Variational Autoencoder, um aus Beobachtungen eine interne sprachliche Darstellung des Verhaltens zu erzeugen. Anschließend wählt eine Diffusions‑basierte Verhalten‑Klonierungs‑Policy Aktionen, die auf die aktuelle Beobachtung und die generierte innere Rede abgestimmt sind.

Durch diese Architektur kann der Agent sein Verhalten in Echtzeit feinjustieren, indem er auf spezifische sprachliche Anweisungen reagiert, ohne dass zusätzliche Demonstrationen benötigt werden. Experimente in Robotik‑Manipulationsaufgaben und kooperativen Mensch‑KI‑Spielen zeigen, dass MIMIC die Vielfalt der erzeugten Verhaltensweisen deutlich erhöht und die Übereinstimmung mit menschlichen Demonstrationen verbessert. Der komplette Code sowie vortrainierte MIMIC‑Agenten und qualitative Demonstrationen werden als Open‑Source bereitgestellt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.