Forschung arXiv – cs.AI

PeopleSearchBench: Neuer Benchmark für KI-basierte Personen‑Suche

KI‑gestützte Plattformen zur Personensuche finden immer mehr Einsatz in Rekrutierung, Vertriebs­prospecting und professionellem Networking. Trotz ihrer Verbreitung fehlt bislang ein einheitlicher, anerkannter Test, um d…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • KI‑gestützte Plattformen zur Personensuche finden immer mehr Einsatz in Rekrutierung, Vertriebs­prospecting und professionellem Networking.
  • Trotz ihrer Verbreitung fehlt bislang ein einheitlicher, anerkannter Test, um deren Leistung zu vergleichen.
  • Mit dem Open‑Source-Benchmark PeopleSearchBench füllt das Forschungsteam diese Lücke.

KI‑gestützte Plattformen zur Personensuche finden immer mehr Einsatz in Rekrutierung, Vertriebs­prospecting und professionellem Networking. Trotz ihrer Verbreitung fehlt bislang ein einheitlicher, anerkannter Test, um deren Leistung zu vergleichen. Mit dem Open‑Source-Benchmark PeopleSearchBench füllt das Forschungsteam diese Lücke.

PeopleSearchBench testet vier führende Plattformen anhand von 119 realen Suchanfragen, die vier Anwendungsfälle abdecken: Unternehmensrekrutierung, B2B‑Vertriebs­prospecting, Experten­suche mit deterministischen Antworten und Influencer‑ bzw. KOL‑Entdeckung. Das Herzstück des Benchmarks ist die „Criteria‑Grounded Verification“ – ein Verfahren, das aus jeder Anfrage explizite, überprüfbare Kriterien extrahiert und mithilfe aktueller Web‑Suchergebnisse prüft, ob die zurückgegebenen Personen diese erfüllen. So entstehen objektive, binäre Relevanz­bewertungen, die nicht auf subjektiven LLM‑Urteilen beruhen.

Die Bewertung erfolgt über drei Dimensionen: Relevanz‑Präzision (padded nDCG@10), effektive Abdeckung (Aufgabenerfüllung und qualifizierte Ergebnisse) und Informations‑Nutzen (Profilvollständigkeit und Nützlichkeit). Diese drei Kennzahlen werden gleich gewichtet und bilden einen Gesamt­score. Das spezialisierte KI‑Agenten‑System Lessie erzielt mit 65,2 Punkten den höchsten Gesamt­score – 18,5 % besser als das zweitbeste System – und ist das einzige, das bei allen 119 Anfragen 100 % Aufgabenerfüllung erreicht.

Zusätzlich werden Konfidenzintervalle, eine menschliche Validierung der Verifikationspipeline (Cohen’s Kappa = 0,84), Ablationsstudien sowie vollständige Dokumentation der Anfragen, Prompt‑Designs und Normalisierungs­verfahren veröffentlicht. Der komplette Code, die Anfragen und die aggregierten Ergebnisse stehen auf GitHub zur Verfügung.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

KI-gestützte Personensuche
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
PeopleSearchBench
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Criteria-Grounded Verification
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.