PeopleSearchBench: Neuer Benchmark für KI-basierte Personen‑Suche
KI‑gestützte Plattformen zur Personensuche finden immer mehr Einsatz in Rekrutierung, Vertriebsprospecting und professionellem Networking. Trotz ihrer Verbreitung fehlt bislang ein einheitlicher, anerkannter Test, um d…
- KI‑gestützte Plattformen zur Personensuche finden immer mehr Einsatz in Rekrutierung, Vertriebsprospecting und professionellem Networking.
- Trotz ihrer Verbreitung fehlt bislang ein einheitlicher, anerkannter Test, um deren Leistung zu vergleichen.
- Mit dem Open‑Source-Benchmark PeopleSearchBench füllt das Forschungsteam diese Lücke.
KI‑gestützte Plattformen zur Personensuche finden immer mehr Einsatz in Rekrutierung, Vertriebsprospecting und professionellem Networking. Trotz ihrer Verbreitung fehlt bislang ein einheitlicher, anerkannter Test, um deren Leistung zu vergleichen. Mit dem Open‑Source-Benchmark PeopleSearchBench füllt das Forschungsteam diese Lücke.
PeopleSearchBench testet vier führende Plattformen anhand von 119 realen Suchanfragen, die vier Anwendungsfälle abdecken: Unternehmensrekrutierung, B2B‑Vertriebsprospecting, Expertensuche mit deterministischen Antworten und Influencer‑ bzw. KOL‑Entdeckung. Das Herzstück des Benchmarks ist die „Criteria‑Grounded Verification“ – ein Verfahren, das aus jeder Anfrage explizite, überprüfbare Kriterien extrahiert und mithilfe aktueller Web‑Suchergebnisse prüft, ob die zurückgegebenen Personen diese erfüllen. So entstehen objektive, binäre Relevanzbewertungen, die nicht auf subjektiven LLM‑Urteilen beruhen.
Die Bewertung erfolgt über drei Dimensionen: Relevanz‑Präzision (padded nDCG@10), effektive Abdeckung (Aufgabenerfüllung und qualifizierte Ergebnisse) und Informations‑Nutzen (Profilvollständigkeit und Nützlichkeit). Diese drei Kennzahlen werden gleich gewichtet und bilden einen Gesamtscore. Das spezialisierte KI‑Agenten‑System Lessie erzielt mit 65,2 Punkten den höchsten Gesamtscore – 18,5 % besser als das zweitbeste System – und ist das einzige, das bei allen 119 Anfragen 100 % Aufgabenerfüllung erreicht.
Zusätzlich werden Konfidenzintervalle, eine menschliche Validierung der Verifikationspipeline (Cohen’s Kappa = 0,84), Ablationsstudien sowie vollständige Dokumentation der Anfragen, Prompt‑Designs und Normalisierungsverfahren veröffentlicht. Der komplette Code, die Anfragen und die aggregierten Ergebnisse stehen auf GitHub zur Verfügung.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.