MindSET: 13 Millionen Reddit‑Posts liefern neue Benchmark für mentale Gesundheit
Ein neues Forschungsprojekt namens MindSET hat die Welt der mentalen Gesundheitsforschung mit einem bislang größten Datensatz auf dem Weg zu präziseren Analysen vorangebracht. Der Datensatz, der auf Reddit‑Beiträge stützt, umfasst mehr als 13 Millionen annotierte Posts zu sieben psychischen Erkrankungen und ist damit mehr als doppelt so groß wie frühere Benchmarks.
Die Entwickler haben die Daten sorgfältig aufbereitet: Sie filtern Sprachen, entfernen Inhalte, die nicht für die Arbeit geeignet sind, und löschen Duplikate. Zusätzlich nutzen sie die Selbstdiagnosen der Nutzer, um die Zuverlässigkeit der Labels zu erhöhen. Diese gründliche Aufbereitung sorgt dafür, dass die Daten für wissenschaftliche Analysen besonders wertvoll sind.
Um die Qualität weiter zu prüfen, führte das Team eine linguistische Analyse mit LIWC durch, die psychologische Begrifflichkeiten in den acht Gruppen des Datensatzes untersucht. Die Ergebnisse zeigen, dass die Sprache in den verschiedenen Erkrankungsgruppen deutliche Unterschiede aufweist.
In praktischen Tests konnten die Forscher mit MindSET deutlich bessere Ergebnisse erzielen. Beim Erkennen von Diagnosen – zum Beispiel bei Autismus – erreichten feinabgestimmte Sprachmodelle und Bag‑of‑Words‑Ansätze bis zu 18 Punkte höhere F1‑Scores als Modelle, die auf älteren Benchmarks trainiert wurden.
MindSET bietet damit eine robuste Grundlage für zukünftige Studien, die soziale Medien und psychische Gesundheit verbinden wollen. Durch die Kombination aus großer Datenmenge, sorgfältiger Aufbereitung und nachgewiesener Leistungsverbesserung wird die Forschung in diesem wichtigen Bereich erheblich vorangetrieben.