AI2 hat analysiert, wie gut menschliche Präferenzen mit Bewertungen von AI Research Agents übereinstimmen, die lange Antworten generieren. Die Studie ergab, dass menschliches Feedback am besten für die Gesamtbewertung des Systems geeignet ist, während Expertenanalysen für die detaillierte Metrikbewertung erforderlich sind.
Bei der Bewertung von AI-Tools solltest du dich nicht nur auf einfache Benutzerbewertungen verlassen, sondern Experten einbeziehen, um die Qualität und Genauigkeit der AI-Ausgabe für kritische Anwendungen zu beurteilen.