FAQ: Wissenschaftliche Persönlichkeitstests einfach erklärt
55 fundierte Antworten zu Gütekriterien, Validität, Big Five, HEXACO, MBTI, Normierung, Faking, Kosten und Anwendungsfeldern — kuratiert von DIN 33430-zertifizierten Diagnostikern aus 15+ Jahren Praxis.
Persönlichen Test-Termin vereinbarenWofür diese FAQ-Sammlung?
Drei Versprechen, die diese Seite von oberflächlichen Internet-Quellen abgrenzen:
Wissenschaftlich, nicht populärwissenschaftlich
Antworten gestützt auf DIN 33430, Costa & McCrae, Lee & Ashton sowie aktuelle Validierungsstudien — nicht auf Social-Media-Mythen.
Praxiserprobt durch 15+ Jahre Diagnostik
Erfahrungen aus mehreren tausend Potenzialanalysen mit NEO-PI-R, BIP und multimodalen Verfahren in Recruiting, Karriereberatung und Studienwahl.
Sofort entscheidungsrelevant
Jede Antwort beantwortet eine konkrete Frage in 2–4 Sätzen — kein Lehrbuch-Geschwurbel. Mit Decision-Logic, welcher Test wann passt.
Schnell-Entscheidung: Welcher Test für welchen Zweck?
Bevor Sie tief in die FAQ einsteigen — hier die häufigsten Anwendungsfälle und passende Verfahren auf einen Blick:
Führungskräfte-Auswahl
Sie suchen Verfahren mit hoher prognostischer Validität für C-Level- und Senior-Positionen.
Berufliche Neuorientierung
Sie möchten Stärken, Werte und passende Karriereanker identifizieren.
Studienwahl & Orientierung
Sie sind unsicher, welches Studium zu Ihrer Persönlichkeit und Ihren Interessen passt.
Führungskräfte-Entwicklung
Sie wollen Stärken-Profil, blinde Flecken und Entwicklungsfelder Ihrer Führungspersönlichkeit verstehen.
Team-Diagnostik
Sie wollen Team-Dynamiken, Rollen und Konfliktmuster analysieren.
Selbsterkenntnis
Sie wollen ohne beruflichen Anlass Ihre Persönlichkeit besser verstehen — wissenschaftlich, nicht populär.
1. Gütekriterien & Psychometrie
Die psychometrischen Grundlagen entscheiden, ob ein Test wissenschaftlich ernst zu nehmen ist. Diese 9 Fragen klären, was Objektivität, Reliabilität und Validität konkret bedeuten — und wie Sie unseriöse von seriösen Verfahren unterscheiden.
Die drei Hauptgütekriterien sind Objektivität (Unabhängigkeit von Testleiter und Auswerter), Reliabilität (Messgenauigkeit, Wiederholbarkeit) und Validität (misst der Test, was er messen soll?). Hinzu kommen Nebengütekriterien: Normierung (Vergleichsstichprobe), Fairness/DIF-Prüfung (keine systematische Benachteiligung von Gruppen), Transparenz der Testentwicklung und Ökonomie.
Für berufsbezogene Eignungsdiagnostik in Deutschland ist die DIN 33430 der maßgebliche Standard. Tests, die diese Norm erfüllen, sind verfahrenstechnisch und ethisch geprüft.
Quelle: DIN 33430:2016 · Testkuratorium der Föderation Deutscher Psychologenvereinigungen
Drei Hauptarten der Validität müssen für einen seriösen Test belegt sein:
- Inhaltsvalidität: Decken die Items das Konstrukt repräsentativ ab? (Geprüft durch Expertenratings.)
- Konstruktvalidität: Entspricht die Faktorenstruktur dem theoretischen Modell? (Geprüft durch konfirmatorische Faktorenanalyse, MTMM-Matrix.)
- Kriteriumsvalidität: Sagt der Test relevante Außenkriterien vorher? (z. B. Berufserfolg, Studienleistung — gemessen als Korrelationskoeffizient.)
Hochwertige Manuale berichten Validitätsevidenz aus mehreren unabhängigen Studien — nicht nur einer einzigen Validierungsstudie der Testautoren.
Für interne Konsistenz: Cronbachs α (klassisch) und McDonald's ω (moderner, weniger restriktiv). Akzeptable Werte liegen bei α/ω ≥ .70, gut ab .80, exzellent ab .90.
Für zeitliche Stabilität: Retest-Reliabilität (Korrelation derselben Probanden zu zwei Messzeitpunkten). Für Persönlichkeitsmerkmale Erwachsener typisch r = .70–.90 über mehrere Jahre.
Für Paralleltests: Paralleltest-Reliabilität (Korrelation zweier Varianten desselben Tests). Idealerweise mit Konfidenzintervallen berichtet, nicht als Punktschätzer.
Objektivität bedeutet, dass das Testergebnis unabhängig von der Person ist, die ihn durchführt, auswertet oder interpretiert. Sie zerfällt in drei Stufen:
- Durchführungsobjektivität: Standardisierte Instruktionen, Zeitvorgaben, Settings — egal ob der Testleiter Hans oder Helene heißt.
- Auswertungsobjektivität: Fixe Antwortschlüssel, idealerweise computerisiert — keine subjektiven Einschätzungen.
- Interpretationsobjektivität: Klare Regeln, wie Skalenwerte zu deuten sind — z. B. Standardberichte, normierte Vergleichswerte.
Der SEM quantifiziert, wie stark ein gemessener Wert vom „wahren“ Wert abweichen kann. Mathematisch: SEM = SD × √(1−r), wobei SD die Streuung und r die Reliabilität ist.
Praktische Anwendung: Statt „Sie haben den T-Wert 60“ berichtet ein hochwertiger Report „Sie liegen mit 95% Wahrscheinlichkeit zwischen T = 57 und T = 63“. Solche Konfidenzintervalle verhindern, dass kleine Unterschiede zwischen Personen überinterpretiert werden.
Normierung wandelt Rohwerte (z. B. 42 von 60 Punkten auf der Extraversionsskala) in vergleichbare Standardwerte um, gemessen an einer repräsentativen Normstichprobe. Üblich sind:
- T-Werte: Mittelwert 50, Standardabweichung 10 (Bereich typisch 20–80).
- Stanine: 1–9, Mittelwert 5.
- Perzentile: Prozentrang, z. B. PR 75 = höher als 75% der Vergleichsgruppe.
Eine gute Normstichprobe ist nach Alter, Geschlecht, Bildungsstand und idealerweise Berufsgruppe geschichtet — und höchstens 10 Jahre alt.
Reliabilität = Messgenauigkeit: Liefert der Test bei wiederholter Anwendung dieselben Ergebnisse?
Validität = Messen wir das Richtige? Eine Waage kann reliable Ergebnisse liefern (immer dieselbe Zahl) — aber wenn sie 5 kg zu viel zeigt, ist sie nicht valide. Reliabilität ist Voraussetzung für Validität, aber nicht hinreichend.
Konkretes Beispiel: Ein Test, der konsistent Optimismus misst, aber Extraversion messen sollte, ist reliabel — aber nicht valide für sein erklärtes Konstrukt.
Inkrementelle Validität beschreibt den Mehrwert eines Tests über bestehende Prädiktoren hinaus. Wenn Sie bereits den IQ und die Schulnote kennen — wie viel zusätzliche Vorhersagekraft bringt ein Persönlichkeitstest?
Studien zeigen: Big-Five-Gewissenhaftigkeit erklärt inkrementell 5–10% Berufserfolgsvarianz über IQ und Erfahrung hinaus. Das mag wenig klingen — bei millionenfachen Personalentscheidungen ist es jedoch substantiell.
Gemäß der Spearman-Brown-Formel steigt die Reliabilität mit der Testlänge — aber mit abnehmendem Grenznutzen. Ein 10-Item-Test mit α = .70 erreicht bei Verdoppelung auf 20 Items etwa α = .82.
Praxisfolge: Kurztests (10–20 Items pro Dimension) sind ökonomisch und für Screenings ausreichend. Für individuelle Diagnostik, Karrierentscheidungen oder klinische Fragestellungen sind Langtests (z. B. NEO-PI-R mit 240 Items) angemessen.
2. Modelle & Verfahren
Welches Persönlichkeitsmodell ist wissenschaftlich anerkannt? Wie unterscheiden sich CTT, IRT, Big Five und HEXACO? Und warum schneidet der populäre MBTI in Forschung schlecht ab? Diese 9 Fragen klären die Modellgrundlagen.
Klassische Testtheorie (CTT) arbeitet auf Testebene: Sie betrachtet den Gesamtscore und prüft Reliabilität sowie Validität für den ganzen Test. Itemkennwerte (Schwierigkeit, Trennschärfe) sind stichprobenabhängig.
Item-Response-Theorie (IRT) modelliert jedes einzelne Item: Wie wahrscheinlich ist eine bestimmte Antwort, gegeben die Merkmalsausprägung der Person? Itemparameter sind stichprobenunabhängig. Vorteile: präzisere Personenparameter, adaptive Testverfahren (CAT), Messinvarianz-Prüfung.
Praxisrelevanz: Moderne Tests wie das BIP oder Wiener-Test-System nutzen IRT-Methoden. Klassische Inventare wie der NEO-PI-R basieren historisch auf CTT, werden aber zunehmend mit IRT reanalysiert.
MBTI (Myers-Briggs): Typisiert dichotom in 16 Typen (z. B. INTJ, ESFP). Probleme: niedrige Retest-Reliabilität (bis zu 50% erhalten beim zweiten Test einen anderen Typ), künstliche Dichotomisierung (statt Skalen Schwarz-Weiß-Kategorien), schwache Vorhersagevalidität für Berufserfolg.
Big Five & HEXACO: Dimensionale Messung auf kontinuierlichen Skalen, replizierbare Faktorenstruktur in dutzenden Kulturen, hohe Retest-Stabilität (.70–.90), wissenschaftlich konsensual als Goldstandard akzeptiert.
Detaillierter Vergleich auf unserer Seite MBTI vs. Big Five. Kurzfassung: Für Coaching-Workshops kann der MBTI Anstoß zur Selbstreflexion sein, für seriöse Personalentscheidungen ist er ungeeignet.
HEXACO erweitert die Big Five um eine sechste Dimension: H – Honesty-Humility (Ehrlichkeit-Bescheidenheit). Die übrigen Dimensionen sind E (Emotionalität, leicht verändert), X (Extraversion), A (Verträglichkeit), C (Gewissenhaftigkeit) und O (Offenheit).
Hintergrund: Faktoranalysen außerhalb des Englischen (Koreanisch, Deutsch, Französisch u. a.) zeigten konsistent einen sechsten Faktor, der in der englischsprachigen Lexikalstudie nicht klar separiert war. HEXACO ist besonders relevant für Vorhersagen zu Integrität, Antisozialität und der „Dark Triad“ (Narzissmus, Machiavellismus, Psychopathie).
Quelle: Lee, K. & Ashton, M. C. (2018). The HEXACO-PI-R: A Six-Dimensional Personality Inventory. Journal of Personality Assessment.
Jede Hauptdimension lässt sich in Facetten ausdifferenzieren. Beispiel Extraversion (Big Five): Wärme, Geselligkeit, Durchsetzungsfähigkeit, Aktivität, Erlebnishunger, Frohsinn.
Praktische Bedeutung: Zwei Personen mit identischem Extraversions-Gesamtwert können sehr unterschiedlich sein — eine ist gesellig und warmherzig, die andere durchsetzungsstark und erlebnishungrig. Für Karriereentscheidungen sind Facetten oft aussagekräftiger als Gesamtwerte.
Tests wie der NEO-PI-R messen 30 Facetten (6 pro Dimension); HEXACO-PI-R 24 Facetten (4 pro Dimension).
Normative Likert-Skalen: Klassisch 5- oder 7-stufig („trifft gar nicht zu“ bis „trifft voll zu“). Vorteil: einfache Auswertung, dimensionale Werte. Nachteil: anfällig für Antworttendenzen (z. B. soziale Erwünschtheit).
Ipsative/Forced-Choice-Formate: Probanden müssen zwischen zwei oder mehr gleichwertig erscheinenden Statements wählen. Vorteil: faking-resistenter, da kein „richtig gut aussehen“ möglich. Nachteil: Werte sind nicht interindividuell vergleichbar (intra-individuelle Rangordnung).
Moderne Tests wie der OPQ oder HPI kombinieren oft beide Formate.
Kurze Antwort: Nein, nicht für seriöse Diagnostik. In der psychologischen Forschung wird der MBTI seit Jahrzehnten kritisch betrachtet:
- Niedrige Retest-Reliabilität: Bei einer Wiederholung nach 5 Wochen erhalten ~50% einen anderen Typ.
- Künstliche Dichotomien: Die meisten Menschen liegen mittig auf den Skalen — die Schwarz-Weiß-Zuordnung ist statistisch willkürlich.
- Faktorenstruktur: Die postulierten 4 unabhängigen Dimensionen replizieren empirisch nicht sauber.
- Vorhersagevalidität: Korreliert nur schwach mit Berufserfolg oder Teamleistung.
Für Self-Awareness-Workshops mag der MBTI Anstoßpunkt sein — als Entscheidungsgrundlage für Recruiting oder Karriereberatung jedoch ungeeignet.
Im wissenschaftlich-diagnostischen Mainstream als verlässlich anerkannt:
- NEO-PI-R / NEO-FFI (Costa & McCrae) – Big Five, Goldstandard für Forschung und klinische Praxis
- HEXACO-PI-R (Lee & Ashton) – 6-faktorielle Erweiterung
- BIP / BIP-6F (Hossiep & Paschen) – berufsbezogen, DIN 33430-konform
- BFI-2 (Soto & John) – Kurz-Big-Five mit 60 Items, modern und psychometrisch sauber
- 16PF-R (Cattell) – etabliert, gut normiert
- IPIP-Skalen – kostenfreie, validierte Big-Five-Items für Forschung
Eine ausführliche Übersicht aller Verfahren finden Sie auf unserer Seite Arten von Testverfahren.
Für Führungskräfte-Diagnostik gilt das BIP / BIP-6F (Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung) als deutscher Goldstandard. Es misst spezifisch berufsrelevante Dimensionen wie Leistungsmotivation, Gestaltungsmotivation, Führungsmotivation, soziale Kompetenz, Belastbarkeit und Selbstdisziplin.
Ergänzend für Senior-Positionen: NEO-PI-R (Persönlichkeit auf Facettenebene), strukturiertes Interview (höchste prognostische Validität: r = .51), AC-Module (Verhaltensbeobachtung in realitätsnahen Situationen) und 360°-Feedback.
Vertiefung auf unserer Seite Persönlichkeitstest für Führungskräfte.
DISG ist ein vereinfachtes 4-Typen-Modell (Dominant, Initiativ, Stetig, Gewissenhaft) aus dem US-amerikanischen Coaching-Bereich. Es ist kein wissenschaftlich validierter Persönlichkeitstest im psychometrischen Sinne, sondern ein Kommunikations-Tool.
Big Five ist ein evidenzbasiertes Persönlichkeitsmodell mit kontinuierlichen Dimensionen, replizierter Faktorenstruktur und prognostischer Validität in hunderten Studien.
Für Team-Workshops und Kommunikationstraining kann DISG nützlich sein. Für Personalentscheidungen, Karriereberatung oder klinische Diagnostik ist Big Five das richtige Werkzeug.
3. Messung & Auswertung
Wie werden Rohwerte zu interpretierbaren Aussagen? Was sind Cut-Scores, Antworttendenzen, Faking-Skalen? Diese 9 Fragen erklären die Mechanik hinter dem Befund.
Kriteriumsvalidität: Korrelation des Testwerts mit einem externen Erfolgskriterium (z. B. Berufserfolg, Studienleistung, Therapieerfolg). Eine Korrelation von r = .30 gilt in der Persönlichkeitspsychologie bereits als praxisrelevant.
Inkrementelle Validität: Zusätzliche Vorhersagekraft über bereits etablierte Prädiktoren hinaus. Beispiel: Wenn IQ-Test und Berufserfahrung bereits 25% der Varianz im Berufserfolg erklären — wie viel zusätzlich erklärt der Persönlichkeitstest? Schon 5–10% inkrementelle Varianz sind hochrelevant.
Bereichsrestriktion entsteht, wenn die Varianz einer Variable in der Stichprobe eingeschränkt ist. Beispiel: Wenn nur sehr gewissenhafte Bewerber eingestellt werden, sinkt die beobachtbare Korrelation zwischen Gewissenhaftigkeit und Berufserfolg — obwohl der wahre Zusammenhang höher ist.
Statistische Korrekturen (Thorndike-Fall 2, Hunter & Schmidt) schätzen die unrestriktierten Validitätskoeffizienten zurück. Für die Praxis: Berichtete Validitätskoeffizienten in Selektionsstudien sind oft Unterschätzungen.
Zwei Hauptverfahren:
- Norm-bezogen: „Wir nehmen die obersten 20% der Bewerber.“ Vorteil: einfach. Nachteil: rein relativ, keine inhaltliche Verankerung.
- Kriteriums-bezogen: „Welcher Testwert minimiert Fehlentscheidungen?“ Mit Sensitivität (richtig erkannte Erfolgreiche) und Spezifität (richtig erkannte Nicht-Erfolgreiche) optimiert.
ROC-Analysen sind hier Standard. In der Personalauswahl-Praxis werden Cut-Scores selten dogmatisch, sondern als ein Faktor von mehreren genutzt.
Persönlichkeitsmerkmale bei Erwachsenen sind überraschend stabil: Bei Big-Five-Tests liegt die Retest-Korrelation typisch bei r = .70–.90 über 1 Jahr, und bei r = .50–.70 über 10 Jahre.
Wichtig: Stabilität ist nicht Unveränderlichkeit. Es gibt Mean-Level-Changes (Gewissenhaftigkeit steigt im jungen Erwachsenenalter, Verträglichkeit ab 30) und Rank-Order-Stabilität (relative Position bleibt erhalten). Bei kritischen Lebensereignissen, Therapien oder gezielter Persönlichkeitsentwicklung sind durchaus Verschiebungen möglich.
Drei häufige Antworttendenzen verzerren Tests:
- Soziale Erwünschtheit: Sich besser darstellen, als man ist.
- Akquieszenz: Zustimmungstendenz unabhängig vom Inhalt.
- Extremismus / Mittentendenz: Bevorzugen extremer oder mittlerer Antwortoptionen.
Gegenmaßnahmen: balanciertes Keying (positiv und negativ gepolte Items), Kontrollskalen (z. B. Lügenskalen), Forced-Choice-Formate sowie statistische Korrekturen (z. B. ipsatives Rescoring).
Mehrere Mechanismen kommen zum Einsatz:
- Validitätsskalen: Eingebettete Items messen Antwortverzerrung (z. B. Lie-Skala, Korrekturskala beim MMPI).
- Konsistenzanalyse: Widersprüchliche Antworten auf semantisch ähnliche Items werden markiert.
- Reaktionszeitanalyse: Auffällig schnelle oder langsame Antworten signalisieren Unaufmerksamkeit oder Manipulation.
- Forced-Choice-Formate: Reduzieren Faking strukturell, da kein „richtig gut“ aussehen möglich ist.
In Selektionssituationen (Bewerbung) bleibt jedoch ein Restrisiko — weshalb seriöse Diagnostik immer mehrere Methoden kombiniert.
Satisficing ist die Tendenz, Tests oberflächlich zu bearbeiten — z. B. immer die mittlere Antwortoption wählen oder Items überfliegen ohne sie zu lesen.
Attention Checks sind eingebaute Aufmerksamkeitsprüfungen, z. B. „Bitte wählen Sie für diese Frage die Antwort ‘trifft eher zu’ — dies dient der Qualitätskontrolle.“ Falsche Antworten signalisieren minderwertige Daten.
Weitere Indikatoren: Minimale Bearbeitungszeit (unter ~2 Sekunden pro Item ist verdächtig), Antwortmuster (z. B. 50 mal hintereinander dieselbe Option). Hochwertige Auswerter prüfen diese Indikatoren automatisch.
MTMM ist ein Verfahren zur Prüfung der Konstruktvalidität, entwickelt von Campbell & Fiske (1959). Mehrere Konstrukte (Traits) werden mit mehreren Methoden gemessen, z. B. Selbstbericht + Fremdbericht + Verhaltensbeobachtung.
Kernerwartung: Konvergente Korrelationen (gleiches Konstrukt, verschiedene Methoden) sollten höher sein als diskriminante Korrelationen (verschiedene Konstrukte, gleiche Methode). Moderne Auswertung erfolgt per CFA-Modelle, die Trait- und Methodenvarianz separieren.
Normativ: Ihr Wert wird mit einer Vergleichsstichprobe verglichen. Aussage: „Sie sind extravertierter als 73% der Vergleichsgruppe.“ Sinnvoll für interindividuelle Vergleiche (Recruiting, Selektion).
Ipsativ: Ihre Werte werden untereinander verglichen. Aussage: „In Ihrem Profil ist Gewissenhaftigkeit Ihre stärkste Dimension.“ Sinnvoll für intraindividuelle Stärken-Analyse (Coaching, Karriereberatung).
Hochwertige Reports nutzen beide Perspektiven. Für die Frage „Passt diese Person zu uns?“ ist normativ relevant. Für „Welche Karriere passt zu mir?“ ist die ipsative Stärken-Schwächen-Hierarchie aufschlussreich.
4. Fairness & Vergleichbarkeit
Misst der Test fair über Geschlechter, Altersgruppen und Kulturen hinweg? Diese 6 Fragen klären DIF, Messinvarianz und kulturelle Adaption — zentrale Themen aktueller Eignungsdiagnostik.
Messinvarianz prüft, ob ein Test in unterschiedlichen Gruppen (Männer/Frauen, jüngere/ältere, deutsche/türkische Probanden) dasselbe Konstrukt auf dieselbe Weise misst. Drei Stufen:
- Konfigurale Invarianz: Gleiche Faktorenstruktur in allen Gruppen.
- Metrische Invarianz: Gleiche Faktorladungen — Items messen gleich stark.
- Skalare Invarianz: Gleiche Item-Intercepts — Mittelwerte sind direkt vergleichbar.
Ohne mindestens metrische Invarianz sind Gruppenvergleiche problematisch — Sie messen möglicherweise unterschiedliche Konstrukte.
DIF liegt vor, wenn Personen aus verschiedenen Gruppen mit gleicher Merkmalsausprägung unterschiedliche Antwortwahrscheinlichkeiten auf ein Item haben. Beispiel: Ein Extraversions-Item, das in einer Kultur als „normal“, in einer anderen als „aufdringlich“ verstanden wird.
Erkennungsmethoden: Mantel-Haenszel-Verfahren (klassisch), logistische Regression (auch für mehrere Gruppen) und IRT-basierte Methoden (modernster Standard, prüft Itemparameter-Unterschiede).
Items mit substantiellem DIF werden eliminiert oder revidiert. Faire Tests dokumentieren ihre DIF-Analysen transparent im Manual.
Ein professionell adaptierter Test durchläuft mehrere Schritte:
- Übersetzung durch psychologisch geschulte Muttersprachler.
- Rückübersetzung durch unabhängige Übersetzer, Vergleich mit Original.
- Expertenreview: Linguistik- und Domänenexperten prüfen kulturelle Angemessenheit.
- Pilotstudie: Items werden an einer Probandengruppe getestet, problematische identifiziert.
- Invarianz- und DIF-Prüfung über die Zielkulturen hinweg.
- Neunormierung: Eigene repräsentative Normstichprobe für jedes Land.
Tests, die nur übersetzt aber nicht neunormiert wurden, sollten in Ergebnissen mit Vorsicht interpretiert werden.
Mindestanforderungen je nach Vergleichsart:
- Faktorenstruktur vergleichen: Konfigurale Invarianz reicht.
- Korrelationen oder Regressionen vergleichen: Metrische Invarianz erforderlich.
- Mittelwerte vergleichen: Skalare Invarianz erforderlich.
Beispiel: Aussage „Männer sind im Durchschnitt weniger verträglich als Frauen“ setzt skalare Messinvarianz voraus. Sonst können Sie nicht ausschließen, dass das Item „Verträglichkeit“ in beiden Gruppen unterschiedlich verstanden wird.
Das Bandwidth-Fidelity-Dilemma (Cronbach & Gleser 1965) beschreibt einen fundamentalen Trade-off:
- Breite (Bandwidth): Ein kurzer Test deckt viele Konstrukte ab, aber jedes nur ungenau.
- Tiefe (Fidelity): Ein langer Test misst wenige Konstrukte sehr präzise.
Praxisrelevanz: Für ein Screening in der Vorauswahl reicht ein Kurz-Verfahren (z. B. BFI-10). Für eine fundierte Karriereberatung oder Klinikdiagnostik ist Tiefe entscheidend — der NEO-PI-R mit 240 Items braucht 40 Minuten, liefert aber 30 Facetten.
Die Big-Five-Struktur repliziert sich in dutzenden Kulturen — von den USA über Japan bis zu indigenen Gruppen — was für ihre universelle Anwendbarkeit spricht. Allerdings:
- Manche Items sind kulturspezifisch verzerrt (DIF).
- Mittelwerte unterscheiden sich (z. B. ostasiatische Stichproben zeigen niedrigere Extraversionswerte — Effekt von Kollektivismus vs. Antwortstil unklar).
- HEXACO zeigt in nicht-westlichen Sprachen oft sauberere 6-Faktor-Lösungen als in englischen Daten.
Für interkulturelle Diagnostik: Verwenden Sie nur Versionen mit dokumentierter Adaption und lokaler Normierung.
5. Praxis: Vorbereitung & Ablauf
Was passiert konkret, wenn Sie einen Persönlichkeitstest machen? Wie lange dauert er, was kosten ihn, und wie bereiten Sie sich vor? Diese 8 Fragen klären die häufigsten Praxis-Fragen.
Die Bearbeitungszeit hängt vom Verfahren ab:
- Kurztests (BFI-10, BFI-2-S, IPIP-50): 5–15 Minuten
- Standard-Inventare (BFI-2, NEO-FFI, BIP-6F): 15–30 Minuten
- Vollumfängliche Tests (NEO-PI-R, BIP, 16PF-R): 30–60 Minuten
- Multimodale Diagnostik (mehrere Tests + Interview): 3–4 Stunden
Für unsere Potenzialanalyse-Sitzungen planen wir typisch einen halben bis ganzen Tag — inklusive Auswertung und persönlicher Besprechung.
Inhaltlich: Keine Vorbereitung notwendig. Persönlichkeitstests messen stabile Eigenschaften — Sie können sich nicht „einlernen“.
Rahmenbedingungen:
- Ruhige, ungestörte Umgebung wählen.
- Ausgeruht antreten (keine Diagnostik nach durchgemachter Nacht).
- Genügend Zeit einplanen — nicht zwischen zwei Terminen quetschen.
- Ehrlich antworten — strategisches Antworten verzerrt das Ergebnis und wird durch Validitätsskalen oft erkannt.
- Bei Items intuitiv-spontan antworten, nicht lange grübeln.
Theoretisch ja, praktisch schwerer als gedacht. Bewusste Manipulation („Faking-Good“) wird durch mehrere Mechanismen erkannt:
- Validitätsskalen: Eingebettete Items, die unrealistisch perfekte Selbstdarstellung enttarnen.
- Konsistenzprüfung: Widersprüchliche Antworten auf ähnliche Items.
- Forced-Choice-Formate: Reduzieren Faking strukturell.
- Profilplausibilität: Extrem „perfekte“ Profile sind statistisch unwahrscheinlich.
Wichtiger noch: Wenn Sie sich selbst gegenüber unehrlich antworten, untergraben Sie den Nutzen des Tests für sich. Persönlichkeitsdiagnostik hilft, wenn sie ehrlich erfolgt.
Empfohlener Abstand: 6–12 Monate, um Erinnerungseffekte und unrealistische Vergleiche zu minimieren. Bei Persönlichkeitstests ist eine sofortige Wiederholung ohnehin wenig sinnvoll — die gemessenen Eigenschaften sind stabil.
Eine Wiederholung lohnt sich:
- Nach Lebensereignissen (Berufswechsel, Therapie, Familiengründung).
- Nach 2+ Jahren in Karriere- oder Coaching-Begleitung.
- Wenn das Erst-Ergebnis durch ungünstige Umstände beeinflusst war (Krankheit, akute Krise).
Objektivität bedeutet: Das Ergebnis hängt nicht davon ab, wer den Test durchführt, auswertet oder interpretiert. Ihre Werte sollten dieselben sein, egal ob Sie bei uns in Düsseldorf, München oder Hamburg testen.
Konkret garantieren wir das durch: identische digitale Testplattformen, standardisierte Instruktionen, computergestützte Auswertung mit fixen Algorithmen und einheitliche Interpretationsrichtlinien für alle Diagnostiker.
Bei seriöser Diagnostik gehört zur Auswertung immer ein persönliches Besprechungsgespräch mit einem qualifizierten Diagnostiker — kein automatischer Online-Bericht ohne menschliche Einordnung.
Ein hochwertiger Befund enthält:
- Dimensionswerte mit Konfidenzintervallen (kein Punktwert ohne Streuung)
- Vergleich zur Normstichprobe (T-Werte oder Perzentile)
- Erklärung der Stärken und Entwicklungsfelder in Klartext
- Konkrete Handlungsempfehlungen für Karriere, Coaching oder Therapie
- Bei Bedarf: schriftlicher Bericht zum Mitnehmen
Persönliche Testdaten unterliegen der DSGVO und der psychologischen Schweigepflicht. Konkret bei uns:
- Daten werden ausschließlich für Ihre Diagnostik genutzt — keine Weitergabe an Dritte ohne Ihre schriftliche Einwilligung.
- Speicherung auf deutschen, DSGVO-konformen Servern.
- Aufbewahrungsfrist: 10 Jahre nach letzter Konsultation (Berufsordnung) — danach Löschung.
- Sie haben jederzeit Recht auf Auskunft, Berichtigung und Löschung.
Wir verkaufen oder vermarkten keine Testergebnisse an Forschungsdatenbanken oder kommerzielle Drittparteien.
Für die Selbstbeurteilung per Fragebogen ist online und vor Ort psychometrisch gleichwertig — vorausgesetzt, Umgebung und Software sind professionell. Für reine Persönlichkeitstests bringt das Vor-Ort-Setting keinen psychometrischen Vorteil.
Vor-Ort sinnvoll bei:
- Multimodaler Diagnostik (Test + Interview + AC-Module)
- Leistungstests unter standardisierten Bedingungen
- Erstgespräch und tiefer Beratung im Anschluss
Wir bieten beides: Online-Diagnostik bundesweit und Vor-Ort-Termine an unseren 7 Standorten.
6. Anwendungsfelder
Wofür sind Persönlichkeitstests wirklich sinnvoll? Wann eher nicht? Diese 7 Fragen klären die Einsatzbereiche von Recruiting bis Studienwahl.
Sechs Hauptanwendungsfelder:
- Recruiting & Personalauswahl: Vor allem bei Führungs- und Schlüsselpositionen — typisch in Kombination mit Interview und AC.
- Karriere- und Berufsberatung: Stärken-Profil, Karrierepfade, Berufsfeldempfehlungen.
- Coaching & Führungskräfteentwicklung: Blinde Flecken, Entwicklungsfelder, Führungsstil.
- Team-Diagnostik: Rollen, Dynamiken, Konfliktmuster.
- Studienwahl & Orientierung: Bei Jugendlichen und jungen Erwachsenen.
- Klinische Diagnostik: Persönlichkeitsstrukturen, Therapieindikation, Verlaufsmessung.
Detaillierter Überblick: Einsatzbereiche.
Ja — wenn sie eingebettet sind in eine breitere Diagnostik. Bei der beruflichen Neuorientierung sind allein folgende Aspekte zu klären:
- Persönlichkeitsprofil (Big Five oder HEXACO) — Welche Arbeitsumgebungen passen?
- Interessen (RIASEC nach Holland) — Welche Tätigkeitsfelder ziehen an?
- Werte und Karriereanker (nach Schein) — Was ist mir nicht-verhandelbar?
- Kompetenzen und Erfahrungen — Was kann ich, was will ich noch?
Ein Persönlichkeitstest allein liefert nur einen Mosaikstein. Die Synthese im Gespräch entscheidet über den Wert der Neuorientierung.
Für Jugendliche zwischen 14 und 18 sind altersangepasste Verfahren entscheidend, da die Persönlichkeit noch in Entwicklung ist. Bewährt:
- Big-Five-Adoleszenten-Versionen (z. B. NEO-FFI-30 für Jugendliche)
- Holland-Code (RIASEC) für Berufsinteressen — ab Klasse 9 sinnvoll
- Werte-Inventare in einfacher Sprache
Wichtig: Bei Jugendlichen sind Ergebnisse weniger stabil als bei Erwachsenen — die Interpretation muss das berücksichtigen. Mehr dazu: Persönlichkeitstest für Jugendliche.
Ja, in Kombination mit anderen Diagnostiken. Für die Studienberatung haben sich bewährt:
- Big-Five-Profil: Welche Studien- und Lernformen passen?
- RIASEC-Interessen: Welche Fachrichtungen ziehen an?
- Leistungs- und Begabungstests: Wo liegen kognitive Stärken?
- Wertefragen: Was soll ein Studium / Beruf später bieten?
Persönlichkeitstests allein sagen kein Studienfach voraus — sie sind ein Faktor neben Schulnoten, Leistungsfähigkeit und Interessen. Wir kombinieren sie systematisch in unserer Studienberatung.
Grundsätzlich ja — unter Beachtung mehrerer Rahmenbedingungen:
- Berufsbezogenheit (DIN 33430): Nur Persönlichkeitsmerkmale messen, die für die Stelle relevant sind.
- Einwilligung: Schriftliche Zustimmung des Bewerbers nach DSGVO.
- Verhältnismäßigkeit: Kein unverhältnismäßiger Eingriff in die Persönlichkeitsrechte.
- Mitbestimmung: In Unternehmen mit Betriebsrat ist Mitbestimmung erforderlich (§87 BetrVG).
- Diskriminierungsfreiheit (AGG): Keine indirekte Diskriminierung nach Geschlecht, Alter, Herkunft.
Berufsbezogene, DIN-33430-konforme Tests wie das BIP sind rechtlich unproblematisch — „Charaktertests“ aus dem Internet hingegen oft heikel.
Ein hoher Wert auf der Skala Neurotizismus (auch „emotionale Labilität“ oder „negative Emotionalität“) bedeutet eine erhöhte Tendenz zu Stress, Sorgen, emotionalen Schwankungen und negativen Affekten. Das ist kein klinischer Befund, sondern eine Persönlichkeitsdisposition.
Differenziert nach Facetten umfasst Neurotizismus z. B. Ängstlichkeit, Ärger-Disposition, Depressivität, soziale Befangenheit, Impulsivität, Verletzlichkeit. Hoher Neurotizismus korreliert mit erhöhtem Stress-Risiko, höherer Wahrnehmung von Belastung und bei extremer Ausprägung mit klinischen Symptomen — ist aber für sich genommen keine Diagnose.
Eingeschränkt, aber substantiell. Die Meta-Analysen von Hunter & Hunter sowie Schmidt & Hunter zeigen typische Validitätskoeffizienten:
- Gewissenhaftigkeit: r = .20–.30 mit Berufserfolg über fast alle Berufsgruppen hinweg.
- Emotionale Stabilität (niedriger Neurotizismus): r = .15–.25.
- Extraversion: r = .15–.20, besonders in Verkaufs- und Führungsrollen.
Im Vergleich: Strukturierte Interviews (r = .51), kognitive Leistungstests (r = .51) und multimodale Diagnostik (r > .60) sind stärkere Prädiktoren. Persönlichkeit allein ist nie der einzige Faktor — aber im Mix unverzichtbar.
7. Kosten & Seriosität
Was unterscheidet einen 0-Euro-Online-Test von einer 500-Euro-Diagnostik? Was macht einen Test seriös? Diese 7 Fragen klären Investition, Wert und Qualitätsmerkmale.
Drei wesentliche Unterschiede:
- Wissenschaftliche Fundierung: Professionelle Tests basieren auf validierten Verfahren mit Manualen, Normstichproben und peer-reviewter Forschung. Kostenlose Online-Tests haben oft keine dokumentierte Validierung.
- Diagnostische Auswertung: Professionelle Berichte interpretieren Werte mit Konfidenzintervallen, Normvergleich und psychologischer Einordnung. Kostenlose Tests liefern oft Pauschalaussagen ohne Kontext.
- Persönliche Besprechung: Professionelle Diagnostik schließt mit einem Gespräch mit qualifiziertem Diagnostiker — bei Online-Tests bleiben Sie mit dem Ergebnis allein.
Für eine erste Selbsteinschätzung können kostenlose Tests sinnvoll sein (z. B. IPIP-Big-Five auf Forschungsplattformen). Für berufliche Weichenstellungen ist professionelle Diagnostik die Investition wert.
Sechs Qualitätsmerkmale, die Sie prüfen können:
- Veröffentlichte Gütekriterien: Reliabilität und Validität sind im Manual transparent dokumentiert.
- Peer-reviewte Validierungsstudien in wissenschaftlichen Journals.
- Repräsentative Normstichprobe (mindestens N > 500, geschichtet).
- DIN-33430-Konformität für berufsbezogene Diagnostik.
- Qualifizierte Anwender: Tests werden nur an psychologisch ausgebildete Diagnostiker abgegeben.
- DSGVO-konforme Datenverarbeitung.
Warnsignale: „Bahnbrechender neuer Test“ ohne wissenschaftliche Quellen, sofortige Typzuweisung ohne Konfidenzintervalle, Aufforderung zum Teilen auf Social Media.
Die Investition hängt vom Verfahren und der Auswertungstiefe ab. Bei uns:
- NEO-PI-R: 250 € — vollständige Big-Five-Diagnostik mit Facetten, schriftlicher Befund, 45-Minuten-Besprechung.
- BIP-6F: 300 € — berufsbezogen, ideal für Führungsdiagnostik, mit Manager-Profil und Coaching-Empfehlungen.
- Komplette Potenzialanalyse: ab 690 € — multimodal mit mehreren Tests, Interview und ausführlicher Beratung.
Detaillierter Überblick im Abschnitt Konditionen & Preise weiter unten.
In vielen Fällen ja, aber individuell zu prüfen. Mögliche Ansätze:
- Werbungskosten: Bei beruflicher Veranlassung (Karriereberatung, Berufswechsel, Führungsdiagnostik im Beruf) absetzbar in der Einkommensteuererklärung.
- Betriebsausgaben: Bei Selbständigen und Unternehmen für Personalentwicklung oder Personalauswahl.
- Außergewöhnliche Belastung: In Einzelfällen bei medizinisch-therapeutischer Indikation.
Wir stellen ordnungsgemäße Rechnungen mit Leistungsbeschreibung aus. Klärung mit Ihrem Steuerberater oder Finanzamt empfohlen — wir können das nicht rechtsverbindlich beurteilen.
„Welche Disney-Figur bist du?“-Quiz haben mit wissenschaftlicher Persönlichkeitsdiagnostik so viel zu tun wie ein Horoskop mit Astronomie. Sie sind unterhaltsam, aber:
- Keine wissenschaftliche Validierung
- Keine Normstichprobe
- Keine Reliabilitätsprüfung
- Häufig Datensammlung für Marketingzwecke
Auch viele „professionell“ wirkende kommerzielle Online-Tests (MBTI-Varianten, „Color-Codes“, 16Personalities) sind psychometrisch deutlich schwächer als universitäre Forschungsinstrumente wie das IPIP.
Standardisierte psychologische Tests dürfen nach den Berufsordnungen der Psychologenkammern und Test-Verleger nur von qualifizierten Personen angewendet und ausgewertet werden — typischerweise:
- Diplom-Psycholog:innen oder M. Sc. Psychologie
- Ärzt:innen mit psychiatrischer Qualifikation (im klinischen Kontext)
- Personalpsycholog:innen mit DIN-33430-Lizenz
- Berater:innen mit dokumentierter diagnostischer Qualifikation für berufliche Eignungsdiagnostik
Bei uns führen ausschließlich qualifizierte Diagnostiker:innen die Auswertung durch — bei der Studienberatung u. a. Diplom-Psychologin Raphaela Peitsch, in der Karriereberatung Gründer Jan Bohlken (Diplom-Sozioökonom) mit DIN-33430-Qualifizierung.
Sieben Prüfsteine vor der Buchung:
- Werden wissenschaftlich validierte Verfahren namentlich benannt (z. B. NEO-PI-R, BIP)?
- Gibt es eine persönliche Besprechung nach dem Test — oder nur einen automatischen Report?
- Wer wertet aus — ein qualifizierter Diagnostiker oder ein Algorithmus?
- Wird die DSGVO sauber dokumentiert?
- Sind Preise transparent, ohne versteckte Folgekosten?
- Gibt es Erfahrungsberichte echter Klienten — idealerweise auf unabhängigen Plattformen?
- Ist die Methodik dokumentiert oder bleibt sie „Geheimnis“?
Bei uns finden Sie all das transparent — Methodik unter Arten von Testverfahren, Preise auf Beratungsformen, Bewertungen bei ProvenExpert.
Konditionen & Preise
Drei häufig gebuchte Diagnostik-Pakete am Profiling Institut. Alle Preise inklusive persönlicher Besprechung, schriftlicher Befund und DSGVO-konformer Datenverarbeitung.
NEO-PI-R
Big-Five-Diagnostik mit 30 Facetten, schriftlicher Befund und 45-Minuten-Besprechung.
Mehr erfahrenPotenzialanalyse
Multimodale Diagnostik: NEO-PI-R + BIP + Leistungstest + Interview + ausführliche Beratung.
Details & BuchungBIP-6F
Bochumer Inventar zur berufsbezogenen Persönlichkeit, DIN-33430-konform, mit Manager-Profil.
Mehr erfahrenStudierende und Auszubildende erhalten reduzierte Konditionen. Vollständige Übersicht aller Beratungsformen und Preise: Beratungsformen & Preise
Praxis-Cases aus dem Institut
Vier reale Fragestellungen, wie sie uns wöchentlich begegnen — und welcher Methodik-Stack jeweils zur Antwort führt.
Geschäftsführer-Auswahl mittelständischer Maschinenbau
Familienunternehmen, 350 Mitarbeitende, suchte Nachfolger:in für die ausscheidende Inhaberin. Vier Finalist:innen aus internem und externem Pool. Unsere Aufgabe: fundierte Vergleichsdiagnostik.
IT-Architekt nach 18 Jahren auf Sinnsuche
Senior-Position, materiell sicher, fachlich unterforderlich — „Ich weiß nicht mehr, wofür ich morgens aufstehe.“ Wunsch: alternativen beruflichen Pfad finden, ohne den Sicherheitspuffer aufzugeben.
Abiturient zwischen Medizin und Psychologie
Sehr gute Schulleistung, beide Studienfächer in Reichweite, Familienerwartung Richtung Medizin — eigene Neigung unklar. Suchte nicht „das richtige“ Studium, sondern Klarheit für die eigene Entscheidung.
Führungskraft im Konflikt mit dem Team
Neu beförderter Bereichsleiter, fachlich exzellent, aber drei Teammitglieder kündigen innerhalb von 6 Monaten. Ursachenanalyse: Persönlichkeit, Führungsstil, blinde Flecken — und Entwicklungsschritte.
Ihr Diagnostik-Team
Persönlichkeitsdiagnostik ist Vertrauenssache. Lernen Sie die beiden Köpfe kennen, die die Verfahren bei uns einsetzen und Ihre Auswertung persönlich besprechen.
Jan Bohlken
15+ Jahre Eignungsdiagnostik, DIN-33430-Qualifizierung, Spezialisierung auf Führungskräftediagnostik und Karriereberatung. Mitglied nfb, DGfK und dvb.
Raphaela Peitsch
Schwerpunkte: klinisch-psychologische Diagnostik, Studienberatung, Begleitung bei beruflicher Neuorientierung. Spezialistin für NEO-PI-R und HEXACO-Auswertung.
Persönlich vor Ort an 7 Standorten
Sie wünschen ein Vor-Ort-Termin? Wählen Sie Ihren nächstgelegenen Standort:
Oder bundesweit per Online-Diagnostik mit anschließendem Video-Besprechungstermin.
Über den Autor
Jan Bohlken arbeitet seit 15+ Jahren mit wissenschaftlicher Persönlichkeitsdiagnostik und Eignungstests. Er ist DIN 33430-qualifizierter Diagnostiker, Mitglied des Nationalen Forums Beratung (nfb), der Deutschen Gesellschaft für Karriereberatung (DGfK) und des Deutschen Verbands für Bildungs- und Berufsberatung (dvb). Diese FAQ entstand aus zehntausenden persönlichen Beratungsgesprächen — den meistgestellten Fragen seiner Klienten gegenüber.