Machine Learning Metriken sind Werkzeuge, die dir zeigen, wie gut dein Computer-Modell funktioniert. Sie messen, ob deine Vorhersagen richtig oder falsch sind. Stell dir vor, du baust einen Roboter, der Katzen von Hunden unterscheiden soll…
manchmal macht er Fehler, und du musst wissen, welche Art von Fehlern das sind.
Die Konfusionsmatrix bildet das Fundament für alle wichtigen Klassifikationsmetriken. Sie enthält vier Elemente: True Positives (TP), False Positives (FP), False Negatives (FN) und True Negatives (TN).
Diese Zahlen helfen dir, Genauigkeit, Präzision und Trefferquote zu berechnen. Accuracy misst korrekte Vorhersagen mit der Formel: Accuracy = (TP + TN) / (TP + TN + FP + FN). Ein Modell kann 90% Genauigkeit erreichen, indem es einfach vorhersagt, dass alle Leads nicht konvertieren werden.
Verschiedene Metriken zeigen unterschiedliche Aspekte deines Modells. Precision = TP / (TP + FP) und zeigt dir, wie viele deiner positiven Vorhersagen tatsächlich richtig waren. Recall (auch Sensitivity oder TPR genannt) = TP / (TP + FN) misst, wie gut du wahre Positive erkennst.
Der F1-Score = 2 * (Precision * Recall) / (Precision + Recall) kombiniert beide Werte und reicht von 0 bis 1. ROC-Kurven zeigen die False Positive Rate gegen die True Positive Rate über verschiedene Schwellenwerte.
Sergej Schultenkampers Dissertation präsentiert ein Privacy-Risk Framework für digitale
Zusammenfassung
- Genauigkeit allein reicht nicht aus – ein Modell kann 90% Genauigkeit erreichen, indem es alle Fälle negativ vorhersagt.
- Präzision misst richtige positive Vorhersagen (TP/TP+FP), während Recall alle positiven Fälle erfasst (TP/TP+FN) – beide ergänzen sich.
- Der F1-Score kombiniert Präzision und Recall als harmonisches Mittel und eignet sich besonders für unausgeglichene Datensätze.
- ROC-Kurven zeigen die Balance zwischen Wahr-positiv-Rate und Falsch-positiv-Rate; AUC-Werte von 0,5 bedeuten Zufallsleistung.
- Je nach Anwendung variiert die wichtigste Metrik: Medizin braucht hohen Recall, Spam-Filter hohe Präzision.
Die Konfusionsmatrix: Grundlage der Klassifikationsmetriken

Die Konfusionsmatrix bildet das Herzstück jeder binären Klassifikation – ohne sie verstehst du deine ML-Modelle nicht wirklich. Diese Wahrheitsmatrix zeigt dir auf einen Blick, wo dein neuronales Netzwerk richtig liegt und wo es “daneben schießt” (besonders wichtig bei medizinischer Diagnose oder Computer Vision).
Elemente der Konfusionsmatrix
Vier Werte bilden das Herz jeder Klassifikationsmetrik.
| Element | Abkürzung | Beschreibung | Beispiel (Spam-Filter) |
|---|---|---|---|
| True Positives | TP | Richtig als positiv erkannte Fälle | Spam-Mails korrekt als Spam erkannt |
| False Positives | FP | Fälschlich als positiv klassifiziert | Normale E-Mails als Spam markiert |
| False Negatives | FN | Übersehene positive Fälle | Spam-Mails im Posteingang gelandet |
| True Negatives | TN | Korrekt als negativ identifiziert | Normale E-Mails bleiben im Posteingang |
True Positives zeigen perfekte Treffer. Spam-E-Mails landen im Spam-Ordner, genau wie gewünscht.
False Positives ärgern jeden Nutzer. Wichtige E-Mails verschwinden plötzlich im Spam-Filter (obwohl sie es nicht sind).
False Negatives bedeuten Ärger anders herum. Nervige Werbung flutet den Posteingang, weil der Filter versagt hat.
True Negatives funktionieren unsichtbar. Normale Nachrichten bleiben dort, wo sie hingehören.
Jeder Wert trägt zur Gesamtbewertung bei. TP und TN zeigen erfolgreiche Vorhersagen. FP und FN decken Schwächen auf.
Bei Spam-Klassifizierung zählt jede korrekt erkannte Spam-Mail als TP. Präzision berechnet sich durch TP / (TP + FP). Fehlerrate nutzt die Formel FN / (TP + FN).
Spezifität misst richtige Negativvorhersagen: TN / (FP + TN). Negative Predictive Value verwendet TN / (FN + TN). Fallout berechnet sich als FP / (FP + TN).
Matthews-Korrelationskoeffizient reicht von -1 bis 1. Perfekte Vorhersagen erreichen den Wert 1.
Visuelle Darstellung und Interpretation
Die Elemente der Konfusionsmatrix bilden das Fundament, doch ihre visuelle Darstellung macht die Daten erst richtig verständlich. Du siehst die Matrix als Tabelle mit vier Feldern: True Positive (TP), False Positive (FP), False Negative (FN) und True Negative (TN).
Diese Anordnung zeigt dir sofort, wo dein maschinelles Lernen Modell stark ist und wo es Schwächen hat. Qlik Predict und andere Tools nutzen diese Visualisierung, um komplexe Modellbewertung einfacher zu machen.
Eine gut gestaltete Konfusionsmatrix ist wie ein Röntgenbild für dein Modell – sie zeigt dir genau, wo die Probleme liegen.
Die Prozentwerte für Trefferquote, Ausfallquote, Fehlerrate und Spezifität werden direkt in der Matrix bereitgestellt. Perfekte Werte deuten auf Overfitting hin, deshalb solltest du realistische Ergebnisse erwarten.
Binäre Klassifikation wird durch diese Darstellung besonders transparent. TensorFlow und andere Deep-Learning Frameworks erstellen automatisch solche Matrizen für deine neuronalen Netzwerke.
Die Visualisierung hilft bei der Auswahl der richtigen Metrik für dein gegebenes Problem.
Unausgeglichene Datensätze profitieren besonders von dieser Matrix-Darstellung. Sie identifiziert verschiedene Fehlerarten schnell und präzise. Schwellenwertanpassungen verändern die Matrix sofort, was dir zeigt, wie sich deine Modell-Scores entwickeln.
Information Retrieval Systeme nutzen diese Visualisierung genauso wie medizinische Diagnose-Tools. MLOps Teams verwenden die Matrix für kontinuierliches Hyperparameter-Tuning und zur Überwachung von Modell-Drift.
Definitionen und Bedeutung
Du kennst diese Begriffe vielleicht schon… aber ihre genaue Bedeutung kann verwirrend sein. Jede Metrik erzählt dir eine andere Geschichte über dein Binärklassifikationsmodell, und du musst verstehen, welche Geschichte du hören willst.
Genauigkeit (Accuracy)
Genauigkeit zeigt dir, wie oft dein Machine Learning-Modell richtig liegt. Die Formel ist einfach: (TP + TN) / (TP + TN + FP + FN). Accuracy berechnet alle korrekten Vorhersagen geteilt durch alle Vorhersagen.
Ein perfektes Modell erreicht 1,0 oder 100% Genauigkeit, weil es keine falsch positiven oder falsch negativen Ergebnisse produziert.
Spam-Klassifizierung illustriert das Konzept gut: Accuracy misst den Anteil der E-Mails, die richtig klassifiziert wurden. Vorsicht bei unausgeglichenen Datensätzen! Ein Modell kann 99% Genauigkeit erreichen, indem es alle Fälle negativ vorhersagt, obwohl es nutzlos ist.
Binärklassifikationsmodelle und neuronale Netzwerke nutzen Accuracy als groben Indikator für Trainingsfortschritt. Kombiniere Accuracy immer mit anderen Messwerten für aussagekräftige Ergebnisse.
Präzision (Precision)
Präzision zeigt dir, wie genau dein Modell bei positiven Vorhersagen arbeitet. Du berechnest sie mit der Formel TP / (TP + FP), wobei TP für “True Positives” und FP für “False Positives” steht.
Eine hohe Präzision bedeutet wenige falsch-positive Vorhersagen… und das ist oft entscheidend für den Erfolg deines Machine-Learning-Projekts.
Präzision ist besonders wichtig in Szenarien, wo falsche positive Vorhersagen hohe Kosten verursachen.
Falsch-positive Ergebnisse können teuer werden, deshalb solltest du Präzision ernst nehmen. Multi-Klassen-Klassifikation erfordert individuelle Berechnung für jede Klasse. NaN-Werte (Not a Number) treten auf, wenn sowohl TP als auch FP gleich null sind.
Unausgeglichene Datensätze profitieren besonders von Präzisionsmessungen, da sie positive Vorhersagen besser bewerten.
Erhöhung der Präzision führt oft zu mehr falsch-negativen Ergebnissen. Dieser Trade-off beeinflusst deine Modellleistung erheblich. Statistische Tests und logistische Regression nutzen Präzision zur Bewertung.
Large Language Models und generative KI verwenden diese Metrik ebenfalls zur Optimierung ihrer Vorhersagequalität.
Trefferquote (Recall)
Die Trefferquote, auch Sensitivität genannt, misst etwas Wichtiges: Wie gut findet dein Modell alle positiven Fälle? Du berechnest sie mit einer einfachen Formel: TP / (TP + FN).
Hier steht TP für “True Positives” und FN für “False Negatives”. Ein perfektes Modell erreicht eine Trefferquote von 1,0 oder 100%. Diese Metrik zeigt dir, ob dein System wirklich alle wichtigen Fälle erfasst hat.
Recall ist besonders wertvoll bei unausgeglichenen Datensätzen. Stell dir vor, du entwickelst ein System für Krankheitsdiagnosen. Hier sind falsch-negative Ergebnisse sehr teuer, weil kranke Patienten übersehen werden könnten.
Dein Modell sollte lieber ein paar gesunde Menschen fälschlicherweise als krank einstufen, als echte Krankheitsfälle zu verpassen. Die True Positive Rate (TPR) beschreibt genau diese Fähigkeit deines Systems.
Hohe Trefferquoten sind gerechtfertigt, wenn die Kosten falsch negativer Werte hoch sind. Dein Modell kann dabei einige falsch positive Vorhersagen machen, solange es alle wahren Werte erfasst.
Diese Metrik aus der Signalentdeckungstheorie hilft dir zu verstehen, wie vollständig dein System arbeitet. Künstliche Intelligenz und ML-Konzepte nutzen diese Messung häufig für wichtige Entscheidungen.
Jetzt schauen wir uns an, wie du Recall mit anderen Metriken kombinieren kannst.
Der F1-Score
Der F1-Score kombiniert Präzision und Trefferquote zu einer einzigen Metrik… und das macht ihn besonders wertvoll, wenn du beide Aspekte gleichzeitig im Blick behalten willst. Diese Kennzahl hilft dir dabei, das richtige Gleichgewicht zwischen falschen Positiven und falschen Negativen zu finden – gerade bei unausgewogenen Datensätzen ist das entscheidend.
Berechnung des F1-Scores
Du berechnest den f1-wert als harmonisches Mittel von Präzision und Recall. Diese Berechnung gibt dir einen einzelnen Wert, der beide Metriken ausbalanciert.
- Multipliziere Präzision und Recall mit 2, dann teile durch die Summe beider Werte: (2 Präzision Recall) / (Präzision + Recall).
- Nutze die f1_score Funktion in Scikit-Learn für eine schnelle Berechnung in Python ohne manuelle Formeln.
- Berechne den makro-gewichteten f1-wert als Durchschnitt der F1-Scores jeder Klasse in deinem Datensatz.
- Ermittle den mikro-gewichteten f1-wert durch Zählung aller True Positives, False Positives und False Negatives zusammen.
- Verwende die fbeta_score Funktion, um die Gewichtung zwischen Präzision und Recall nach deinen Bedürfnissen anzupassen.
- Erreiche den Bestwert von 1,0, wenn sowohl Präzision als auch Recall beide perfekte Werte von 1,0 haben.
- Beachte, dass dein f-maß 0 wird, falls dein Modell fälschlicherweise annimmt, dass 100% der Leads nicht konvertieren.
- Interpretiere hohe F1-Scores als Indikator für hohe Werte anderer Metriken in deiner kontingenztafel.
- Analysiere niedrige Scores weiter, da sie auf Probleme mit der falsch-positiv-rate oder falsch-negativ-rate hinweisen können.
- Integriere die Berechnung in deine datenintegration Pipeline für automatische Modellbewertung in qlik cloud oder gcp Umgebungen.
Wann sollte der F1-Score verwendet werden?
Du nutzt den F1-Score am besten bei unausgeglichenen Datensätzen. Hier zeigt er dir ein klareres Bild als die einfache Genauigkeit. Stell dir vor, du arbeitest mit einem Datensatz, wo 95% der Fälle “normal” sind und nur 5% “problematisch”.
Die Genauigkeit kann dich hier täuschen, weil ein Modell schon bei 95% liegt, wenn es einfach alles als “normal” klassifiziert.
Besonders wertvoll wird der F1-Score, wenn sowohl falsch positive als auch falsch negative Fehler schwerwiegende Folgen haben. In der medizinischen Forschung beispielsweise kostet es viel, wenn du eine Krankheit übersiehst (falsch negativ) oder gesunde Menschen unnötig behandelst (falsch positiv).
Bei Fraud Detection auf github oder anderen Plattformen gilt dasselbe Prinzip. Hier balanciert der F1-Score Präzision und Recall perfekt aus, ohne dass du eine klare Priorisierung zwischen beiden treffen musst.
Multi-Class-Klassifizierung profitiert ebenfalls vom F1-Score, da er für jede Klasse einzeln berechnet wird. Chef Robotics könnte ihn nutzen, um verschiedene Objekterkennungsaufgaben zu bewerten.
Zeitreihenmodelle verwenden ihn oft zur Anomalieerkennung. Jetzt schauen wir uns genauer an, wie ROC-Kurven und die AUC (Area Under the Curve) funktionieren.
ROC-Kurven und AUC
ROC-Kurven zeigen dir, wie gut dein Modell zwischen verschiedenen Klassen unterscheidet – und das über alle möglichen Schwellenwerte hinweg (ziemlich praktisch, oder?). Der AUC-Wert fasst diese ganze Kurve in eine einzige Zahl zusammen, die dir sofort verrät, ob dein Algorithmus besser ist als pures Raten…
oder ob du vielleicht nochmal bei Google nach besseren Ansätzen suchen solltest.
Bedeutung der ROC-Kurve
Die ROC-Kurve zeigt dir, wie gut dein Modell zwischen positiven und negativen Klassen unterscheidet. Sie plottet die Falsch-positiv-Rate auf der x-Achse gegen die Wahr-positiv-Rate auf der y-Achse für verschiedene Schwellenwerte.
Diese Visualisierung hilft dir dabei, die Trade-offs zwischen Sensitivität und Spezifität zu verstehen… besonders wichtig, wenn du mit unausgeglichenen Datensätzen arbeitest.
Eine gute ROC-Kurve liegt möglichst nah an 1, was bedeutet, dass dein Modell sehr deterministisch arbeitet. Liegt die Wahr-positiv-Rate bei 0,5, ist dein Modell weniger deterministisch und somit schwächer.
Medizinische Forscher nutzen ROC-Kurven häufig zur Bewertung diagnostischer Tests, da sie eine klare Einschätzung der Modellleistung ermöglichen. Du kannst verschiedene Modelle direkt miteinander vergleichen und siehst sofort, welches bei variierenden Schwellenwerten besser abschneidet.
Interpretation der AUC
Du erkennst die Qualität deines Modells durch den AUC-Wert. Eine AUC von 0,5 bedeutet, dass dein Modell nicht besser als Zufall funktioniert… ziemlich enttäuschend, oder? Eine AUC von 1,0 zeigt perfekte Vorhersagen an.
Hohe AUC-Werte demonstrieren eine gute Trennfähigkeit zwischen positiven und negativen Ergebnissen. Kleine AUC-Werte signalisieren ein schlechtes Modell, das du überarbeiten solltest.
AUC ist entscheidend für die Bewertung von diagnostischen Tests in der medizinischen Forschung. Ärzte nutzen diese Metrik, um die Zuverlässigkeit ihrer Tests zu bewerten. Likelihood-Quotienten ergänzen oft diese Analyse.
Du findest AUC-Werte besonders nützlich bei unausgewogenen Datensätzen, wo traditionelle Genauigkeitsmaße versagen können. Datenlecks können jedoch deine AUC-Werte künstlich aufblähen und zu falschen Schlüssen führen.
Abwägungen zwischen Präzision und Trefferquote
Du musst oft zwischen hoher Präzision und hoher Trefferquote wählen – wie bei einer Waage, die nie perfekt ausbalanciert ist. Diese Entscheidung hängt davon ab, ob falsche Alarme oder verpasste Fälle für dein Projekt schlimmer sind.
Der Kompromiss bei Schwellenwerten
Der Schwellenwert stellt eine wichtige Wahrscheinlichkeit dar, dass eine Vorhersage zutrifft. Diese Einstellung schafft eine Abwägung zwischen falsch positiven und falsch negativen Werten.
Verschiedene Modelle arbeiten mit unterschiedlichen Schwellenwerten, je nach ihrem Anwendungsbereich. Qlik Predict berechnet Präzision und Trefferquote für hunderte mögliche Schwellenwerte von 0 bis 1, um den optimalen Wert zu ermitteln.
Zur Feinabstimmung des Schwellenwerts werden präzise Werte berechnet, um die F1-Scores der binären Klassifikationsmodelle zu optimieren. Alternative Schwellenwerte verschieben das Gewicht zwischen höherer Trefferquote oder höherer Präzision.
Nutzer passen häufig den Schwellenwert an, um bestimmte Messwerte zu optimieren. Die Matrix verändert sich automatisch, wenn der Schwellenwert angepasst wird.
Messwerte werden anhand eines festen Schwellenwerts berechnet und können sich ändern, wenn dieser Wert angepasst wird. Lineare Regression nutzt ähnliche Prinzipien bei der Vorhersagegenauigkeit.
Einbettungen in maschinellen Lernmodellen profitieren ebenfalls von optimierten Schwellenwerten. Jede Anpassung beeinflusst direkt die Performance deines Klassifikationsmodells.
Anwendung in verschiedenen Szenarien
Je nach Szenario und Branche variieren die Prioritäten bei der Auswahl der richtigen Metriken erheblich.
| Anwendungsbereich | Wichtigste Metrik | Begründung | Beispiel |
|---|---|---|---|
| Medizinische Diagnose | Recall (Trefferquote) | Falsch-negative Ergebnisse sind teurer als falsch-positive | Krebsfrüherkennung, COVID-19 Tests |
| Spam-Filter | Präzision | Falsche positive Vorhersagen verursachen hohe Kosten | E-Mail-Programme, Nachrichtenfilter |
| Betrugs-Erkennung | Präzision | Falsche Verdächtigungen schädigen Kundenvertrauen | Kreditkarten-Transaktionen, Online-Banking |
| Sicherheitssysteme | Recall | Übersehene Bedrohungen haben schwerwiegende Folgen | Flughafen-Scanner, Überwachungskameras |
| Empfehlungssysteme | F1-Score | Gleichgewicht zwischen Relevanz und Vollständigkeit nötig | Netflix, Amazon, Spotify |
| Qualitätskontrolle | Recall | Defekte Produkte dürfen nicht übersehen werden | Automobilindustrie, Pharmazie |
Bei unausgeglichenen Datensätzen ist Präzision oft hilfreicher als Genauigkeit. Recall bleibt besonders relevant, wenn Klassen stark ungleich verteilt sind. F1-Score wird sinnvoll, wenn Fehler unterschiedliche Kosten haben und ein Gleichgewicht benötigt wird. Verschiedene Branchen erfordern unterschiedliche Schwerpunkte, abhängig von Kosten, Vorteilen und Risiken des jeweiligen Problems. Gleichgewicht zwischen Präzision und Trefferquote ist für ein Mindestgenauigkeitsniveau wichtig. Diese praktischen Beispiele zeigen dir, wie unterschiedlich die Gewichtung sein kann, je nachdem welche Konsequenzen Fehlentscheidungen haben.
Anwendungsfälle und Beispiele
Du siehst diese Metriken überall in der Praxis — von Gesichtserkennung in deinen Fotos bis hin zu Suchmaschinen, die dir genau das zeigen, was du suchst. Lass uns mal schauen, wie Computer Vision und Information Retrieval diese Konzepte nutzen…
und warum das für dich wichtig ist.
Computer Vision
nutzt verschiedene Metriken zur Bewertung von Modellen. Du arbeitest oft mit Präzision, Recall und F1-Score bei Bilderkennungsaufgaben. Diese Kennzahlen helfen dir, die Leistung deiner Algorithmen zu verstehen.
Genauigkeit allein reicht nicht aus, besonders bei unausgeglichenen Datensätzen. Ein Modell kann 95% Genauigkeit erreichen, aber trotzdem wichtige Objekte übersehen.
ROC-Kurven zeigen dir das Verhältnis zwischen True-Positive-Rate und False-Positive-Rate. Diese Darstellung macht es einfach, verschiedene Modelle zu vergleichen. Der makro-gewichtete F1-Score wird häufig in -Anwendungen verwendet.
Spezifische Benchmarks bewerten deine Modellleistung in diesem Bereich. Informedness, Markedness und Korrelation ergänzen die Standard-Metriken.
Das Gleichgewicht zwischen Präzision und Trefferquote ist entscheidend für erfolgreiche -Projekte. Objekterkennung in autonomen Fahrzeugen braucht hohe Recall-Werte, um Unfälle zu vermeiden.
Gesichtserkennung in Sicherheitssystemen benötigt dagegen hohe Präzision, um Fehlalarme zu reduzieren. Erstaunlich treffsichere Vorhersagen sind in der technischen Entwicklung möglich, doch “Forecasting is a mixture of science, art, and luck” bleibt wahr.
Information Retrieval
Während Computer Vision sich auf Bilder konzentriert, arbeitet Information Retrieval mit Textdokumenten und Suchergebnissen. Du bewertest hier, wie gut dein Suchsystem relevante Dokumente findet.
Die gleichen Metriken, Präzision und Recall, spielen eine zentrale Rolle bei der Bewertung von Suchergebnissen.
Präzision im Information Retrieval zeigt dir den Anteil der als relevant klassifizierten Dokumente, die tatsächlich relevant sind. Recall hingegen misst den Anteil der relevanten Dokumente, die dein System gefunden hat.
Bei großen Dokumentensammlungen ist Recall oft wichtiger als Präzision, da du keine wichtigen Informationen verpassen möchtest. Ein klassisches Beispiel: Du suchst nach rechtlichen Dokumenten für einen Fall und musst sicherstellen, dass du alle relevanten Urteile findest.
Der F1-Score schafft ein Gleichgewicht zwischen Präzision und Recall bei der Bewertung von Suchsystemen. Die Anpassung des Schwellenwerts beeinflusst die Relevanzbewertung erheblich.
NaN (Not a Number) kann in der Bewertung auftreten, wenn keine relevanten Dokumente gefunden werden. Die Wahl der Metrik hängt vom Anwendungsfall ab: rechtliche Recherche erfordert hohen Recall, während gezielte Suche Präzision bevorzugt.
Fazit
Du hast jetzt ein solides Verständnis der wichtigsten Metriken für maschinelles Lernen entwickelt. Precision, Recall und F1-Score bilden das Fundament für die Bewertung deiner Klassifikationsmodelle.
Diese Werkzeuge helfen dir dabei, die Qualität deiner Algorithmen richtig einzuschätzen. Kein Modell sollte nur mit einer einzigen Metrik bewertet werden, denn ein ausgewogenes Set an Metriken ist entscheidend für verlässliche Ergebnisse.
Die Auswahl geeigneter Metriken beeinflusst direkt die Qualität maschineller Lernsysteme, die du entwickelst oder einsetzt.
Sergej Schultenkampers Forschung zeigt eindrucksvoll, wie wichtig präzise Bewertungsmethoden sind. Sein Gefährdungsmodell für digitale Zwillinge offenbart, dass 49,1% der digitalen Zwillinge ein hohes Gefährdungspotenzial aufweisen.
Das Framework zur Quantifizierung von Privatsphäre-Gefährdungen nutzt genau diese Metriken, um Risiken wie Identitätsdiebstahl und Spear-Phishing zu bewerten. Solche Anwendungen verdeutlichen, warum du die Balance zwischen Precision und Recall verstehen musst.
Deine zukünftigen Projekte werden von diesem Wissen profitieren, egal ob du Computer Vision-Systeme entwickelst oder Information Retrieval-Algorithmen optimierst. Der Blick auf den Verlauf von Präzision und Trefferquote bei der Klassifikation zeigt dir die Bedeutung des Gleichgewichts.
ROC-Kurven und AUC-Werte geben dir zusätzliche Einblicke in die Performance deiner Modelle. Nutze diese Erkenntnisse, um Systeme zu schaffen, die Nutzer beim.
Häufig gestellte Fragen
1. Was ist der Unterschied zwischen Genauigkeit und Präzision?
Genauigkeit zeigt, wie oft ein Modell richtig liegt (alle Vorhersagen zusammen). Präzision hingegen misst, wie viele der positiven Vorhersagen wirklich stimmen. Man könnte sagen, Genauigkeit ist das “große Ganze”, Präzision schaut nur auf die positiven Treffer.
2. Wie berechnet man die Trefferquote und wofür braucht man sie?
Die Trefferquote (oder Recall) zeigt, wie viele der tatsächlich positiven Fälle das Modell gefunden hat. Sie ist besonders wichtig, wenn man nichts übersehen darf, zum Beispiel bei Krankheiten oder Betrug.
3. Was macht den F1-Score so besonders?
Der F1-Score kombiniert Präzision und Trefferquote in einer einzigen Zahl. Das ist praktisch, weil man nicht zwischen beiden Werten hin und her springen muss, sondern eine klare Bewertung bekommt.
4. Warum sind ROC-Kurven nützlich für die Modellbewertung?
ROC-Kurven zeigen grafisch, wie gut ein Modell bei verschiedenen Schwellenwerten funktioniert. Sie helfen dabei, den optimalen Punkt zwischen “zu viele falsche Alarme” und “zu viele übersehene Fälle” zu finden, was in der Praxis gold wert ist.
Verweise
- https://labelf.ai/blog/what-is-accuracy-precision-recall-and-f1-score
- https://medium.com/@piyushkashyap045/understanding-precision-recall-and-f1-score-metrics-ea219b908093
- https://www.v7labs.com/blog/f1-score-guide (2022-12-16)
- https://pmc.ncbi.nlm.nih.gov/articles/PMC7958589/
- https://pmc.ncbi.nlm.nih.gov/articles/PMC10664195/
- https://www.researchgate.net/publication/276412348_Evaluation_From_precision_recall_and_F-measure_to_ROC_informedness_markedness_correlation
- https://opus4.kobv.de/opus4-udk/files/28/dissertation_scharkow_final_udk.pdf
- https://athene-forschung.unibw.de/doc/154181/154181.pdf
