יום ראשון, 5 ביולי 2020

סוגי שגיאות בסיווג בלמידת במכונה




כל מסווג שנבנה ונאמן בעזרת למידת מכונה יעשה לפעמים את אחת מהשגיאות הבאות:

1.      יסווג דוגמה כחיובית למרות שהיא שלילית - חיובי שקרי.
2.      יסווג דוגמה כשלילית למרות שהיא חיובית – שלילי שקרי.
3.      יסווג דוגמה בצורה נכונה אבל מהסיבות הלא נכונות. טעות זה קשה לתפוס, מכיוון שהיא מניבה תשובה רצויה, ורק ע"י נבירה בקרביים של המודל, או ניתוח של מיליוני תוצאות, נוכל למצוא אותה.

שגיאות מהסוג הראשון, חיובי שלילי, משפיעות על Precision – היחס בין הדגימות החיוביות שזוהו בהצלחה לבין כל הדגימות שזהו כחיוביות.
שגיאות כאלו בעיקר שוחקות את האמון של המשתמש במערכת בגלל התראות שווא רבות.

השגיאה מהסוג השני, שלילי שקרי, משפיעה על Recall  - היחס בין הדגימות החיוביות שזוהו בהצלחה לבין כל הדגימות החיוביות.
שגיאות כאלו פוגעות באפקטיביות המערכת וביכולתה לזהות את מה שעליה לזהות.

למה צריך את שני המדדים? נבהיר ע"י דוגמה – מסווג שתפקידו להגיד האם התמונה היא של חתול או של כלב. המסווג טיפש ולכן הוא תמיד מחזיר תשובה שהתמונה היא של חתול. נניח שאנחנו בודקים את המסווג בעזרת חמש תמונות של חתול וחמש של כלב.
הRecall  של המסווג יהיה 100% מכיוון שהוא זיהה את כל תמונות החתולים בהצלחה.
הPrecision  לעומת זאת, יהיה רק 50% מכיוון שהוא טעה חצי מהפעמים והמדגם סימטרי בגודלו.

בדרך כלל הפרמטרים הללו באים אחד על חשבון השני – עבור אותו מודל אפשר לעלות מעט את ה Precision אך לרדת בתמורה ב Recall.
אז איך בוחרים את היחס בין שני מדדים אלו? כאן נכנס לתמונה ציון F1 ששווה לפעמים מכפלת המדדים חלקי הסכום שלהם – ניסיון למזג מיצוע אריתמטי וגאומטרי.




אין תגובות:

הוסף רשומת תגובה