איך תדעו לגלות בקלות

ישנם 3 סוגי שקרים- שקרים, שקרים לבנים וסטטיסטיקה

"ישנם שלושה סוגי שקרים – שקרים, שקרים לבנים וסטטיסטיקה" – בניימין דיסראלי.

יש כמה משפטים נכונים כשזה נוגע לסטטיסטיקה: דבר ראשון, אפשר תמיד לעשות בה מניפולציות ולהטעות בעזרת סטטיסטיקה והדבר השני הוא שאם חוזרים על אותו משפט כמה פעמים בסופו של דבר אנשים יאמינו לו וזה מה שקורה בפועל כשמחקרים מצטטים מחקרים אחרים.

ב- 2012 בדיון בין ברק אובמה למיט רומני, הצהיר נשיא ארה"ב ברק אובמה ש"ב-30 החודשים האחרונים ראינו 5 מיליון משרות נוספות לשוק הפרטי" אבל 30 חודשים לוקח אותנו אחורה לינואר 2010 בעוד שברק אובמה התחיל את כהונתו בינואר 2009. (מקור)

התברר שבשנה הראשונה בתפקידו, ארה"ב הפסידה 5 מיליון משרות, אמנם המצב השתפר אבל בעצם בתקופתו של אובמה נוצרו רק 125,000 עבודות במגזר הפרטי אם מסתכלים על כל זמן הכהונה שלו.

רומני, מצידו, טען שיוסיף לשוק העבודה 12 מיליון משרות חדשות אם ייבחר. זה נראה מאד מרשים אבל זה בדיוק מספר המשרות שהאקונטמטריקאים חזו שיתווספו לשוק העבודה ב- 4 השנים הבאות אם הכלכלה תהייה יציבה, ללא כל קשר למי שיהיה לבית הלבן. (מקור)

 

מה זו הטעייה סטטיסטית או שקרים סטטיסטיים?

הטעייה סטטיסטית היא שימוש לרעה – בכוונה או שלא – במידע מספרי. אמנם המספרים לא משקרים אבל הם בהחלט יכולים להטעות אם משתמשים רק בחצאי אמת. הדיעה הרווחת היא שאנשים שיש להם אינטרס מתחום הכלכלה, החינוך והתיקשורת ישתמשו בהטעיה סטטיסטית כדי להשיג רווח כלשהו, אבל מסתבר שזה לא המצב היחידי. (מקור)

ב- 2009 ערך ד"ר דניאל פאנלי מאוניברסיטת אדינבורג מחקר. 

המטרה של המחקר הייתה לבדוק אם חוקרים אקדמאיים באוניברסיטאות מרמים. 

33.7% (כלומר שליש) מהמדענים הודו שהשתמשו בטכניקות שונות כדי לרמות מחקרים. 

הרמאויות כללו שינויים בנתוני המחקר כדי לשפר את התוצאות, פירוש סוביקטיבי לתוצאות, הסתרת פרטים אנליטיים והשמטת תצפיות בגלל תחושת בטן (מקור).

אפילו מדענים שאמונים על המידע אינם חסינים מטעויות ודעות קדומות שיכולות להתעורר מפרוש הניתוחים הסטטיסטיים. ישנן מספר דרכים בהם נתונים סטטיסטיים עלולים להטעות. הדרך השכיחה ביותר היא כמובן קורלציה לעומת סיבתיות. אם קיימת קורלציה בין שני משתנים זה לא אומר בהכרח שיש סיבתיות ביניהם, כלומר שאחד גורם לשני לקרות. בדרך כלל קורלציה מאירה פקטור/משתנה אחד (או יותר) נוסף שהוא הגורם העיקרי לקשר בין שני המשתנים שנבדקו. 

לדוגמה מחקר מצא ששתיית תה מגדילה את הסיכוי לסכרת ב -50% והתקרחות מגדילה את הסיכון למחלות לב ב- 70%! אבל האם שכחנו לציין את כמות הסוכר בתה? יכול להיות שבעצם שתיית הסוכר גורמת לסכרת ולא התה עצמו, ואת העובדה שהתקרחות וגיל מבוגר קשורים זה בזה – בדיוק כמו סיכון למחלות לב גיל מבוגר? כלומר הגיל הוא גורם הסיכון למחלות לב ולא ההתקרחות (מקור).

האם ניתן לעשות להשתמש בסטטיסטיקה למניפולציות. האם מספרים משקרים? אתם יכולים להיות השופטים.

שימוש מטעה בסטטיסטיקה יכול לנבוע כתוצאה מטעות או באופן מכוון והוא בעיה הרבה יותר רחבה שחודרת לתעשיות ותחומי מחקר רבים יותר. הנה כמה דוגמאות:   

דרך נוספת להטעות היא להשתמש בסקר פגום, כלומר לנסח את שאלת המחקר בצורה מניפוליבית:

לנוסח של השאלה במחקר יש אפקט עצום על התשובה. לתבניות מילים מסוימות יש אפקט משכנע והן מעודדות תשובות מסויימות. לדוגמה, בסקר שבדק דעות על מיסים נשאלו 2 שאלות שונות:

1. האם אתה מאמין שאתה צריך לשלם מיסים כדי שאזרחים אחרים יוכלו לא לעבוד?

2. האם אתה חושב הממשלה צריכה לעזור למובטלים למצוא עבודה?

דרך מדויקת יותר לשאול את אותה שאלה היא: "האם אתה בעד תמיכה ממשלתית להקטנת האבטלה?" או "מה דעתך על תמיכה ממשלתית בהקטנת אבטלה?"

בשתי השאלות האחרונות אין בכלל רמיזה או צפייה לדעה כלשהי של הנשאל ולכן היא יותר אמפירית, שזה אומר נטולת משוא פנים בעצם (מקור).

דרך נוספת להטות מחקרים היא היא לשאול שאלה אבל להקדים לשאלה תנאי מסויים או הצהרת של עובדה. כמו: "בהינתן העלייה בעלויות החיים של מעמד הביניים, האם את התומך בתוכניות ממשלתיות למניעת אבטלה".

חוק אצבע כשקוראים מחקר היא תמיד לשים לב לאופן שבה נוסחה השאלה שענו לה הנשאלים. לא תמיד השאלה מופיעה בפרסום באתרי החדשות ynet וכו' אבל בדרך כלל קיים קישור למקור ושם אפשר לקרוא את השאלה. לפעמים הנוסח של השאלה עונה יותר על שאלת המחקר מהתשובות שקיבלו במחקר (מקור).

טיילודר וויגן היה סטודנט למשפטים בהרוורד, שרצה להראות עד כמה מגוחך יכול להראות מידע סטטיסטי אם משתמשים בו בצורה לא נכונה. הוא יצר אתר שנקרא Spurious Correlations. הוא השתמש במידע ממרכז הבקרה על מחלות בארה"ב וממפקד האוכלוסין האמריקאי כדי להראות עד כמה סטטיסטיקה יכולה להטעות. הוא הראה שאפשר למצוא קשרים בין משתנים שאין שום קשר הגיוני ביניהם. כלומר הוא התמש בטכניקת כריית מידע שבה משתמשים במדגמים ענקיים כדי למצוא קשר בין המשתנים בלי תיאוריה שעומדת מאחורי מטרת המחקרהבעיה היא שאם אתה מודד הרבה משתנים בסופו של דבר תמיד נמצא קורלציה בין כמה מהם אבל זה לא מוכיח שקיים קשר סיבתי ביניהם (כלומר שאחד גורם לשני). 

הנה מספר דוגמאות לקשרים חזקים שהוא מצא:

דוגמה 1: נמצא שקיימת קורלציה גבוה מאד בין מספר טביעות בבריכות כתוצאה מנפילה בארה"ב ומספר הסרטים בהם הופיע ניקולס קייג' (מקור):

רק בגלל שקיימת קורלציה בין מספר הסרטים שבהם הופיע ניקולס קייג' למספר טביעות בתוצאה מנפילה לא אומר שניקולס קייג' גרם לטביעות או שככל שיש יותר טביעות מנפילות אז ניקולס קייג' משחק ביותר סרטים!!! (מקור)

דוגמה נוספת: צריכת גבינה לאדם בשנה נמצא בקורלציה גבוהה למסר האנשים שנחנקו למוות במיטה מהמצעים שלהם.

דוגמה 3: שיעור הגירושין במיין וצריכת מרגרינה בארה"ב (מקור)

אם כל האמריקאים יפסיקו לצרוך מרגרינה אז שיעור הגירושין במיין ירד? ברור שלא!

דוגמה 4: צריכת מוצרלה לאדם בארה"ב ומספר פרסי דוקטורט למהנדסים  (מקור): 

דוגמה 5: גיל של מיס אמריקה ומספר רציחות עם אדים ומכשירים חמים אחרים (מקור):

עוד דרך להטעות היא בעזרת מתאם (קורלציה) לקוי:

הדוגמה הטובה ביותר היא מחקר שנעשה לבדיקת הקשר בין נטילת תחליפי הורמונים לנשים וסיכון להתקפי לב וסרטן. 

מעבר לכך שתחליפי הורמונים עוזרים לנשים בתופעות גיל המעבר, היו חוקרים שטענו שהתחליפים גם מורידים את הסיכון למחלות לב. 

מדגם אפידמיולוגי אכן הגיע למסקנה הזו. אבל מחקר כזה הוא תצפיתי ולא לוקח בחשבון שנשים שלוקחות תחליפי הורמונים הן בדרך כלל ממעמד סוציו אקונומי גבוה יותר ולכן גם ככה הן בעלות סיכון נמוך יותר להתקפי לב. לכן אי אפשר להגיע למסקנה שהתרופות הן שגורמות לירידה בסיכון להתקפי לב אצל נשים שלוקחות תחליפי הורמונים אלא הגורם השלישי שהוא המעמד הסוציו אקונומי של האישה הוא שמפחית את הסיכון להתקפי לב (מקור).

דרך נוספת להטעייה היא בעזרת ויזואליזציה (הצגה) מטעה של הנתונים: הצגה מטעה של גרפים ותרשימים עלי ידי

  • שימוש בקנה מידה מטעה
  • נקודת התחלה בגרף (אפס או אחר) 
  • שיטת החישוב מטעה

בעוגת פאי צריכים להיות 100% אבל אם נסכם את האחוזים שמוצגים בתרשים הזה נגיע ל- 193% (מקור). 

דיאגרמת עוגה שגויה - מבוא לסטטיסטיקה א'

זה נראה כאילו יש הבדל עצום בין אחוז הנשים שתומכות במועמד Nari Shakri אז והיום כאשר בעצם ההבדל הוא רק של 5.52%. 

זה נובע מכך שהערכים בציר האנכי מתחילים מ- 48 במקום מאפס (מקור). 

דיאגרמת מקלות - מבוא לסטטיסטיקה א'

דרך נוספת להשתמש בסטטיסטיקה כדי להטעות היא הטיה סלקטיבית:

הכוונה לבחירת מדגמים שיתאימו לתוצאות שהחוקר רוצה להשיג או פשוט לבחור מדגם קן מאד שלא מייצג את האוכלוסיה.

לדוגמה: אם אנחנו רוצים לבדוק אם אנשים יודעים מהו הגיל החוקי לשתיית אלכוהול אבל ניקח מדגם שכולל רק סטודנטים למשפטים ונשאל אותם מה החוק אומר לגבי גיל מינימלי לצריכת אלכוהול אז סביר להניח שהתשובה שלהם תתהיה מדויקת ואז נגיע למסקנה שכולם יודעים מה הגיל המינימלי להחוקי לשתיית אלכוהול.

דוגמה נוספת: רוצים לדעת אם אנשים יודעים מה הזכויות של ביטוח הבריאות שלהם. שוב נשאל רק קבוצה של פנסיונרים לגבי זכויות הביטוח וסביר להניח שהם ידעו את התשובה ואז נוכל להסיק שכל האוכלוסייה יודעת מה הזכויות שלה.

דוגמה נוספת: לשאול 20 אנשים אותה שאלה ולקבל 18 "כן" ו- 2 "לא" לעומת לשאול 1000 אנשים ולקבל 950 "כן" ו- 50 "לא". אנחנו לא יכולים להסתמך על מדגם של 20 אנשים אבל כן יכולים להסתמך על מדגם של 1000 אנשים (מקור).

והנה מספר דוגמאות להטעיות בסטטיסטיקה בחיים האמיתיים:

הגרף שפורסם על ידי פדרצית תכנון להרות של אמריקה, ארגון שמתנגד להפלות, מטעה במיוחד.

לי הגרף המטעה שהציגו אפשר להסיק שככל שמספר ההפלות עולה כך נעשים פחות פרוצדורות להצלת חיים באמריקה. 

הגרף הנכון מתחתיו ומראה שאין קשר בין הפלות ומספר פרוצדורות להצלת חיים: 

כל מה ששינה הסטטיסטיקאי בגרף הזה היה קנה המידה, כלומר הציר האנכי של הגרף.

דוגמה נוספת:

קולגייט פירסמה ש-80% מרופאי השיניים ממליצים על משחת השיניים של קולגייט. אבל בעצם בשאלון שניתן לרופאי השיניים הם יכלו להמליץ על כמה משחות שיניים. רב הרופאים המליצו על יותר מאחת ולכן הפרסומת נאסרה לשימוש והורדה לאחר זמן קצר.

אנשים התעניינו גם בכתבות האלו:

"לנצח את הסטטיסטיקה" – קורס אונליין 

במבוא לסטטיסטיקה א' של האוניברסיטה הפתוחה:

אם גם אתם חוששים ממתמטיקה 

אם נמאס לכם לשבת בשיעורים בלי להבין על מה המורה מדבר

אם אתם רוצים הפעם להצליח לעבור את הקורס מבוא לסטטיסטיקה א' – אתם יכולים. זה הרבה יותר פשוט ממה שזה נראה. 

קורס תמציתי, מסודר וקל שעושה סדר בבלגן. 

הורידו את החוברת המסכמת של הקורס ותתחילו כבר עכשיו להצליח.

הקורס בנוי כך שלא תצטרכו להגיע כלל לשיעורים בכיתה, כל ההסברים והתרגולים נמצאים כבר בקורס עצמו. 

לתקופה מוגבלת : 450 ש"ח בלבד במקום 580 ש"ח 

הירשמו כבר עכשיו ותחסכו עד אלפי שקלים!!!