Chais2025_Heb_and_Eng-web
34 ע צ'טבוטים מבוססי AI מול מעריכים אנושיים: ניתוח דיוק ציונים ואיכות משובים בהשכלה הגבוהה בחינו ך מדעי. נמצא מתאם ל כש - 90% הסכמה בשני המקרים. לה שוואת התפלגות רמות איכות המשוב בין העמיתים לבין ה צ'טבוטים, בוצע ה סדרת ני מבח חי בריבוע . ממצאים הבדלים ב מידת דיוק הציונים שניתנו לפרויקטים על ידי צ'טבוטים, המרצה והעמיתים הציונים הממוצעים שהופקו על ידי ה צ'אטבוט ים היו באופן עקבי גבוהים יותר ) M = 92.04, SD = 6.74 ( בהשוואה ל תמרצ ציוני הקורס והעמיתים שהיו נמוכים יותר אך קרובים ) M = 84.24, SD = 6.78; M = 83.47, SD = 8.45 ( . ניתוח ANOVA הצביע על הבדל מובהק סטטיסטית ב ין ציוני שלוש ה קבוצות ) F (1.58, 123.10) = 52.95, p < .001; η ² = .40 ( . ב סדרת מבחני t נמצאו הבדלים מובהקים בין הציונים שהוקצו על ידי צ'אטבוט ים אל מול ציוני העמיתים ) t (75) = -7.52, p < .001, d = .85 ( ו ציוני מול מרצה ) ה t (75) = -9.44, p < .001, d = 1.06 .( עם זאת, ההבדל בין הציונים שניתנו על ידי העמיתים לבין ציוני המרצה לא היה מובהק סטטיסטית ) t (75) = 86, p = .39, d = .09 .( מבחן פירסון חשף מספר קשרים מרכזיים בין שלושת מקורות ההערכה . כפי שניתן טבלה ב לראות 1 , נמצא מתאם חיובי חזק ומובהק בין הציונים שניתנו על ידי העמיתים לבין אלו שניתנו על ידי המרצה ) r (74) = .63, p < .001 .( בין ציוני הצ'אטבוט ים לציוני המרצה נמצא מתאם חיובי בינוני ) r (74) = .42, p < .001 ,( בעוד ש בין ציוני הצ'אטבוט ים ל עמיתים נמצא מתאם חלש ולא מובהק ) r (74) = .14, p = .22 ( . טבלה 1 . ם מתאמי עבור ציוני הצ'טבוטים, המרצה והעמיתים מקור ההערכה צ'טבוטים מרצה עמיתים צ'טבוטים 1 - - מרצה *** 0.42 1 - עמיתים 0.14 *** 0.63 1 הבדלים באיכות המשוב ים שניתנו לפרויקטים על ידי צ'טבוטים מול ם העמיתי הניתוח האיכותני העלה כי ה צ'טבוטים סיפקו בממוצע ים משוב באיכות גבוהה יותר בהשוואה לעמיתים . איור 1 מ ציג את התפלגות הערות המשוב שסופקו על ידי ה צ'אטבוטים והעמיתים לפי חמש רמות האיכות שנבחנו, באחוזים מתוך כלל הערות המשוב שסופקו על ידי כל אחד ממקורות ההערכה הללו. נמצא כי משובים מסוג חיזוק , שהוגדרו כמשוב באיכות הנמוכה ביותר, הופיעו ב - 7.13% בלבד מהערות המשוב שניתנו על ידי העמיתים ו נעדרו לחלוטין ממשוב טים צ'טבו ה . דוגמאות להערות מסוג זה כללו הכרה כללית בחוזקות הפרויקט המוערך: " מבוא מצוין" ) S1 גבר , ( או "עבודה ממש טובה, אין לי מה להוסיף!" ) S37 , (. אישה באופן דומה, משובים מסוג הצ הרה היו גם כן נפוצ ים בעיקר בקרב העמיתים ) 32.57% (, בעוד פחות מ ש - 1% םמה נוצרו על ידי צ'טבוטים, עם הבדל מובהק סטטיסטית ) χ ² = 119.29, p < .001 (. הערות וללכ אלו הצהרה מה קיים או חסר בפרויקט לפי הקריטריונים מחוון ב , מבלי לספק הסבר נוסף , לדוגמה: " אין התייחסות ל סולם המדידה של כל שאלה כפי שנדרש בקריטריונים להערכה" ) S63 , (. אישה
Made with FlippingBook
RkJQdWJsaXNoZXIy ODc3OTcw