בינה מלאכותית
צילום: טוויטר

הבנצ'מארק של ה-AI: האתר שמודד את ביצועי הצ'טבוטים והסערה סביב מטא

בזמן שעיני כל העולם היו נשואות לקריסה בשווקים, חובבי הבינה המלאכותית התעסקו בדירוג של מודל הבינה המלאכותית החדש באתר הפופלארי צ'טבוט ארנה; איך מדרגים את המודלים החדשים והאם החברות עושות מניפולציה על המשתמשים?

איתן גרסטנפלד |

בזמן שכל העולם עסוק בטלטלה בשווקים הפיננסים בעקבות תוכנית המכסים של הממשל האמריקאי, חובבי הבינה המלאכותית מוטרדים בכלל מאמינות המודל החדש שהשיקה חברת מטא. במוקד המיני-סערה עומד הדירוג של המודל באתר בשם "צ'טבוט ארנה"  (Chatbot Arena), שמדרג באופן עצמאי את המודלים בשוק, והפך בשנה וחצי האחרונות לבנצ'מארק של הצ'אטבוטים, אשר מציף שאלות רבות בנוגע לאופן שבו בוחנים את פלטפורמות הבינה המלאכותית שיוצאות כל העת אל השוק.


תחילתו של האירוע בהשקה של דגם הבינה המלאכותית החדשים של חברת מטא העונה לשם Maverick. המודל, דורג במקום השני בצ'טבוט ארנה, אך עד מהרה נטען כי הגרסה של Maverick אותה פרסמה החברה באתר שונה מהגרסה שזמינה לציבור המפתחים. מי שעלו על הדבר הם חוקרי בינה מלאכותית שהבחינו בהבדלים משמעותיים בתשובות של Maverick בגרסה ששוחררה לציבור לבין זה שנמצאת בצ'טבוט ארנה. כך, הם מצאו שהמודל באתר הפופולארי מספק תשובות ארוכות ומשתמש בהרבה אימוג'ים.


החשיפה של המקרה, מהווה אבן בוחן בכל הקשור לדירוגים של המודלים השונים. למעשה, ייתכן שזו הפעם הראשונה שחברת בינה מלאכותית תאלץ להודות שהיא ביצעה התאמות במודל שלה כדי לקבל ציון טוב יותר באתר הדירוג שהפך לפופולארי (ראו הרחבה בהמשך). מה שגם מצית מחדש שאלות בנוגע לאופן שבו ניתן למדוד את הביצועים של המודלים השונים וכן את הדרכים שבהן החברות מנסות להשיג יתרון על פני מתחרותיהן בשוק שהופך צפוף ותחרותי מיום ליום. 


הבנצ'מארק של ה-AI

צ'טבוט ארנה החלה את דרכה בתחילת 2023 על רקע העניין הציבורי הגובר בעקבות השקת ChatGPT של OpenAI. האתר נוצר על ידי אוניברסיטת ברקלי שבקליפורניה כפרויקט מחקרי הבוחן שורה של דגמי AI חדשים, ומאפשר למשתמשים בצ'אטבוטים לדרג אותם בהתאם לביצועיהם. "כולם אומרים שהמודל שלהם הוא הטוב ביותר. אז שקיפות ועצמאות עוזרים לבחון זאת", הסביר ווי-לין צ'יאנג, פוסט-דוקטורנט באוניברסיטה, שגם מוביל את האתר, את המוטיבציה מאחורי הפרויקט. ואכן, האתר הפך במהרה למקום פופולרי עבור מי שמתעניין בתחום ובמידה מסוימת לאינדיקטור המוביל ביחס לדירוג המודלים. 


האתר, שזוכה לכ-1 מיליון מבקרים מדי חודש, הפך לזירה שבה בודקים חברות בינה מלאכותית מובילות את הדגמים החדשים שלהם. חברות מסוימות אפילו מפרסמות באתר דגמים לפני שהן מפרסמות אותן לציבור הרחב (כפי ש-OpenAI עשתה עם GPT-4o שלה באביב שעבר). נכון לתחילת פברואר,  האתר דירג יותר מ-200 דגמים, כולל אלה של גוגל, אנטרופיק, מטא,  OpenAI ו-xAI. האתר פועל בקוד פתוח, כך שהנתונים והקוד שלו זמינים לשימוש של אחרים, והוא נתמך על ידי כמה מענקים חיצוניים, כגון מקרנות ההון סיכון סקויה ואנדרסון הורוביץ. 


מכיוון שמדובר בפרויקט מחקר אקדמי, סטודנטים של ברקלי הם בעיקר אלה שתמחזיקים את האתר. המשתמשים מדרגים את הצ'אטבוטים בצורה אנונימית, כך שהם מקבלים הוראה להעלות שאלה לשני צ'אטבוטים, מבלי שהם יודעים באלו מדובר, ואז לבחור בתשבוה המועדפת. לאחר ההצבעה נחשף שמו של כל צ'אטבוט, כאשר הצבעות משמשות כדי לסייע ביצירת דירוג המעריך את החוזק של כל דגם. עד כה, בוצעו באתר יותר מ-2.6 מיליון הצבעות של משתמשים עבור דגמי הבינה המלאכותית המועדפים עליהם.


אך כמו בכל דבר, גם במקרה של צ'טבוט ארנה הביקורת לא איחרה לבוא. ראשית, נטען כי הקהל של צ'טבוט ארנה אינו מייצג, שכן מדובר באוכלוסייה המבוססת לרוב על אקדמיים המתעניינים בנושאים כמו למידת מכונה. שנית נטען כי מערכת הדירוג לא באמת מייצגת את טיב המודלים ומידת הקלות שבה ארגון יכול לאמץ אותם.בנוסף, עלו חששות לגבי האפשרות של מניפולציה של הדירוגים, טעות אותם דחו מנהלי האתר, שטענו כי ננקטים שורה של צעדים, כדי להגן מפני שימוש זדוני בו.

קיראו עוד ב"BizTech"


"בעוד שצ'אטבוט ארנה יכולה להציע תמונת מצב של חווית משתמש - אם כי מבסיס משתמשים קטן ופוטנציאלי לא מייצג - אין להתייחס אליה כסטנדרט הסופי למדידת אינטליגנציה של מודל", הסביר לין את האופן שבו הוא רואה את המקום שלהם בתעשייה. "במקום זאת, זה נתפס בצורה מתאימה יותר ככלי למדידת שביעות רצון המשתמשים במקום מדד מדעי ואובייקטיבי של התקדמות בינה מלאכותית."

הגב לכתבה

השדות המסומנים ב-* הם שדות חובה