לקרוא בין השורות – האיך והלמה של ChatGPT

לקרוא בין השורות – האיך והלמה של צ'ט ג'יפיטי

נראה שהשאלה האם אי פעם קראת טקסט שנראה כאילו נכתב על ידי אדם, רק כדי לגלות שהוא למעשה נוצר על ידי מכונה, אינה רלוונטית עוד. התשובה היא כן, כל הזמן, בכל מקום.

במאמר זה שמקורותיו במאמרו המדעי (והסופר ארוך) של סטיבן וולפרם, אנסה לפשט ולהסביר את הדרך בה עובדים מודלי שפה גדולים, מדוע הם מהווים הישג כל כך מרשים של הבינה המלאכותית ולצד זה מדוע בכל זאת אין להם מושג על מה הם מדברים.

מה זה ChatGPT?

בבסיסו כל מודל שפה גדול (LLM) נועד ליצור טקסט המדמה את דרך התקשורת שלנו, האנושית, בהתבסס על הנחיה או נושא מוגדרים. כדי לבצע את המשימה הוא מסתמך על ארכיטקטורת רשת עצבית (רשת נוירונים) המאפשרת למודל לעבד כמויות גדולות של נתוני טקסט וללמוד דפוסים ויחסים בין מילים וביטויים.

מאגרי הלמידה של ChatGPT מורכבים ממיליארדי מילים ממקורות שונים, כולל ספרים, אתרי אינטרנט ותוכן דיגיטלי אחר. על ידי ניתוח הנתונים הללו ולמידה מהם לאורך זמן, ChatGPT יכול ליצור טקסט חדש הדומה מאוד לכתיבה אנושית.

אז איך זה עובד?

ממעוף הציפור ChatGPT עובד על ידי קבלת הנחיה או נושא ויצירת טקסט חדש על בסיסם. המודל עושה זאת על ידי פירוק הקלט לחתיכות קטנות יותר הנקראות אסימונים (Tokens) ולאחר מכן חיזוי סטטיסטי, איזה אסימון אמור להגיע לאחר מכן, זאת על סמך דפוסים שנלמדו ונבנו במהלך אימון המודל.

לדוגמה, אם ניתן ל-ChatGPT את צמד המילים "השועל המהיר", הוא עשוי לחזות שהמילה הבאה צריכה להיות "רץ" בהתבסס על ניתוח של ביטויים דומים בנתוני האימון. לאחר מכן הוא יפיק את המשפט המלא "השועל המהיר רץ" וימשיך לכתוב את המשך הטקסט. אבל לרוב הביטוי הרצוי אינו מנותק מהקשר, ולכן אחת התכונות המרכזיות של ChatGPT היא היכולת ליצור טקסט קוהרנטי ורלוונטי מבחינת הקשר, בדיוק כמו שהיינו מצפים לעשות זאת מאדם בוגר. זה מושג באמצעות תהליך המכונה "קשב" (attention), המאפשר למודל להתמקד בחלקים השונים של הקלט ולהשתמש בהם כדי לעדכן את התחזיות שלו. לדוגמה, אם ניתן ל-ChatGPT את ההנחיה "הלכתי לחנות לקנות", הוא עשוי לחזות שהמילה הבאה צריכה להיות "מצרכים" בהתבסס על הניתוח של "הליכה לחנות", "קניה", "מה יש בחנות"... עם זאת, אם ניתן לו את ההנחיה "הלכתי לחנות בגדים לקנות", סביר שינבא שהמילה הבאה צריכה להיות "נעליים" או "מכנסיים" בהתבסס על ההקשר החדש של המשפט.

עד כאן מזכיר ולא במקרה את דרך התקשורת והחשיבה האנושית, אבל אני מבקש להעמיק דווקא בשוני הדרמטי. בדרך כלל תהליך התקשורת האנושי כולל חשיבה תחילה על התוצאה או המסר שרוצים להעביר, ולאחר מכן תרגום המסר למילים. זה מכונה לעתים קרובות עיבוד "Top-Down", כאשר המטרה או הכוונה ברמה המחשבתית מנחה את התהליכים הלשוניים ברמה נמוכה יותר.

לעומת זאת, מודלים של שפה משתמשים בדרך כלל בגישת עיבוד "Bottom-Up", שבה הם יוצרים טקסט המבוסס על דפוסים סטטיסטיים ללא מטרה או כוונה שנקבעו מראש. הם מתחילים עם מילים או ביטויים בודדים ואז בונים יחידות טקסט גדולות יותר על סמך הבחירות הראשוניות הללו. כלומר, בתחילת כתיבת התשובה וגם במהלכה, אין לצ'ט שום מושג לגבי המסר אותו הוא מבקש להעביר. ברשותכם עוד דוגמה, אם אני אשאל "מה תרצה לאכול?", התהליך המחשבתי-תקשורתי הסביר שיקרה הוא החלטה של המוח (או כל איבר אחר שמחליט אצלנו על ענייני אוכל) שאני רוצה פיצה ולאחר מכן תרגום הרצון לטקסט "אני רוצה פיצה". במודל השפה מתרחש תהליך הפוך, תחילה הוא יקליד "אני", לאחר מכן יתאים סטטיסטית את המילה "רוצה" ורק כעת ישקוד על בחירת המאכל "פיצה", למעשה הוא מגלה את התשובה בזמן אמת יחד עם הקורא.

הסיבה ש-ChatGPT לא יכול לחזות את הפלט מראש נטועה באופיין של רשתות עצביות. רשתות עצביות נועדו ללמוד דפוסים ויחסים בנתונים, אך אין להן מערך קבוע מראש של כללים או הוראות כיצד ליצור פלט. במקום זאת, הם משתמשים באלגוריתמים מתמטיים מורכבים כדי להתאים את המשקלים וההטיות הפנימיים על סמך הקלט שהם מקבלים.

חשוב לציין שגם התקשורת אנושית יכולה לכלול עיבוד מלמטה למעלה. זה קורה כאשר אנו משתמשים במידע חושי כדי להנחות את בחירות השפה שלנו, לדוגמה אם אנו מתארים את מה שאנחנו רואים או שומעים, או כאשר אנחנו מפעילים את "אומנות החרטוט", הפלט המילולי מגיע במקביל או אף לפני התהליך המחשבתי.

היבט חשוב נוסף בדרך הפעולה של ChatGPT הוא היכולת ליצור טקסט מגוון ובלתי צפוי. זה מושג באמצעות שתי טכניקות המכונות "דגימה" ו"טמפרטורה" המאפשרות למודל לבחור מתוך מגוון של תחזיות אפשריות במקום לבחור תמיד את זו בעלת ההסתברות הגדולה ביותר . טכניקת דגימה נפוצה אחת ידועה בשם "דגימת top-k", הכוללת בחירה מבין k התחזיות הסבירות ביותר בכל שלב. טכניקה נוספת היא "דגימת גרעין" (nucleus sampling) הכוללת בחירה מתוך תת-קבוצה של תחזיות שיחד מהוות אחוז מסוים (למשל 90%) מההסתברות הכוללת. הטמפרטורה עם זאת נועדה לקבוע את שכיחות הסטייה מהניבוי הסביר ביותר, ערך טמפרטורה גבוה יותר יביא לפלט אקראי ומגוון יותר, לעומת זאת, ערך טמפרטורה נמוך יותר יביא לפלט שמרני וניתן לחיזוי. החוקרים גילו שערך טמפרטורה 0.8, מספק תוצאות מיטביות. לשאלה מדוע דווקא 0.8, וולפרם נותן "הסבר מדעי משכנע" ומפנה אותנו לדת אפריקאית עתיקה וודו (Voodoo).

היתרון בשימוש בדגימה וטמפרטורה במודלים של שפות בינה מלאכותית הוא הגיוון והיצירתיות הגדולים בטקסט שנוצר. כך לדוגמה במקום "אני רוצה פיצה" יוכל הצ'ט להפתיע בגפילטע פיש עסיסי. ללא טכניקות אלה, המודל תמיד ייצר את אותו פלט בהינתן אותו קלט, ויהפוך במהירות לשבלוני וחזרתי. על ידי הכנסת אקראיות לתהליך, הדגימה והטמפרטורה מאפשרות טקסט בעל גוון טבעי המאפיין כתיבה אנושית.

מה צופן העתיד?

חוקרים ומפתחים עובדים ללא הרף לפתח טכניקות וארכיטקטורות חדשות שיכולות לשבור את שיא הביצועים של ChatGPT. לדוגמה, טובי המוחות שמקצועם כלל אינו עוסק בבינה מלאכותית, אלא בבלשנות, פסיכולוגיה וטכניקות השפעה עסוקים בפיתוח מודלים שיכולים ליצור טקסט שהוא לא רק קוהרנטי ונכון מבחינה דקדוקית, אלא גם מרתק ומשכנע מבחינה רגשית.

למרות הבינה של הבינה מלאכותית, חשוב לזכור. נכון לרגע זה, ואולי לעולמי עולמים, מודלי השפה הטבעית אינם מבינים דבר מהטקסטים שהם מפיקים. הם אולי הרבה יותר טובים מאיתנו להבין את ההקשרים הלשוניים, אך זוהי דרכם היחידה להפגין את בינתם. הם נטולי כל יכולת לעשות את ההקשר החשוב ביותר, מה שגם פעוטות מצליחים לעשות בקלות יחסית – הקשר המציאות. הם מעולם לא טעמו פיצה, לא הריחו פיצה, לא נגעו בפיצה ואפילו לא ראו פיצה (רק אוסף של פיקסלים שתויג עבורם כפיצה). ולכן אם נאמן אותם עם מספיק דוגמאות של פיצות מעופפות, נקבל ללא ספק הרבה תוצאות של פיצות מעופפות. תסכימו איתי שאין מספיק תמונות של פיצות מעופפות כדי שתפיסת המציאות שלכם תכיל פיצה מתעופפת לסלון דרך חלון המרפסת.

בינה בינה אבל עדיין מלאכותית

בעוד שהמודלים של שפת הבינה המלאכותית, כמו ChatGPT, עשו קפיצות משמעותיות קדימה, נותרו עדיין דברים לעשות. האם נוכל להתמודד בהצלחה עם ההטיות השזורות בנתוני האימון? כיצד נגיע ליכולת ליצור טקסטים שהם לא רק תכנים ממוחזרים של נתונים קיימים, אלא גם עוסקים בנושאים שמעולם לא אומנו להם? האם אי פעם נצליח להבין באמת את "איך" ו"למה" המודלים הללו מגיעים לתשובות מסוימות? והאם ניתן להגיע להבנה אמיתית של שפה כמו שבני האדם מבינים אותה, עם כל ההקשרים, הניואנסים והרגש שמעניקים לה חיים? התשובות לשאלות אלו לא רק יעצבו את הדרך שבה אנו מתקשרים עם הבינה המלאכותית של היום, אלא את מהות האינטראקציה בין המכונות לבין האנושות בעתיד.