למידת מכונה (ML) היא המחקר המדעי של אלגוריתמים ומודלים סטטיסטיים בהם מערכות מחשב משתמשות לביצוע משימה ספציפית מבלי להשתמש בהוראות מפורשות, תוך הסתמכות על דפוסים והיקיות במקום. זה נתפס כקבוצת משנה של בינה מלאכותית. אלגוריתמים למידת מכונות בונים מודל מתמטי המבוסס על נתוני מדגם, המכונים "נתוני הדרכה", על מנת לקבל תחזיות או החלטות מבלי שתוכנתו במפורש לביצוע המשימה .:2 אלגוריתמי למידת מכונה משמשים במגוון רחב של יישומים, כגון כסינון דוא"ל וראייה ממוחשבת, כאשר קשה או בלתי ניתן להפשיל לפתח אלגוריתם קונבנציונאלי לביצוע יעיל של המשימה.
למידת מכונה קשורה קשר הדוק לסטטיסטיקה חישובית, המתמקדת בהעלאת תחזיות באמצעות מחשבים. חקר האופטימיזציה המתמטית מעניק שיטות, תיאוריה ותחומי יישומים לתחום למידת המכונה. כריית נתונים היא תחום לימוד בתחום למידת מכונות, ומתמקד בניתוח נתונים חוקר באמצעות למידה ללא פיקוח. ביישום שלה על בעיות עסקיות, מכונה גם למידת מכונה כניתוח חזוי.
למידת מכונת השמות טבעה ב- 1959 על ידי ארתור סמואל. טום מ. מיטשל סיפק הגדרה מצוטטת ורשמית יותר של האלגוריתמים הנלמדים בתחום למידת המכונה: "אומרים שתוכנת מחשב לומדת מניסיון E ביחס לכיתת משימות מסוימת T ומדידת ביצועים P אם ביצועיה במשימות. ב- T, כפי שנמדד על ידי P, משתפר עם ניסיון E. " הגדרה זו של המשימות בהן עוסק למידת מכונות מציעה הגדרה מבצעית מיסודה ולא הגדרת התחום במונחים קוגניטיביים. זאת בעקבות הצעתו של אלן טיורינג במאמרו "מכונות מחשוב ומודיעין", שבו השאלה "האם מכונות יכולות לחשוב?" מוחלפת בשאלה "האם מכונות יכולות לעשות את מה שאנחנו (כישויות חושבות) יכולות לעשות?". בהצעתו של טיורינג נחשפים המאפיינים השונים שיכולים להיות בידי מכונת חשיבה וההשלכות השונות בבניית אחת.
משימות למידת מכונות מסווגות למספר קטגוריות רחבות. בלימוד בפיקוח האלגוריתם בונה מודל מתמטי מקבוצת נתונים המכיל גם את התשומות וגם את התפוקות הרצויות. לדוגמה, אם המשימה הייתה קובעת אם תמונה מכילה אובייקט מסוים, נתוני ההדרכה עבור אלגוריתם למידה בפיקוח יכללו תמונות עם ובלי אובייקט זה (הקלט), ולכל תמונה תהיה תווית (הפלט) שתצביע אם הוא הכיל את החפץ. במקרים מיוחדים, הקלט עשוי להיות זמין באופן חלקי בלבד, או מוגבל למשובים מיוחדים. אלגוריתמי למידה מפוקחים למחצה מפתחים מודלים מתמטיים מנתוני אימונים לא שלמים, כאשר לחלק מהקלט לדוגמה אין תוויות.
אלגוריתמי סיווג ואלגוריתמי רגרסיה הם סוגים של למידה בפיקוח. משתמשים באלגוריתמים לסיווג כאשר התפוקות מוגבלים לקבוצת ערכים מוגבלת. עבור אלגוריתם סיווג שמסנן דוא"ל, הקלט יהיה דוא"ל נכנס, והפלט יהיה שם התיקיה בה יש להגיש את הדוא"ל. עבור אלגוריתם שמזהה דוא"ל ספאם, הפלט יהיה התחזית של "ספאם" או "לא ספאם", המיוצג על ידי הערכים הבולאנים נכונים ושקריים. אלגוריתמי רגרסיה נקראים על פי תפוקותיהם הרצופות, כלומר ייתכן שיש להם ערך כלשהו בטווח. דוגמאות לערך רציף הן הטמפרטורה, האורך או המחיר של חפץ.
בלמידה ללא פיקוח האלגוריתם בונה מודל מתמטי מקבוצת נתונים המכיל רק כניסות וללא תוויות פלט רצויות. אלגוריתמי למידה ללא פיקוח משמשים למציאת מבנה בנתונים, כמו קיבוץ או קיבוץ נקודות נתונים. למידה ללא פיקוח יכולה לגלות דפוסים בנתונים, ויכולה לקבץ את התשומות לקטגוריות, כמו בלימוד תכונות. צמצום ממדיות הוא תהליך הפחתת מספר ה"פיצ'רים "או התשומות במערך נתונים.
אלגוריתמי למידה פעילים ניגשים לתפוקות הרצויות (תוויות אימונים) עבור קבוצה מוגבלת של תשומות על בסיס תקציב, ומייעל את בחירת התשומות שעבורן היא תרכוש תוויות הכשרה. כאשר משתמשים בהן באופן אינטראקטיבי, ניתן להציג אלה למשתמש אנושי לצורך תיוג. אלגוריתמי למידת חיזוק מקבלים משוב בצורה של חיזוק חיובי או שלילי בסביבה דינאמית, ומשמשים בכלי רכב אוטונומיים או בלמידה לשחק משחק נגד יריב אנושי .:3 אלגוריתמים מיוחדים אחרים בתחום למידת מכונות כוללים דוגמנות לנושא, שם לתוכנת המחשב ניתן קבוצה של מסמכי שפה טבעית ומוצאת מסמכים אחרים המכסים נושאים דומים. ניתן להשתמש באלגוריתמים של למידת מכונה כדי למצוא את פונקציית צפיפות ההסתברות הבלתי ניתנת לצפייה בבעיות הערכת צפיפות. אלגוריתמי למידה מטא לומדים הטיה אינדוקטיבית משלהם על סמך ניסיון קודם. ברובוטיקה התפתחותית, אלגוריתמים ללימוד הרובוט מייצרים רצפים משלהם של חוויות למידה, המכונות גם תכנית לימודים, לרכוש במצטבר מיומנויות חדשות באמצעות חקר מונחה עצמי ואינטראקציה חברתית עם בני אדם. רובוטים אלה משתמשים במנגנוני הנחיה כמו למידה פעילה, התבגרות, סינרגיה מוטורית וחיקוי.
ארתור סמואל, חלוץ אמריקני בתחום משחקי מחשב ובינה מלאכותית, טבע את המונח "למידת מכונות" ב- 1959 בעת ששהה ב- IBM. ספר מייצג של מחקר למידת מכונות במהלך 1960 היה ספרו של נילסון על מכונות למידה, שעסק בעיקר בלימוד מכונות לסיווג דפוסים. העניין של למידת מכונות הקשורה לזיהוי תבניות המשיך במהלך 1970, כמתואר בספרם של דודא והארט ב- 1973. ב- 1981 ניתן דו"ח על השימוש באסטרטגיות הוראה כך שרשת עצבית לומדת לזהות תווים של 40 (אותיות 26, ספרות 10 וסמלים מיוחדים של 4) מסוף מחשב. כמאמץ מדעי, למידה במכונה צמחה מתוך החיפוש אחר בינה מלאכותית. כבר בימיו הראשונים של AI כמשמעת אקדמית, כמה חוקרים התעניינו בכך שמכונות ילמדו מהנתונים. הם ניסו לגשת לבעיה בשיטות סמליות שונות, כמו גם במה שכונו אז "רשתות עצביות"; אלה היו ברובם תפיסות ומודלים אחרים שנמצאו לימים כממצאים מחדש של המודלים הליניאריים הכלליים של הסטטיסטיקה. נימוק הסתברותי הועלה גם, במיוחד באבחון רפואי אוטומטי. 488
עם זאת, דגש גובר על הגישה ההגיונית, מבוססת הידע, גרם לקרע בין AI ללמידה מכונה. מערכות הסתברותיות נפגעו מבעיות תיאורטיות ומעשיות של רכישת נתונים וייצוגן .: 488 עד 1980, מערכות מומחים הגיעו לשלוט ב- AI, והסטטיסטיקה לא הייתה טובה. העבודה על למידה סמלית / מבוססת ידע נמשכה בתוך AI, והובילה לתכנות לוגיקה אינדוקטיבית, אך קו המחקר הסטטיסטי יותר היה כעת מחוץ לתחום ה- AI הנכון, בזיהוי תבניות ושליפת מידע .:708–710; 755 מחקר רשתות עצביות ננטש על ידי AI ומדעי המחשב בערך באותה תקופה. גם קו זה המשיך מחוץ לתחום ה- AI / CS, כ"חיבוריות ", על ידי חוקרים מתחומים אחרים ובהם הופפילד, רומלהרט והינטון. ההצלחה העיקרית שלהם הגיעה באמצע ה- 1980 עם המצאה מחדש של הפרופגציה .:25
לימוד מכונות, שארגן מחדש כשדה נפרד, החל לפרוח ב- 1990. התחום שינה את מטרתו מהשגת בינה מלאכותית להתמודדות עם בעיות פתירות בעלות אופי מעשי. זה העביר את המיקוד מהגישות הסמליות שירש מ- AI, ולקראת שיטות ומודלים שהושאלו מסטטיסטיקה ותורת ההסתברות. זה גם נהנה מהזמינות הגוברת של מידע דיגיטלי, ומהיכולת להפיץ אותו דרך האינטרנט.
למידת מכונות וכריית נתונים לרוב משתמשות באותן שיטות וחופפות משמעותית, אך בעוד שלמידת מכונות מתמקדת בחיזוי, על סמך מאפיינים ידועים שנלמדו מנתוני ההדרכה, כריית נתונים מתמקדת בגילוי של (בעבר) נכסים לא ידועים בנתונים (זהו שלב הניתוח של גילוי הידע במסדי נתונים). כריית נתונים משתמשת בשיטות למידת מכונות רבות, אך עם מטרות שונות; מצד שני, למידת מכונות מעסיקה גם שיטות לכריית נתונים כ"לימוד ללא פיקוח "או כצעד עיבוד מוקדם לשיפור הדיוק של הלומד. חלק גדול מהבלבול בין שתי קהילות המחקר הללו (שלעתים קרובות יש ועידות נפרדות וכתבי עת נפרדים, כאשר ECML PKDD הוא חריג עיקרי) נובע מההנחות הבסיסיות איתן הם עובדים: בלימוד מכונה, בדרך כלל הערכה של הביצועים היא ביחס ליכולת לשחזר ידע ידוע, בעוד שגילוי ידע וכריית נתונים (KDD) המשימה העיקרית היא גילוי ידע שלא היה ידוע בעבר. הערכה ביחס לידע ידוע, שיטה לא מעודכנת (ללא פיקוח) תושלם בקלות על ידי שיטות מפוקחות אחרות, בעוד שבמשימה KDD טיפוסית, לא ניתן להשתמש בשיטות מפוקחות בגלל אי ​​זמינות נתוני ההדרכה.
למידת מכונה יש גם קשרים אינטימיים לאופטימיזציה: בעיות למידה רבות מנוסחות כמזעור של פונקציית אובדן מסוימת על קבוצת אימונים של דוגמאות. פונקציות אובדן מבטאות את האי-התאמה בין התחזיות של המודל שמתאמן למופעי הבעיה בפועל (לדוגמה, בסיווג, רוצים להקצות תווית למופעים, ודגמים מאומנים לחזות נכון את התוויות שהוקצו מראש עבור קבוצה של דוגמאות). ההבדל בין שני התחומים נובע ממטרת ההכללה: בעוד שאלגוריתמי אופטימיזציה יכולים למזער את ההפסד במערך אימונים, למידת מכונה עוסקת במזעור ההפסד בדגימות בלתי נראות.
למידת מכונות וסטטיסטיקה הם תחומים קשורים זה לזה מבחינת שיטות, אך הם נבדלים ביעדם העיקרי: סטטיסטיקה שואבת מסקנות אוכלוסיה מדגם, בעוד שלמידה במכונה מוצאת דפוסי חיזוי הכללים. לדברי מייקל I. ג'ורדן, לרעיונות של למידת מכונות, מעקרונות מתודולוגיים וכלים תיאורטיים, הייתה היסטוריה ארוכה בסטטיסטיקה. הוא גם הציע למונח מדעי נתונים כמציין מקום לקרוא לתחום הכללי.
ליאו ברייטמן הבחין בין שתי פרדיגמות דוגמנות סטטיסטיות: מודל נתונים ומודל אלגוריתמי, שבו "מודל אלגוריתמי" פירושו פחות או יותר אלגוריתמי למידת המכונה כמו יער אקראי.
יש סטטיסטיקאים שאימצו שיטות מלמידה במכונה, מה שמוביל לתחום משולב שהם מכנים למידה סטטיסטית.
מטרת הליבה של הלומד היא להכליל מהניסיון שלו. הכללה בהקשר זה היא היכולת של מכונת למידה לבצע במדויק על דוגמאות / משימות חדשות ובלתי נראות לאחר שהתנסה במערך נתוני למידה. דוגמאות ההדרכה מגיעות מהפצת הסתברות לא ידועה בדרך כלל (הנחשבת לייצגת מרחב המופעים) ועל הלומד לבנות מודל כללי לגבי מרחב זה המאפשר לו לייצר תחזיות מדויקות מספיק במקרים חדשים.
הניתוח החישובי של אלגוריתמי למידת מכונה וביצועיהם הוא ענף של מדעי המחשב התיאורטיים המכונה תורת הלמידה החישובית. מכיוון שמערכות אימונים הן סופיות והעתיד אינו וודאי, תיאוריית הלמידה בדרך כלל אינה מניבה ערבויות לביצוע האלגוריתמים. במקום זאת, גבולות הסתברותיים לגבי הביצוע נפוצים למדי. פירוק ההטיה - שונות הוא דרך אחת לכמת את שגיאת ההכללה.
לקבלת הביצועים הטובים ביותר בהקשר של הכללה, מורכבות ההשערה צריכה להתאים למורכבות הפונקציה העומדת בבסיס הנתונים. אם ההשערה פחות מורכבת מהפונקציה, אז המודל מספק את הנתונים. אם המורכבות של המודל מוגברת בתגובה, אז שגיאת האימון פוחתת. אבל אם ההשערה מורכבת מדי, אז המודל נתון להתאמה יתר וההכללה תהיה גרועה יותר.
בנוסף לתחום הביצועים, תיאורטיקנים למודים בוחנים את מורכבות הזמן וכדאיות הלמידה. בתורת הלמידה החישובית, חישוב נחשב כביכול אם ניתן לעשות זאת בזמן פולינומי. ישנם שני סוגים של תוצאות מורכבות בזמן. תוצאות חיוביות מראות כי ניתן ללמוד מעמד מסוים של פונקציות בזמן פולינומי. תוצאות שליליות מראות שלא ניתן ללמוד שיעורים מסוימים בזמן פולינומי.
חזרה למעלה