การเรียนรู้ภายใต้การดูแลเป็นงานวิจัยระดับแนวหน้าในด้านการมองเห็นคอมพิวเตอร์และการเรียนรู้เชิงลึกในช่วงทศวรรษที่ผ่านมา
ในสภาพแวดล้อมการเรียนรู้ภายใต้การดูแลมนุษย์จำเป็นต้องใส่คำอธิบายประกอบชุดข้อมูลจำนวนมากด้วยตนเอง จากนั้นแบบจำลองจะใช้ข้อมูลนี้เพื่อเรียนรู้ความสัมพันธ์พื้นฐานที่ซับซ้อนระหว่างข้อมูลและฉลากและพัฒนาความสามารถในการทำนายฉลากโดยให้ข้อมูล โมเดลการเรียนรู้เชิงลึกโดยทั่วไปมักจะหิวข้อมูลและต้องการชุดข้อมูลจำนวนมหาศาลเพื่อให้ได้ประสิทธิภาพที่ดี ฮาร์ดแวร์ที่ปรับปรุงอยู่ตลอดเวลาและความพร้อมใช้งานของชุดข้อมูลที่ติดป้ายชื่อบุคคลเป็นสาเหตุของความสำเร็จล่าสุดของการเรียนรู้เชิงลึก
ข้อเสียเปรียบที่สำคัญอย่างหนึ่งของการเรียนรู้เชิงลึกภายใต้การดูแลคือต้องอาศัยชุดข้อมูลที่ติดป้ายชื่อมนุษย์จำนวนมากสำหรับการฝึกอบรม ความหรูหรานี้ไม่สามารถใช้ได้ในทุกโดเมนเนื่องจากอาจเป็นเรื่องยากในเชิงลอจิสติกส์และมีราคาแพงมากในการรับชุดข้อมูลขนาดใหญ่ที่มีคำอธิบายประกอบโดยผู้เชี่ยวชาญ แม้ว่าการได้มาของข้อมูลที่มีป้ายกำกับอาจเป็นความพยายามที่ท้าทายและมีค่าใช้จ่ายสูง แต่โดยปกติแล้วเราสามารถเข้าถึงชุดข้อมูลที่ไม่มีป้ายกำกับจำนวนมากโดยเฉพาะข้อมูลรูปภาพและข้อความ ดังนั้นเราต้องหาวิธีที่จะใช้ประโยชน์จากชุดข้อมูลที่ไม่ได้ใช้เหล่านี้และใช้เพื่อการเรียนรู้
ในกรณีที่ไม่มีข้อมูลป้ายกำกับจำนวนมากเรามักจะใช้ ถ่ายทอดการเรียนรู้ . Transfer Learning คืออะไร?
การถ่ายทอดการเรียนรู้หมายถึงการใช้ความรู้จากงานที่คล้ายกันเพื่อแก้ปัญหาในมือ ในทางปฏิบัติมักหมายถึงการใช้เป็นค่าเริ่มต้นของน้ำหนักโครงข่ายประสาทส่วนลึกที่เรียนรู้จากงานที่คล้ายกันแทนที่จะเริ่มจากการเริ่มต้นน้ำหนักแบบสุ่มจากนั้นจึงฝึกโมเดลเพิ่มเติมกับข้อมูลที่มีป้ายกำกับที่มีอยู่เพื่อแก้ปัญหาในงาน
การเรียนรู้การถ่ายโอนช่วยให้เราสามารถฝึกโมเดลบนชุดข้อมูลที่มีขนาดเล็กเพียงไม่กี่พันตัวอย่างและสามารถให้ประสิทธิภาพที่ดีมาก การถ่ายโอนการเรียนรู้จากแบบจำลองที่กำหนดไว้ล่วงหน้าสามารถทำได้สามวิธี:
โดยปกติแล้วชั้นสุดท้ายของเครือข่ายประสาทเทียมจะทำการคำนวณที่เป็นนามธรรมและเฉพาะงานมากที่สุดซึ่งโดยทั่วไปไม่สามารถถ่ายโอนไปยังงานอื่นได้โดยง่าย ในทางตรงกันข้ามเลเยอร์เริ่มต้นของเครือข่ายจะเรียนรู้คุณสมบัติพื้นฐานบางอย่างเช่นขอบและรูปร่างทั่วไปซึ่งสามารถถ่ายโอนข้ามงานต่างๆได้อย่างง่ายดาย
ภาพชุดด้านล่างแสดงให้เห็นว่าเมล็ดพันธุ์ Convolution ในระดับต่างๆในโครงข่ายประสาทเทียม (CNN) กำลังเรียนรู้อะไรอยู่ เราเห็นการแสดงตามลำดับชั้นโดยที่เลเยอร์เริ่มต้นจะเรียนรู้รูปทรงพื้นฐานและชั้นที่สูงขึ้นจะเรียนรู้แนวคิดเชิงความหมายที่ซับซ้อนมากขึ้น
แนวทางปฏิบัติทั่วไปคือการใช้โมเดลที่กำหนดไว้ล่วงหน้าบนชุดข้อมูลรูปภาพที่มีป้ายกำกับขนาดใหญ่ (เช่น ImageNet ) และตัดเลเยอร์ที่เชื่อมต่อทั้งหมดออกในตอนท้าย จากนั้นเลเยอร์ใหม่ที่เชื่อมต่ออย่างสมบูรณ์จะถูกแนบและกำหนดค่าตามจำนวนคลาสที่ต้องการ เลเยอร์ที่ถ่ายโอนจะหยุดนิ่งและเลเยอร์ใหม่จะได้รับการฝึกฝนเกี่ยวกับข้อมูลที่มีป้ายกำกับที่มีอยู่สำหรับงานของคุณ
ในการตั้งค่านี้โมเดลที่ถูกฝึกไว้ล่วงหน้าจะถูกใช้เป็นตัวแยกคุณลักษณะและชั้นที่เชื่อมต่อทั้งหมดด้านบนถือได้ว่าเป็นตัวจำแนกแบบตื้น การตั้งค่านี้มีประสิทธิภาพมากกว่าการติดตั้งมากเกินไปเนื่องจากจำนวนพารามิเตอร์ที่ฝึกได้มีขนาดค่อนข้างเล็กดังนั้นการกำหนดค่านี้จึงทำงานได้ดีเมื่อข้อมูลที่มีป้ายกำกับมีอยู่นั้นหายากมาก ขนาดของชุดข้อมูลที่มีคุณสมบัติเป็นชุดข้อมูลขนาดเล็กมากมักเป็นปัญหาที่ยุ่งยากในการพิจารณาหลายด้านรวมถึงปัญหาในมือและขนาดของกระดูกสันหลังของโมเดล พูดประมาณว่าฉันจะใช้กลยุทธ์นี้กับชุดข้อมูลที่ประกอบด้วยรูปภาพสองสามพันภาพ
หรืออีกวิธีหนึ่งเราสามารถถ่ายโอนเลเยอร์จากเครือข่ายที่กำหนดไว้ล่วงหน้าและฝึกอบรมเครือข่ายทั้งหมดบนข้อมูลที่มีป้ายกำกับที่มีอยู่ การตั้งค่านี้ต้องการข้อมูลที่มีป้ายกำกับมากกว่านี้เล็กน้อยเนื่องจากคุณกำลังฝึกอบรมทั้งเครือข่ายและด้วยเหตุนี้จึงมีพารามิเตอร์จำนวนมาก การตั้งค่านี้มีแนวโน้มที่จะติดตั้งมากเกินไปเมื่อมีข้อมูลขาดแคลน
แนวทางนี้เป็นแนวทางที่ฉันชอบและมักจะให้ผลลัพธ์ที่ดีที่สุดอย่างน้อยก็ในประสบการณ์ของฉัน ที่นี่เราฝึกอบรมเลเยอร์ที่แนบมาใหม่ในขณะที่แช่แข็งเลเยอร์ที่ถ่ายโอนไว้สองสามยุคก่อนที่จะปรับแต่งเครือข่ายทั้งหมด
การปรับแต่งเครือข่ายทั้งหมดอย่างละเอียดโดยไม่ให้ช่วงเวลาสองสามชั้นในเลเยอร์สุดท้ายอาจส่งผลให้เกิดการแพร่กระจายของการไล่ระดับสีที่เป็นอันตรายจากเลเยอร์ที่เริ่มต้นแบบสุ่มไปยังเครือข่ายพื้นฐาน นอกจากนี้การปรับแต่งอย่างละเอียดต้องใช้อัตราการเรียนรู้ที่น้อยกว่าและวิธีการสองขั้นตอนเป็นวิธีการแก้ปัญหาที่สะดวก
โดยปกติจะใช้ได้ดีกับงานการจัดประเภทรูปภาพส่วนใหญ่เนื่องจากเรามีชุดข้อมูลภาพขนาดใหญ่เช่น ImageNet ซึ่งครอบคลุมพื้นที่ภาพที่เป็นไปได้ส่วนใหญ่และโดยปกติน้ำหนักที่ได้เรียนรู้จะสามารถถ่ายโอนไปยังงานการจัดประเภทรูปภาพที่กำหนดเองได้ ยิ่งไปกว่านั้นเครือข่ายที่ได้รับการฝึกฝนมาก่อนแล้วยังสามารถหาซื้อได้จากชั้นวางของดังนั้นจึงช่วยอำนวยความสะดวกในกระบวนการ
อย่างไรก็ตามวิธีนี้จะใช้งานได้ไม่ดีหากการกระจายภาพในงานของคุณแตกต่างอย่างมากจากภาพที่ได้รับการฝึกฝนบนเครือข่ายพื้นฐาน ตัวอย่างเช่นหากคุณกำลังจัดการกับภาพระดับสีเทาที่สร้างโดยอุปกรณ์ถ่ายภาพทางการแพทย์การถ่ายโอนการเรียนรู้จากน้ำหนัก ImageNet จะไม่ได้ผลและคุณจะต้องใช้ภาพที่มีป้ายกำกับมากกว่าสองพันภาพเพื่อฝึกเครือข่ายของคุณให้มีประสิทธิภาพที่น่าพอใจ
ฟอนต์สามารถประกอบด้วยขนาดประเภท, typestyle และ
ในทางตรงกันข้ามคุณอาจเข้าถึงชุดข้อมูลจำนวนมากที่ไม่มีป้ายกำกับสำหรับปัญหาของคุณ นั่นคือเหตุผลที่ความสามารถในการเรียนรู้จากชุดข้อมูลที่ไม่มีป้ายกำกับจึงมีความสำคัญ นอกจากนี้ชุดข้อมูลที่ไม่มีป้ายกำกับมักมีความหลากหลายและปริมาณมากกว่าชุดข้อมูลที่มีป้ายกำกับที่ใหญ่ที่สุด
วิธีการกึ่งภายใต้การดูแลแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าสำหรับแนวทางภายใต้การควบคุมมาตรฐานขนาดใหญ่เช่น ImageNet Yann LeCun มีชื่อเสียง การเปรียบเทียบเค้ก เน้นความสำคัญของการเรียนรู้ที่ไม่มีการดูแล:
วิธีนี้ใช้ประโยชน์จากข้อมูลทั้งที่มีป้ายกำกับและไม่มีป้ายกำกับสำหรับการเรียนรู้ดังนั้นจึงเรียกว่าการเรียนรู้แบบกึ่งมีผู้ดูแล โดยปกติแล้วจะเป็นแนวทางที่แนะนำเมื่อคุณมีข้อมูลที่ติดป้ายกำกับจำนวนเล็กน้อยและข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก มีเทคนิคที่คุณเรียนรู้จากข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับพร้อมกัน แต่เราจะพูดถึงปัญหาในบริบทของแนวทางสองขั้นตอน: การเรียนรู้ที่ไม่มีการดูแลเกี่ยวกับข้อมูลที่ไม่มีป้ายกำกับและการถ่ายโอนการเรียนรู้โดยใช้หนึ่งในกลยุทธ์ที่อธิบายไว้ข้างต้นเพื่อแก้ปัญหาการจัดหมวดหมู่ของคุณ .
ในกรณีเหล่านี้การเรียนรู้โดยไม่ได้รับการดูแลเป็นคำที่ค่อนข้างสับสน วิธีการเหล่านี้ไม่ได้รับการดูแลอย่างแท้จริงในแง่ที่ว่ามีสัญญาณการกำกับดูแลที่แนะนำการเรียนรู้เรื่องน้ำหนัก แต่สัญญาณการกำกับดูแลจึงได้มาจากข้อมูลเอง ดังนั้นบางครั้งจึงเรียกว่าการเรียนรู้ด้วยตนเอง แต่มีการใช้คำเหล่านี้สลับกันในวรรณคดีเพื่ออ้างถึงแนวทางเดียวกัน
เทคนิคสำคัญในการเรียนรู้ด้วยตนเองสามารถแบ่งออกได้ตามวิธีที่พวกเขาสร้างสัญญาณการนิเทศนี้จากข้อมูลดังที่กล่าวไว้ด้านล่าง
วิธีการแบบกำเนิดมุ่งเป้าไปที่การสร้างข้อมูลใหม่ที่ถูกต้องหลังจากส่งผ่านคอขวด ตัวอย่างหนึ่งของเครือข่ายดังกล่าวคือตัวเข้ารหัสอัตโนมัติ พวกเขาลดอินพุตลงในพื้นที่การแสดงที่มีมิติต่ำโดยใช้เครือข่ายตัวเข้ารหัสและสร้างภาพใหม่โดยใช้เครือข่ายตัวถอดรหัส
ในการตั้งค่านี้อินพุตจะกลายเป็นสัญญาณควบคุม (ฉลาก) สำหรับการฝึกอบรมเครือข่าย จากนั้นเครือข่ายตัวเข้ารหัสสามารถแยกและใช้เป็นจุดเริ่มต้นในการสร้างลักษณนามของคุณโดยใช้หนึ่งในเทคนิคการเรียนรู้การถ่ายโอนที่กล่าวถึงในส่วนด้านบน
ในทำนองเดียวกันเครือข่ายกำเนิดอีกรูปแบบหนึ่ง - Generative Adversarial Networks (GAN) - สามารถใช้สำหรับการฝึกล่วงหน้ากับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นจึงสามารถนำตัวแบ่งแยกและปรับแต่งเพิ่มเติมสำหรับงานการจำแนกประเภทได้
วิธีการเลือกปฏิบัติจะฝึกโครงข่ายประสาทเทียมเพื่อเรียนรู้งานการจำแนกประเภทเสริม มีการเลือกงานเสริมเพื่อให้สัญญาณการกำกับดูแลสามารถรับมาจากข้อมูลเองโดยไม่ต้องมีคำอธิบายประกอบของมนุษย์
ตัวอย่างของงานประเภทนี้ ได้แก่ การเรียนรู้ตำแหน่งสัมพัทธ์ของแพตช์รูปภาพการปรับสีภาพระดับสีเทาหรือการเรียนรู้การแปลงทางเรขาคณิตที่ใช้กับรูปภาพ เราจะพูดถึงสองคนในรายละเอียดเพิ่มเติม
ในเทคนิคนี้แพทช์ภาพจะถูกดึงออกมาจากภาพต้นฉบับเพื่อสร้างตารางคล้ายจิ๊กซอว์ ตำแหน่งพา ธ จะถูกสับและอินพุตแบบสับจะถูกป้อนเข้าในเครือข่ายซึ่งได้รับการฝึกฝนให้คาดเดาตำแหน่งของแต่ละแพตช์ในตารางได้อย่างถูกต้อง ดังนั้นสัญญาณการกำกับดูแลคือตำแหน่งจริงของแต่ละเส้นทางในตาราง
ในการเรียนรู้ที่จะทำเช่นนั้นเครือข่ายจะเรียนรู้โครงสร้างสัมพัทธ์และการวางแนวของวัตถุตลอดจนความต่อเนื่องของคุณสมบัติภาพระดับต่ำเช่นสี ผลการวิจัยแสดงให้เห็นว่าคุณสมบัติที่เรียนรู้จากการไขปริศนาจิ๊กซอว์นี้สามารถถ่ายโอนไปยังงานต่างๆเช่นการจำแนกภาพและการตรวจจับวัตถุ
แนวทางปฏิบัติที่ดีที่สุดสำหรับสถาปัตยกรรมฐานข้อมูลเชิงสัมพันธ์
วิธีการเหล่านี้ใช้การแปลงทางเรขาคณิตชุดเล็ก ๆ กับภาพอินพุตและฝึกลักษณนามเพื่อทำนายการเปลี่ยนแปลงที่ประยุกต์ใช้โดยดูที่ภาพที่ถูกแปลงเพียงอย่างเดียว ตัวอย่างหนึ่งของวิธีการเหล่านี้คือการใช้การหมุน 2 มิติกับภาพที่ไม่มีป้ายกำกับเพื่อให้ได้ชุดของภาพที่หมุนแล้วฝึกเครือข่ายเพื่อคาดคะเนการหมุนของแต่ละภาพ
สัญญาณควบคุมง่ายๆนี้บังคับให้เครือข่ายเรียนรู้ที่จะแปลวัตถุในรูปภาพและเข้าใจการวางแนว คุณลักษณะที่เรียนรู้โดยวิธีการเหล่านี้ได้รับการพิสูจน์แล้วว่าสามารถถ่ายโอนได้สูงและให้ประสิทธิภาพที่ทันสมัยสำหรับงานการจัดประเภทในการตั้งค่าแบบกึ่งควบคุม
วิธีการเหล่านี้จะฉายภาพลงในพื้นที่การแสดงขนาดคงที่ซึ่งภาพที่คล้ายกันอยู่ใกล้กันมากขึ้นและภาพที่แตกต่างกันจะอยู่ห่างกันมากขึ้น วิธีหนึ่งในการบรรลุเป้าหมายนี้คือการใช้ เครือข่ายสยาม ขึ้นอยู่กับการสูญเสียสามเท่าซึ่งช่วยลดระยะห่างระหว่างภาพที่มีความหมายใกล้เคียงกัน การสูญเสียสามเท่าจำเป็นต้องมีจุดยึดตัวอย่างเชิงบวกและตัวอย่างเชิงลบและพยายามทำให้ค่าบวกเข้าใกล้จุดยึดมากกว่าเชิงลบในแง่ของระยะห่างแบบยุคลิดในพื้นที่แฝง Anchor และ positive มาจากคลาสเดียวกันและตัวอย่างเชิงลบจะถูกเลือกแบบสุ่มจากคลาสที่เหลือ
ในข้อมูลที่ไม่มีป้ายกำกับเราจำเป็นต้องสร้างกลยุทธ์ในการสร้างตัวอย่างเชิงบวกและเชิงลบสามเท่านี้โดยไม่ทราบคลาสของรูปภาพ วิธีหนึ่งในการทำเช่นนั้นคือใช้การเปลี่ยนแปลงแบบสุ่มของรูปสมอเป็นตัวอย่างเชิงบวกและสุ่มเลือกรูปภาพอื่นเป็นตัวอย่างเชิงลบ
microsoft windows เขียนด้วยภาษาอะไร
ในส่วนนี้ฉันจะอธิบายถึงการทดลองที่ระบุถึงศักยภาพของการฝึกอบรมล่วงหน้าที่ไม่ได้รับการดูแลสำหรับการจำแนกภาพ นี่เป็นโครงการภาคเรียนของฉันสำหรับ ชั้นเรียน Deep Learning ฉันถ่ายกับ Yann LeCun ที่ NYU เมื่อฤดูใบไม้ผลิที่ผ่านมา
เราฝึกโมเดลเจ็ดแบบโดยแต่ละแบบใช้ตัวอย่างการฝึกที่มีป้ายกำกับต่างกันต่อชั้นเรียน สิ่งนี้ทำขึ้นเพื่อทำความเข้าใจว่าขนาดของข้อมูลการฝึกอบรมมีผลต่อประสิทธิภาพของการตั้งค่ากึ่งควบคุมของเราอย่างไร
เราสามารถได้รับอัตราความแม่นยำ 82% สำหรับการฝึกอบรมล่วงหน้าเกี่ยวกับการจำแนกการหมุน สำหรับการฝึกลักษณนามความแม่นยำสูงสุด 5% อิ่มตัวรอบค่า 46.24% และการปรับจูนเครือข่ายทั้งหมดให้ผลลัพธ์สุดท้ายคือ 50.17% จากการใช้ประโยชน์จากการฝึกก่อนการฝึกเรามีประสิทธิภาพที่ดีกว่าการฝึกอบรมภายใต้การดูแลซึ่งให้ความแม่นยำสูงสุด 5 อันดับแรก 40%
ตามที่คาดไว้ความแม่นยำในการตรวจสอบความถูกต้องจะลดลงเมื่อข้อมูลการฝึกอบรมที่มีป้ายกำกับลดลง อย่างไรก็ตามการลดลงของประสิทธิภาพไม่สำคัญอย่างที่คาดหวังในการตั้งค่าภายใต้การดูแล ข้อมูลการฝึกอบรมลดลง 50% จาก 64 ตัวอย่างต่อคลาสเหลือ 32 ตัวอย่างต่อคลาสเท่านั้นส่งผลให้ความแม่นยำในการตรวจสอบลดลง 15%
ด้วยการใช้ตัวอย่างเพียง 32 ตัวอย่างต่อคลาสโมเดลกึ่งมีผู้ดูแลของเราให้ประสิทธิภาพที่เหนือกว่าโมเดลภายใต้การดูแลที่ได้รับการฝึกฝนโดยใช้ 64 ตัวอย่างต่อคลาส สิ่งนี้เป็นหลักฐานเชิงประจักษ์เกี่ยวกับศักยภาพของแนวทางกึ่งควบคุมสำหรับการจำแนกภาพบนชุดข้อมูลที่มีป้ายกำกับทรัพยากรต่ำ
เราสามารถสรุปได้ว่าการเรียนรู้โดยไม่ได้รับการดูแลเป็นกระบวนทัศน์ที่มีประสิทธิภาพซึ่งมีความสามารถในการเพิ่มประสิทธิภาพสำหรับชุดข้อมูลที่มีทรัพยากรต่ำ ขณะนี้การเรียนรู้ที่ไม่มีผู้ดูแลอยู่ในช่วงวัยเด็ก แต่จะค่อยๆขยายส่วนแบ่งในพื้นที่การมองเห็นของคอมพิวเตอร์โดยเปิดใช้งานการเรียนรู้จากข้อมูลที่ไม่มีป้ายกำกับราคาถูกและเข้าถึงได้ง่าย
ในการตั้งค่าการเรียนรู้ภายใต้การดูแลโมเดลจะมีทั้งข้อมูลและป้ายกำกับซึ่งโดยปกติจะมีการใส่คำอธิบายประกอบด้วยตนเอง จากนั้นแบบจำลองจะเรียนรู้ฟังก์ชันที่แมปข้อมูลกับฉลากและด้วยเหตุนี้จึงพัฒนาความสามารถในการทำนายฉลากโดยให้ข้อมูล
แมชชีนเลิร์นนิงภายใต้การดูแล 2 ประเภท ได้แก่ การจำแนกประเภทและการถดถอย การถดถอยพยายามที่จะแม็พข้อมูลอินพุตเป็นตัวแปรต่อเนื่องในขณะที่การจำแนกจะแมปอินพุตเป็นตัวแปรที่ไม่ต่อเนื่อง
ในการเรียนรู้ภายใต้การดูแลเราได้ติดป้ายกำกับข้อมูลที่จำเป็นต่อการเรียนรู้ในขณะที่การเรียนรู้โดยไม่มีผู้ดูแลเราไม่จำเป็นต้องติดป้ายกำกับ
การเรียนรู้เชิงลึกเป็นส่วนหนึ่งของการเรียนรู้ของเครื่องดังนั้นจึงใช้คำจำกัดความเดียวกันของการเรียนรู้ภายใต้การดูแล
การจัดหมวดหมู่ภาพภายใต้การดูแลจะจับคู่ภาพกับป้ายกำกับที่จัดเตรียมไว้ให้ การจัดหมวดหมู่ภาพที่ไม่ได้รับการดูแลเกี่ยวข้องกับการแยกภาพออกเป็นกลุ่มตามความคล้ายคลึงและความแตกต่างภายในโดยไม่มีข้อมูลที่ติดป้ายกำกับ