งานหลักอย่างหนึ่งของคอมพิวเตอร์คือการทำงานของมนุษย์โดยอัตโนมัติ งานเหล่านี้บางอย่างเรียบง่ายและซ้ำซากเช่น“ ย้าย X จาก A ไป B” มันน่าสนใจมากขึ้นเมื่อคอมพิวเตอร์ต้องตัดสินใจเกี่ยวกับปัญหาที่ยากต่อการทำให้เป็นทางการมากขึ้น นั่นคือจุดที่เราเริ่มพบปัญหาการเรียนรู้พื้นฐานของเครื่อง
ในอดีตอัลกอริทึมดังกล่าวถูกสร้างขึ้นโดยนักวิทยาศาสตร์หรือผู้เชี่ยวชาญที่มีความรู้อย่างใกล้ชิดในสาขาของตนและส่วนใหญ่อิงตามกฎ ด้วยการเพิ่มขึ้นของพลังการประมวลผลและความพร้อมใช้งานของชุดข้อมูลขนาดใหญ่และหลากหลายโฟกัสได้เปลี่ยนไปสู่แนวทางการคำนวณมากขึ้น
เป็นที่นิยมมากที่สุด การเรียนรู้ของเครื่อง แนวคิดในปัจจุบันเกี่ยวข้องกับโครงข่ายประสาทเทียมและจากประสบการณ์ของฉันสิ่งนี้สร้างความประทับใจให้กับคนจำนวนมากว่าเครือข่ายประสาทเทียมเป็นอาวุธมหัศจรรย์สำหรับปัญหาการอนุมานทั้งหมด จริงๆแล้วนี่ค่อนข้างห่างไกลจากความจริง ในสายตาของนักสถิติพวกเขาสร้างแนวทางการอนุมานแบบหนึ่งที่มีจุดแข็งและจุดอ่อนที่เกี่ยวข้องและขึ้นอยู่กับปัญหาว่าโครงข่ายประสาทเทียมจะเป็นทางออกที่ดีที่สุดหรือไม่
บ่อยครั้งมีแนวทางที่ดีกว่า
ในบทความนี้เราจะร่างโครงสร้างสำหรับการโจมตีปัญหาการเรียนรู้ของเครื่อง ไม่มีขอบเขตในการลงรายละเอียดมากเกินไปเกี่ยวกับ โมเดลแมชชีนเลิร์นนิงที่เฉพาะเจาะจง แต่หากบทความนี้สร้างความสนใจบทความต่อ ๆ ไปอาจเสนอวิธีแก้ปัญหาโดยละเอียดสำหรับปัญหาการเรียนรู้ของเครื่องที่น่าสนใจ
อย่างไรก็ตามก่อนอื่นให้เราใช้ความพยายามเพื่อแสดงให้เห็นว่าเหตุใดคุณจึงควรมีความรอบคอบมากกว่าที่จะคิดโดยอัตโนมัติ ' โครงข่ายประสาท ” เมื่อประสบปัญหาแมชชีนเลิร์นนิง
ด้วยโครงข่ายประสาทเทียมการอนุมานจะกระทำผ่าน 'เครือข่าย' แบบถ่วงน้ำหนัก น้ำหนักจะถูกปรับเทียบในระหว่างกระบวนการที่เรียกว่า 'การเรียนรู้' จากนั้นจึงนำไปใช้ในการกำหนดผลลัพธ์ให้กับอินพุต
ง่ายอย่างที่คิดน้ำหนักทั้งหมดเป็นพารามิเตอร์ของเครือข่ายที่ปรับเทียบแล้วและโดยปกตินั่นหมายถึงพารามิเตอร์มากเกินไปสำหรับมนุษย์ที่จะเข้าใจได้
ดังนั้นเราอาจพิจารณาโครงข่ายประสาทเทียมเป็นกล่องดำอนุมานชนิดหนึ่งที่เชื่อมต่ออินพุตกับเอาต์พุตโดยไม่มีโมเดลเฉพาะอยู่ระหว่าง
ให้เรามาดูข้อดีข้อเสียของแนวทางนี้อย่างละเอียดยิ่งขึ้น
ตัวอย่างโครงข่ายประสาทเทียมที่ประสบความสำเร็จ: ของ Google AI พบดาวเคราะห์ โคจรรอบดาวฤกษ์อันไกลโพ้นโดยที่ NASA ไม่ได้ทำการวิเคราะห์ข้อมูลจากกล้องโทรทรรศน์ที่สะสมไว้
ตัวอย่างของความล้มเหลว: ความสัมพันธ์ส่วนตัวบอกฉันถึง บริษัท ยักษ์ใหญ่แห่งหนึ่ง (ฉันไม่สามารถระบุชื่อได้) ซึ่งกำลังตรวจจับยานพาหนะทางทหารในภาพถ่ายทางอากาศ พวกเขามีภาพที่มียานพาหนะดังกล่าวและอื่น ๆ ที่ไม่มี ภาพส่วนใหญ่ของชั้นเรียนในอดีตถ่ายในวันที่ฝนตกในขณะที่ภาพหลังถ่ายในสภาพอากาศแจ่มใส เป็นผลให้ระบบเรียนรู้ที่จะแยกแยะแสงออกจากเงา
สรุปได้ว่าโครงข่ายประสาทเทียมเป็นวิธีการอนุมานแบบคลาสหนึ่งที่มีข้อดีข้อเสีย
ข้อเท็จจริงที่ว่าความนิยมของพวกเขาแสดงให้เห็นถึงวิธีการทางสถิติอื่น ๆ ทั้งหมดในสายตาของสาธารณชนมีแนวโน้มที่จะเกี่ยวข้องกับการกำกับดูแลกิจการมากกว่าสิ่งอื่นใด
การฝึกอบรมผู้คนให้ใช้เครื่องมือมาตรฐานและวิธีการของเครือข่ายประสาทเทียมที่เป็นมาตรฐานเป็นกระบวนการที่คาดเดาได้มากกว่าการค้นหาผู้เชี่ยวชาญด้านโดเมนและศิลปินจากหลากหลายสาขา อย่างไรก็ตามสิ่งนี้ไม่ได้เปลี่ยนความจริงที่ว่าการใช้เครือข่ายประสาทเทียมสำหรับปัญหาที่เรียบง่ายและมีการกำหนดไว้อย่างดีนั้นเป็นเพียงการยิงนกกระจอกด้วยปืนใหญ่เท่านั้น: มันต้องการข้อมูลจำนวนมากต้องใช้คำอธิบายประกอบจำนวนมากและในทางกลับกันอาจ มีประสิทธิภาพต่ำกว่าเมื่อเทียบกับโมเดลที่มั่นคง ไม่ใช่แพ็คเกจที่ดีที่สุด
ถึงกระนั้นก็ยังมีพลังมหาศาลในการที่พวกเขา“ ทำให้เป็นประชาธิปไตย” ความรู้ทางสถิติ เมื่อโซลูชันการอนุมานบนเครือข่ายประสาทเทียมถูกมองว่าเป็นเพียงเครื่องมือการเขียนโปรแกรมอาจช่วยได้แม้กระทั่งผู้ที่ไม่พอใจกับอัลกอริทึมที่ซับซ้อน ดังนั้นในตอนนี้มีหลายสิ่งหลายอย่างถูกสร้างขึ้นซึ่งจะไม่มีอยู่จริงหากเราสามารถใช้งานกับโมเดลที่ซับซ้อนเท่านั้น
เมื่อใกล้ถึงปัญหาแมชชีนเลิร์นนิงนี่คือขั้นตอนที่คุณจะต้องดำเนินการ:
ให้เราดูรายการเหล่านี้โดยละเอียด
คุณควรทราบถึงความแม่นยำของเป้าหมายโดยเร็วที่สุดเท่าที่จะทำได้ นี่จะเป็นเป้าหมายที่คุณมุ่งหวัง
นี่เป็นขั้นตอนที่สำคัญที่สุด ก่อนอื่นข้อมูลของคุณไม่ควรมีข้อผิดพลาด (หรือน้อย) การทำความสะอาดสิ่งเหล่านี้เป็นขั้นตอนแรกที่สำคัญ แทนที่ค่าที่ขาดหายไปพยายามระบุรูปแบบที่เห็นได้ชัดว่าเป็นของปลอมกำจัดรายการที่ซ้ำกันและความผิดปกติอื่น ๆ ที่คุณอาจสังเกตเห็น
สำหรับข้อมูลหากข้อมูลของคุณให้ข้อมูลมาก (ในเชิงเส้นตรง) วิธีการอนุมานใด ๆ ในทางปฏิบัติจะให้ผลลัพธ์ที่ดี หากข้อมูลที่ต้องการไม่อยู่ในนั้นผลลัพธ์จะเป็นสัญญาณรบกวน การเพิ่มข้อมูลให้มากที่สุดหมายถึงการค้นหาความสัมพันธ์ที่ไม่เป็นเชิงเส้นที่มีประโยชน์ในข้อมูลและทำให้เป็นเส้นตรง หากสิ่งนั้นช่วยปรับปรุงปัจจัยการผลิตได้ดีเยี่ยม ถ้าไม่เช่นนั้นอาจต้องเพิ่มตัวแปรเพิ่มเติม หากทั้งหมดนี้ไม่เกิดผลความแม่นยำของเป้าหมายอาจได้รับผลกระทบ
ด้วยโชคบางอย่างจะมีตัวแปรเดียวที่เป็นประโยชน์ คุณสามารถระบุตัวแปรที่มีประโยชน์ได้หากคุณ - เช่นพล็อตมันเทียบกับตัวแปรเป้าหมายการเรียนรู้และพบว่าพล็อตเป็นเหมือนฟังก์ชัน (กล่าวคือช่วงแคบในอินพุตสอดคล้องกับช่วงแคบในเอาต์พุต) จากนั้นตัวแปรนี้สามารถทำให้เป็นเชิงเส้นได้เช่นถ้ามันลงจุดเป็นพาราโบลาให้ลบค่าบางค่าแล้วหาค่ารากที่สอง
สำหรับตัวแปรที่มีเสียงดัง - อินพุตช่วงแคบจะสอดคล้องกับช่วงกว้างในเอาต์พุตเราอาจลองรวมตัวแปรเหล่านี้กับตัวแปรอื่น ๆ
เพื่อให้ทราบถึงความถูกต้องคุณอาจต้องการวัดความน่าจะเป็นของชั้นเรียนแบบมีเงื่อนไขสำหรับตัวแปรแต่ละตัวของคุณ (สำหรับปัญหาการจำแนกประเภท) หรือใช้รูปแบบการถดถอยที่เรียบง่ายบางอย่างเช่นการถดถอยเชิงเส้น (สำหรับปัญหาการทำนาย) หากเนื้อหาข้อมูลของอินพุตดีขึ้นการอนุมานของคุณก็จะเป็นเช่นนั้นและคุณไม่ต้องการเสียเวลามากเกินไปในขั้นตอนนี้ในการปรับเทียบโมเดลเมื่อข้อมูลยังไม่พร้อม ดังนั้นให้ทำการทดสอบอย่างง่ายที่สุด
เมื่อข้อมูลของคุณอยู่ในสภาพที่เหมาะสมคุณสามารถใช้วิธีการอนุมานได้ (ข้อมูลอาจยังคงถูกขัดจังหวะในภายหลังหากจำเป็น)
คุณควรใช้แบบจำลองหรือไม่? ถ้าคุณมีเหตุผลที่ดีที่จะเชื่อว่าคุณสามารถสร้างแบบจำลองที่ดีสำหรับงานได้คุณก็ควรจะทำเช่นนั้น หากคุณไม่คิดอย่างนั้น แต่มีข้อมูลเพียงพอพร้อมคำอธิบายประกอบที่ดีคุณอาจใช้เครือข่ายประสาทเทียมแบบแฮนด์ฟรี อย่างไรก็ตามในแอปพลิเคชันการเรียนรู้ของเครื่องที่ใช้งานได้จริงมักมีข้อมูลไม่เพียงพอสำหรับสิ่งนั้น
ความแม่นยำในการเล่นเทียบกับความครอบคลุมมักจะให้ผลตอบแทนมหาศาล แนวทางไฮบริดมักจะใช้ได้ดี สมมติว่าข้อมูลเป็นเช่นนั้นคุณจะได้รับความแม่นยำเกือบ 100% จาก 80% ด้วยโมเดลง่ายๆ? ซึ่งหมายความว่าคุณสามารถพิสูจน์ผลลัพธ์ได้อย่างรวดเร็วและหากระบบของคุณสามารถระบุได้ว่าเมื่อใดที่ระบบปฏิบัติการในเขตแดนมิตร 80% แสดงว่าคุณได้กล่าวถึงปัญหาส่วนใหญ่แล้ว ลูกค้าของคุณอาจยังไม่มีความสุขอย่างเต็มที่ แต่สิ่งนี้จะทำให้คุณได้รับความไว้วางใจอย่างรวดเร็ว และไม่มีอะไรที่จะป้องกันไม่ให้คุณทำสิ่งที่คล้ายกันกับข้อมูลที่เหลืออยู่: ด้วยความพยายามอย่างสมเหตุสมผลในตอนนี้คุณกล่าวว่า 92% ของข้อมูลที่มีความแม่นยำ 97% จริงอยู่ข้อมูลที่เหลือมันเป็นการพลิกเหรียญ แต่คุณได้สร้างสิ่งที่มีประโยชน์แล้ว
สำหรับการใช้งานจริงสิ่งนี้มีประโยชน์มาก สมมติว่าคุณอยู่ในธุรกิจให้กู้ยืมและต้องการตัดสินใจว่าจะให้เงินกู้กับใครและสิ่งที่คุณรู้ก็คือ 70% ของลูกค้าที่อัลกอริทึมของคุณมีความแม่นยำมาก เยี่ยมมากผู้สมัครอีก 30% ของคุณจะต้องใช้การประมวลผลมากกว่านี้ แต่อีก 70% สามารถดำเนินการโดยอัตโนมัติได้ทั้งหมด หรือ: สมมติว่าคุณกำลังพยายามทำให้โอเปอเรเตอร์ทำงานโดยอัตโนมัติสำหรับคอลเซ็นเตอร์คุณสามารถทำงานที่ดี (รวดเร็วและสกปรก) กับงานที่ง่ายที่สุดเท่านั้น แต่งานเหล่านี้ครอบคลุม 50% ของการโทร? เยี่ยมมากคอลเซ็นเตอร์ช่วยประหยัดเงินได้หากพวกเขาสามารถทำการโทรอัตโนมัติได้อย่างน่าเชื่อถือ 50%
สรุป: หากข้อมูลไม่มีข้อมูลเพียงพอหรือปัญหาซับซ้อนเกินกว่าจะจัดการได้อย่างครบถ้วนให้คิดนอกกรอบ ระบุปัญหาย่อยที่มีประโยชน์และง่ายต่อการแก้ไขจนกว่าคุณจะมีความคิดที่ดีขึ้น
เมื่อคุณเตรียมระบบให้พร้อมเรียนรู้ทดสอบและวนซ้ำจนกว่าคุณจะพอใจกับผลลัพธ์
หลังจากขั้นตอนก่อนหน้านี้เหลือเพียงเล็กน้อยที่น่าสนใจ คุณมีข้อมูลคุณมีวิธีการเรียนรู้ของเครื่องดังนั้นถึงเวลาแยกพารามิเตอร์ผ่านการเรียนรู้จากนั้นทดสอบการอนุมานในชุดทดสอบ วรรณคดีแนะนำว่าควรใช้บันทึก 70% สำหรับการฝึกอบรมและ 30% สำหรับการทดสอบ
หากคุณพอใจกับผลลัพธ์งานก็เสร็จสิ้น แต่เป็นไปได้มากกว่าที่คุณจะพัฒนาแนวคิดใหม่ ๆ ในระหว่างขั้นตอนและสิ่งเหล่านี้สามารถช่วยให้คุณเข้าใจความถูกต้องได้ บางทีคุณอาจต้องการข้อมูลเพิ่มเติม หรือเพียงแค่ล้างข้อมูลเพิ่มเติม หรือรุ่นอื่น? ไม่ว่าจะด้วยวิธีใดโอกาสที่คุณจะยุ่งอยู่พักหนึ่ง
ขอให้โชคดีและสนุกกับงานต่อไป!
ที่เกี่ยวข้อง:การเรียนรู้ของเครื่องรวมถึงเทคนิคการอนุมานทั้งหมดในขณะที่การเรียนรู้เชิงลึกมีจุดมุ่งหมายเพื่อเปิดเผยความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่มีความหมายในข้อมูล การเรียนรู้เชิงลึกจึงเป็นส่วนหนึ่งของการเรียนรู้ของเครื่องและยังเป็นวิธีหนึ่งของวิศวกรรมคุณลักษณะอัตโนมัติที่ใช้กับปัญหาการเรียนรู้ของเครื่อง
วิธีทำโทเค็น
ตัวเลือกที่ดีที่สุดคือภาษาที่รองรับทั้งไลบรารีการเขียนโปรแกรมแบบกว้างและช่วยให้คุณมุ่งเน้นไปที่คณิตศาสตร์มากกว่าโครงสร้างพื้นฐาน ภาษาที่ได้รับความนิยมมากที่สุดคือ Python แต่ภาษาอัลกอริทึมเช่น Matlab หรือ R หรือ mainstreamers เช่น C ++ และ Java ล้วนเป็นตัวเลือกที่ถูกต้องเช่นกัน
เครือข่ายประสาทเทียมเป็นเพียงแนวทางเดียวในการเรียนรู้ของเครื่องโดยมีข้อดีข้อเสียตามรายละเอียดข้างต้น
มีหลักสูตรออนไลน์ที่ดีและหน้าสรุป ทุกอย่างขึ้นอยู่กับทักษะและรสนิยมของแต่ละคน คำแนะนำส่วนตัวของฉัน: คิดว่าการเรียนรู้ของเครื่องเป็นการเขียนโปรแกรมทางสถิติ เพิ่มพูนคณิตศาสตร์ของคุณและหลีกเลี่ยงแหล่งข้อมูลทั้งหมดที่ถือเอาการเรียนรู้ของเครื่องกับเครือข่ายประสาทเทียม
ข้อดีบางประการ: ไม่จำเป็นต้องมีทักษะทางคณิตศาสตร์วิศวกรรมคุณลักษณะหรือช่างฝีมือ ง่ายต่อการฝึกอบรม อาจเปิดเผยแง่มุมของปัญหาที่ไม่ได้พิจารณาในตอนแรก ข้อเสียบางประการ: ต้องการข้อมูลที่ค่อนข้างมากกว่า งานเตรียมการที่น่าเบื่อ ไม่ทิ้งคำอธิบายว่าทำไมพวกเขาถึงตัดสินใจในแบบที่พวกเขาทำเกินพอดี