Gartner ประเมินว่าเกือบ 70 ถึง 80 เปอร์เซ็นต์ของการริเริ่มใหม่ โครงการข่าวกรองธุรกิจล้มเหลว . นี่เป็นเพราะเหตุผลมากมายตั้งแต่การเลือกใช้เครื่องมือที่ไม่ดีไปจนถึงการขาดการสื่อสารระหว่างไอทีและผู้มีส่วนได้ส่วนเสียทางธุรกิจ หลังจากประสบความสำเร็จในการดำเนินโครงการ BI ในอุตสาหกรรมต่างๆแล้วฉันหวังว่าจะแบ่งปันประสบการณ์ของฉันในบล็อกโพสต์นี้และเน้นเหตุผลสำคัญที่ทำให้โครงการข่าวกรองธุรกิจล้มเหลว บทความนี้จะนำเสนอมาตรการตอบโต้ความล้มเหลวตามหลักการสามประการที่ควรควบคุมวิธีการสร้างคลังข้อมูล การปฏิบัติตามแนวคิดคลังข้อมูลเหล่านี้จะช่วยให้คุณในฐานะนักพัฒนาคลังข้อมูลสามารถนำทางเส้นทางการพัฒนาโดยหลีกเลี่ยงหลุมบ่อทั่วไปหรือแม้กระทั่งการใช้งาน BI
แม้ว่าเกณฑ์สำหรับคลังข้อมูลระบบธุรกิจอัจฉริยะที่ประสบความสำเร็จจะแตกต่างกันไปตามโครงการ แต่ต้องมีขั้นต่ำที่คาดหวังและจำเป็นในทุกโครงการ รายการแอตทริบิวต์หลักที่มักพบในคลังข้อมูลธุรกิจอัจฉริยะที่ประสบความสำเร็จมีดังนี้
จากประสบการณ์ของฉันในการสร้างโซลูชันที่ประสบความสำเร็จและที่สำคัญกว่านั้นคือการมีส่วนร่วมในโครงการที่ล้มเหลวฉันได้ข้อสรุปว่าหลักการสำคัญสามประการเป็นสิ่งสำคัญยิ่งในการเพิ่มโอกาสในการใช้ระบบธุรกิจอัจฉริยะที่ประสบความสำเร็จ อย่างไรก็ตามก่อนที่จะกล่าวถึงในรายละเอียดเรามาเริ่มจากบริบทกันก่อน
ก่อนที่จะเจาะลึกแนวคิดเกี่ยวกับคลังข้อมูลต่างๆสิ่งสำคัญคือต้องเข้าใจว่าจริงๆแล้วคลังข้อมูลคืออะไร
คลังข้อมูลมักถูกมองว่าเป็นระบบธุรกิจอัจฉริยะที่สร้างขึ้นเพื่อช่วยในการรายงานประจำวันขององค์กรธุรกิจ พวกเขาไม่มีข้อกำหนดด้านประสิทธิภาพแบบเรียลไทม์ (ในการใช้งานมาตรฐาน) เหมือนกับระบบข้อมูล OLTP และในขณะที่ระบบ OLTP จะมีข้อมูลที่เกี่ยวข้องกับส่วนย่อยของธุรกิจเพียงชุดเดียวเท่านั้นคลังข้อมูลมีลักษณะที่ครอบคลุม ข้อมูลทั้งหมดที่เกี่ยวข้องกับธุรกิจ .
แบบจำลองคลังข้อมูลมีประโยชน์ต่อธุรกิจก็ต่อเมื่อคลังสินค้าถือได้ว่าเป็นศูนย์กลางของ“ ข้อมูลทุกอย่าง” และไม่ใช่แค่เครื่องมือที่ใช้ในการจัดทำรายงานการดำเนินงานของคุณ ระบบปฏิบัติการทั้งหมดควรมีการสื่อสารสองทางกับคลังข้อมูลเพื่อป้อนข้อมูลและรับข้อเสนอแนะเกี่ยวกับวิธีปรับปรุงประสิทธิภาพการดำเนินงาน การเปลี่ยนแปลงทางธุรกิจใด ๆ เช่นการเพิ่มขึ้นของราคาหรือการลดลงของอุปทาน / สินค้าคงคลังควรได้รับการสร้างต้นแบบและคาดการณ์ภายในสภาพแวดล้อมคลังข้อมูลของคุณก่อนเพื่อให้ธุรกิจของคุณสามารถคาดการณ์และระบุจำนวนผลลัพธ์ได้อย่างน่าเชื่อถือ ในบริบทนี้ทั้งหมด วิทยาศาสตร์ข้อมูลและการวิเคราะห์ข้อมูล ฟังก์ชันจะอยู่กึ่งกลางของคลังข้อมูล
มีองค์ประกอบมากมายของคลังข้อมูลและไม่ใช่แค่ฐานข้อมูล:
นี่คือการแสดงภาพเพิ่มเติมเกี่ยวกับความแตกต่างระหว่างฐานข้อมูลและโครงสร้างคลังข้อมูลฐานข้อมูล ฐานข้อมูลหรือที่เก็บข้อมูลเชิงตรรกะใหม่เช่น Hive สร้างดาวกลางไปยังระบบดาวฤกษ์ของคลังข้อมูลโดยมีส่วนประกอบอื่น ๆ ทั้งหมดเป็นดาวเคราะห์หมุนเวียน อย่างไรก็ตามแตกต่างจากระบบดาวคลังข้อมูลสามารถมีฐานข้อมูลได้ตั้งแต่หนึ่งฐานข้อมูลขึ้นไปและฐานข้อมูลเหล่านี้ควรใช้แทนกันได้กับเทคโนโลยีใหม่ดังที่เราจะกล่าวถึงในภายหลังในบทความ
คลังข้อมูลมีประโยชน์และมีคุณค่าในระดับที่ข้อมูลภายในได้รับความไว้วางใจจากผู้มีส่วนได้ส่วนเสียทางธุรกิจเท่านั้น เพื่อให้มั่นใจว่าจะต้องสร้างเฟรมเวิร์กที่ดักจับและแก้ไขปัญหาคุณภาพข้อมูลโดยอัตโนมัติ (ถ้าเป็นไปได้) การล้างข้อมูลควรเป็นส่วนหนึ่งของกระบวนการรวมข้อมูลที่มีการตรวจสอบข้อมูลเป็นประจำหรือมีการจัดทำโปรไฟล์ข้อมูลเพื่อระบุปัญหาข้อมูลใด ๆ ในขณะที่มีการใช้มาตรการเชิงรุกเหล่านี้คุณต้องพิจารณามาตรการตอบโต้เมื่อข้อมูลที่ไม่ดีหลุดออกจากประตูเหล่านี้และมีการรายงานโดยผู้ใช้
เพื่อให้ผู้ใช้มั่นใจในระบบคลังข้อมูลข้อมูลที่ไม่ดีใด ๆ ที่เน้นโดยผู้ใช้ทางธุรกิจควรได้รับการตรวจสอบเป็นลำดับความสำคัญ เพื่อช่วยในความพยายามเหล่านี้ควรมีการสร้างสายข้อมูลและกรอบการควบคุมข้อมูลไว้ในแพลตฟอร์มเพื่อให้แน่ใจว่าปัญหาข้อมูลสามารถระบุและแก้ไขได้อย่างรวดเร็วโดยเจ้าหน้าที่ฝ่ายสนับสนุน แพลตฟอร์มการรวมข้อมูลส่วนใหญ่จะรวมโซลูชันคุณภาพข้อมูลระดับหนึ่งเช่น DQS ใน MS SQL Server หรือ IDQ ใน Informatica
ใช้ประโยชน์จากแพลตฟอร์มในตัวเหล่านี้หากคุณกำลังใช้เครื่องมือเชิงพาณิชย์ในไปป์ไลน์การรวมข้อมูลของคุณ แต่นอกจากนี้หรืออย่างอื่นตรวจสอบให้แน่ใจว่าคุณได้สร้างกลไกที่จะช่วยให้คุณรักษาคุณภาพของข้อมูลของคุณได้ ตัวอย่างเช่นเครื่องมือการรวมข้อมูลส่วนใหญ่ไม่มีฟังก์ชันที่ดีในการติดตามเชื้อสายของข้อมูล เพื่อเอาชนะข้อ จำกัด นี้สามารถสร้างกรอบการควบคุมแบทช์แบบกำหนดเองโดยใช้ชุดตารางควบคุมเพื่อติดตามการไหลของข้อมูลทั้งหมดที่เกิดขึ้นภายในระบบ
เป็นเรื่องยากมากที่จะได้รับความไว้วางใจจากผู้มีส่วนได้ส่วนเสียทางธุรกิจของคุณหากพวกเขาพบกับคุณภาพที่ไม่ดีภายในแพลตฟอร์มของคุณดังนั้นการลงทุนล่วงหน้าในกรอบคุณภาพข้อมูลควรคุ้มค่ากับต้นทุน
ตัวเลขนี้แสดงให้เห็นถึงการแบ่งส่วนของความพยายามในการนำไปใช้และการใช้งานคลังข้อมูลส่วนใหญ่
ความพยายามส่วนใหญ่คือการลงทุนในการสร้างและบำรุงรักษาคลังสินค้าในขณะที่มูลค่าเพิ่มของการมีคลังสินค้าสำหรับการวิเคราะห์ทางธุรกิจเป็นส่วนที่น้อยกว่ามาก นี่เป็นอีกสาเหตุหนึ่งที่โครงการข่าวกรองธุรกิจมักล้มเหลว บางครั้งในวงจรโครงการใช้เวลานานเกินไปในการแสดงคุณค่าที่มีความหมายต่อลูกค้าและเมื่อระบบเข้าสู่ระบบในที่สุดก็ยังต้องใช้ความพยายามอย่างมากด้านไอทีเพื่อดึงคุณค่าทางธุรกิจออกมา ดังที่เราได้กล่าวไว้ในบทนำการออกแบบและปรับใช้ระบบธุรกิจอัจฉริยะอาจเป็นกระบวนการที่มีราคาแพงและใช้เวลานาน ดังนั้นผู้มีส่วนได้ส่วนเสียจะคาดหวังอย่างถูกต้องว่าจะเริ่มเก็บเกี่ยวมูลค่าเพิ่มได้อย่างรวดเร็วด้วยระบบธุรกิจอัจฉริยะและคลังข้อมูลของพวกเขา หากไม่มีมูลค่าเพิ่มที่เป็นรูปธรรมหรือหากผลลัพธ์นั้นสายเกินไปที่จะมีมูลค่าที่แท้จริงก็ไม่มีอะไรที่จะหยุดไม่ให้ดึงปลั๊กออก
หลักการที่สองของการพัฒนาคลังข้อมูลคือการพลิกสามเหลี่ยมดังภาพประกอบที่นี่
ทางเลือกของเครื่องมือทางธุรกิจอัจฉริยะและกรอบงานที่คุณวางไว้จำเป็นต้องทำให้แน่ใจว่าส่วนใหญ่ของความพยายามในการเข้าไปในคลังสินค้าคือการดึงมูลค่าทางธุรกิจออกมามากกว่าการสร้างและบำรุงรักษา สิ่งนี้จะช่วยให้มั่นใจได้ถึงการมีส่วนร่วมในระดับสูงจากผู้มีส่วนได้ส่วนเสียทางธุรกิจของคุณเพราะพวกเขาจะเห็นคุณค่าของการลงทุนในโครงการทันที ที่สำคัญคุณทำให้ธุรกิจสามารถพึ่งพาตนเองได้ สกัดค่า โดยไม่ต้องพึ่งพาไอทีมากนัก
คุณสามารถปฏิบัติตามหลักการนี้ได้โดยปฏิบัติตามวิธีการพัฒนาที่เพิ่มขึ้นเมื่อสร้างคลังสินค้าเพื่อให้แน่ใจว่าคุณสามารถส่งมอบฟังก์ชันการผลิตได้อย่างรวดเร็วที่สุด ตามกลยุทธ์ดาต้ามาร์ทของ Kimball หรือ Data Vault ของ Linstedt วิธีการออกแบบคลังข้อมูลจะช่วยให้คุณพัฒนาระบบที่สร้างขึ้นทีละน้อยในขณะที่บัญชีสำหรับการเปลี่ยนแปลงได้อย่างราบรื่น ใช้เลเยอร์ความหมายในแพลตฟอร์มของคุณเช่นคิวบ์ MS SSAS หรือแม้แต่ Business Objects Universe เพื่อจัดเตรียมอินเทอร์เฟซทางธุรกิจที่เข้าใจง่ายให้กับข้อมูลของคุณ ในกรณีก่อนหน้านี้คุณจะมีกลไกที่ง่ายสำหรับผู้ใช้ในการสืบค้นข้อมูลจาก Excel ซึ่งยังคงเป็นเครื่องมือวิเคราะห์ข้อมูลที่ได้รับความนิยมมากที่สุด
รวมเครื่องมือ BI ที่สนับสนุน BI แบบบริการตนเองเช่น คณะกรรมการ หรือ PowerBI จะช่วยปรับปรุงการมีส่วนร่วมของผู้ใช้เท่านั้นเนื่องจากตอนนี้อินเทอร์เฟซสำหรับสืบค้นข้อมูลนั้นง่ายขึ้นอย่างมากเมื่อเทียบกับการเขียน SQL
การจัดเก็บแหล่งข้อมูลในไฟล์ ทะเลสาบข้อมูล ก่อนที่จะเติมฐานข้อมูลจะช่วยเปิดเผยข้อมูลต้นทางให้ผู้ใช้ทราบตั้งแต่เนิ่นๆในขั้นตอนการขึ้นเครื่อง ผู้ใช้ขั้นสูงอย่างน้อยเช่นธุรกิจจะสามารถย่อยข้อมูลต้นทาง (ผ่านไฟล์ดิบ) ได้โดยเชื่อมต่อเครื่องมือเช่น Hive / Impala ที่ด้านบนของไฟล์ ซึ่งจะช่วยลดเวลาที่ธุรกิจต้องใช้ในการวิเคราะห์จุดข้อมูลใหม่จากหลายสัปดาห์เป็นวันหรือชั่วโมง
สิ่งที่ต้องทำกับ sdr
ข้อมูลใกล้จะกลายเป็นน้ำมันเทียบเท่าดิจิทัล ในช่วงไม่กี่ปีที่ผ่านมาเราได้เห็นการระเบิดของเครื่องมือจำนวนมากที่สามารถใช้เป็นส่วนหนึ่งของแพลตฟอร์มคลังข้อมูลและอัตราของนวัตกรรม ผู้นำการเรียกเก็บเงินคือเครื่องมือการแสดงภาพจำนวนมากที่มีอยู่ในขณะนี้พร้อมด้วยตัวเลือกขั้นสูงสำหรับการปิดท้าย เนื่องจากสภาพแวดล้อมนี้และแนวโน้มที่ข้อกำหนดทางธุรกิจจะเปลี่ยนแปลงอยู่ตลอดเวลาจึงเป็นสิ่งสำคัญที่ต้องจำไว้ว่าคุณจะต้องเปลี่ยนส่วนประกอบของกองเทคโนโลยีของคุณหรือแม้แต่แนะนำ / ลบผู้อื่นตามกาลเวลาเนื่องจากการเปลี่ยนแปลงทางธุรกิจและเทคโนโลยีเป็นตัวกำหนด
จากประสบการณ์ส่วนตัวคงจะโชคดีหากแพลตฟอร์มสามารถใช้งานได้ 12 เดือนโดยไม่มีการเปลี่ยนแปลงที่สำคัญ ความพยายามที่สมเหตุสมผลเป็นสิ่งที่หลีกเลี่ยงไม่ได้ในสถานการณ์เหล่านี้ อย่างไรก็ตามควรมีความเป็นไปได้ที่จะเปลี่ยนแปลงเทคโนโลยีหรือการออกแบบและแพลตฟอร์มของคุณควรได้รับการออกแบบมาเพื่อตอบสนองความต้องการในที่สุด หากต้นทุนการย้ายคลังสินค้าสูงเกินไปธุรกิจก็สามารถตัดสินใจได้ว่าต้นทุนนั้นไม่สมเหตุสมผลและละทิ้งสิ่งที่คุณสร้างขึ้นแทนที่จะต้องการย้ายโซลูชันที่มีอยู่ไปยังเครื่องมือใหม่
สร้างระบบที่รองรับ ทั้งหมด ความต้องการในอนาคตที่จะจินตนาการได้นั้นเป็นไปไม่ได้ ดังนั้นขอขอบคุณระดับหนึ่งที่สิ่งที่คุณออกแบบและสร้างตอนนี้สามารถถูกแทนที่ได้ด้วยเวลาในการสร้างคลังข้อมูล ด้วยเหตุนี้ฉันจึงขอสนับสนุนการใช้เครื่องมือและการออกแบบทั่วไปหากเป็นไปได้แทนที่จะเชื่อมโยงแพลตฟอร์มของคุณเข้ากับเครื่องมือที่ทำงานอยู่อย่างแน่นหนา แน่นอนว่าสิ่งนี้ต้องทำหลังจากการวางแผนและการพิจารณาอย่างรอบคอบเนื่องจากอำนาจในเครื่องมือจำนวนมากโดยเฉพาะฐานข้อมูลนั้นอยู่ในความแตกต่างกันและเป็นส่วนเสริมอย่างใกล้ชิด
ตัวอย่างเช่นประสิทธิภาพของ ETL ได้รับการปรับปรุงอย่างมากเมื่อใช้กระบวนงานที่จัดเก็บไว้ในฐานข้อมูลเพื่อสร้างข้อมูลการวิเคราะห์ทางธุรกิจใหม่ซึ่งต่างจากการแยกและประมวลผลข้อมูลภายนอกฐานข้อมูลโดยใช้ Python หรือ SSIS สำหรับเลเยอร์การรายงานเครื่องมือแสดงภาพจะเสนอฟังก์ชันการทำงานบางอย่างที่ไม่พร้อมใช้งานในผู้อื่นเช่น Power BI รองรับแบบสอบถาม MDX ที่กำหนดเอง แต่ Tableau ไม่ทำ ประเด็นของฉันไม่ได้อยู่ที่การสนับสนุนการละทิ้งขั้นตอนที่จัดเก็บไว้หรือการหลีกเลี่ยงคิวบ์ SSAS หรือ Tableau ในระบบของคุณ ความตั้งใจของฉันเป็นเพียงเพื่อส่งเสริมความสำคัญของการมีสติในการตัดสินใจที่จะจับคู่แพลตฟอร์มของคุณเข้ากับเครื่องมือของมันอย่างแน่นหนา
อีกช่องทางหนึ่งที่อาจเกิดขึ้นอยู่ในชั้นการรวม การใช้เครื่องมือเช่น SSIS สำหรับการรวมข้อมูลของคุณทำได้ง่ายมากเนื่องจากความสามารถในการดีบักหรือใช้งานง่ายกับแพลตฟอร์ม SQL Server อย่างไรก็ตามการย้ายแพ็คเกจ SSIS หลายร้อยรายการไปยังเครื่องมืออื่นจะกลายเป็นโครงการที่มีราคาแพงมาก ในกรณีที่ส่วนใหญ่คุณกำลังทำ 'EL' ให้ใช้เครื่องมือทั่วไปในการประมวลผลของคุณ การใช้ภาษาการเขียนโปรแกรมเช่น Python หรือ Java เพื่อเขียนตัวโหลดทั่วไปหนึ่งตัวเพื่อโหลดเลเยอร์การจัดเตรียมของคุณจะช่วยลดแพ็คเกจ SSIS แต่ละรายการที่คุณต้องการได้ วิธีนี้ไม่เพียง แต่ช่วยลดค่าใช้จ่ายในการบำรุงรักษาและการย้ายข้อมูลในอนาคต แต่ยังช่วยให้กระบวนการเริ่มต้นใช้งานข้อมูลเป็นไปโดยอัตโนมัติโดยไม่ต้องเขียนแพ็คเกจใหม่แต่ละชุด (เชื่อมโยงกับหลักการที่ 2)
ในกรณีเหล่านี้คุณต้อง ตัดสินใจเกี่ยวกับการประนีประนอมในทางปฏิบัติระหว่างผลประโยชน์เฉพาะหน้าและต้นทุนการย้ายถิ่นในอนาคต เพื่อให้แน่ใจว่าคลังสินค้าจะไม่ถูกทิ้งเพราะไม่สามารถจัดการกับการเปลี่ยนแปลงได้หรือเนื่องจากการเปลี่ยนแปลงจะต้องใช้เวลาความพยายามหรือการลงทุนมากเกินไป
มีสาเหตุหลายประการที่ระบบธุรกิจอัจฉริยะบางระบบอาจล้มเหลวและยังมีการกำกับดูแลทั่วไปบางประการที่อาจนำไปสู่ความล้มเหลวในที่สุด ภูมิทัศน์ของเทคโนโลยีที่เปลี่ยนแปลงตลอดเวลางบประมาณที่ จำกัด สำหรับระบบข้อมูลเนื่องจากความสำคัญรองลงมาในระบบปฏิบัติการและความซับซ้อนและความยากลำบากในการทำงานกับข้อมูลหมายความว่าการพิจารณาอย่างรอบคอบไม่เพียง แต่เป้าหมายเฉพาะหน้าเท่านั้น แต่ยังต้องเกิดขึ้นในอนาคตเมื่อออกแบบและ การสร้างส่วนประกอบของคลังข้อมูล
ข้อมูลพื้นฐานเกี่ยวกับคลังข้อมูลที่ระบุไว้ในบทความนี้มีวัตถุประสงค์เพื่อช่วยแนะนำคุณเมื่อทำการพิจารณาที่สำคัญเหล่านี้ แน่นอนว่าการคำนึงถึงหลักการเหล่านี้ไม่ได้รับประกันความสำเร็จ แต่จะช่วยให้คุณหลีกเลี่ยงความล้มเหลวได้อย่างแน่นอน
นักพัฒนาคลังข้อมูลหรือที่เรียกกันโดยทั่วไปว่าวิศวกรข้อมูลมีหน้าที่รับผิดชอบในการพัฒนาและบำรุงรักษาคลังข้อมูลโดยรวม มันขึ้นอยู่กับพวกเขาที่จะตัดสินใจเกี่ยวกับสแต็คเทคโนโลยีตลอดจนเฟรมเวิร์กและการประมวลผลที่กำหนดเองและเพื่อให้ข้อมูลพร้อมสำหรับผู้บริโภค
การใช้เทคโนโลยีที่หลากหลายหมายความว่าคลังข้อมูลส่วนใหญ่มีความแตกต่างกันมาก ตัวอย่างพื้นฐานจะประกอบด้วยฐานข้อมูลเซิร์ฟเวอร์ SQL โดย SSIS จะสร้างชั้นการรวมข้อมูลและ Power BI และ SSRS จะอยู่บนฐานข้อมูลเพื่อตอบสนองความต้องการด้านการแสดงภาพและการรายงาน
คลังข้อมูลถูกสร้างขึ้นโดยเครื่องมือและกรอบงานมากมายที่ทำงานร่วมกันแบบองค์รวมเพื่อให้ข้อมูลพร้อมสำหรับการรับข้อมูลเชิงลึก หัวใจสำคัญของคลังข้อมูลคือฐานข้อมูลหรือที่เก็บข้อมูลเมตาแบบลอจิคัลที่มีกรอบการรวมข้อมูลประกอบเป็นกระดูกสันหลัง
คลังข้อมูลเป็นกลไกสำหรับองค์กรในการจัดเก็บและจำลองข้อมูลทั้งหมดจากแผนกต่างๆให้เป็นโครงสร้างที่สอดคล้องกัน จากนี้ข้อมูลของ บริษัท คุณสามารถให้บริการผู้บริโภคหลายรายทั้งภายในและภายนอก คลังข้อมูลสามารถเป็นแหล่งความจริงแหล่งเดียว