ในยุคนี้ ดาต้าเลค และฐานข้อมูลขนาดเพตะไบต์เป็นที่น่าตกใจว่าฉันยังคงรับข้อมูลในรูปแบบไฟล์ CSV, ข้อความและ Excel บ่อยเพียงใด ในขณะที่การวิเคราะห์สมัยใหม่มุ่งเน้นไปที่ความก้าวหน้าที่ล้ำสมัยในอัลกอริทึมการเรียนรู้ของเครื่อง แต่ความน่าเบื่อหน่ายในแต่ละวันของ การวิเคราะห์ข้อมูล ยังคงเป็นกระบวนการแบบแมนนวลในการค้นหารวบรวมและโต้แย้งประเภทข้อมูลที่แตกต่างกัน
สำหรับนักวิเคราะห์ทางการเงินข้อมูลมักจะมาในรูปแบบสเปรดชีต Excel แต่บ่อยครั้งก็คือการถ่ายโอนข้อมูลลงใน CSV หรือแบบสอบถามในฐานข้อมูล SQL บางครั้งข้อมูลถูกจัดเรียงในรูปแบบที่สับสนหรือไม่มีองค์ประกอบที่จำเป็นสำหรับการวิเคราะห์ทั้งหมด เวลาที่ใช้ในการขัดข้อมูลนี้เป็นการเสียเวลาอันมีค่าสำหรับนักวิเคราะห์ แต่ในบางครั้งงานนี้ได้รับการยอมรับว่าเป็นสิ่งชั่วร้ายที่จำเป็นที่จะต้องยอมรับ
วิธีแก้ปัญหาทั่วไปนี้สามารถเข้าถึงได้จริง: Excel และ Power BI มีชุดเครื่องมือการแปลงข้อมูลทั้งหมดที่มีผู้ใช้เพียงไม่กี่คนที่รู้จักชื่อ รับและแปลงร่าง (เดิมเรียกว่า Power Query) การใช้ฟังก์ชันการแยกการแปลงและการโหลด (ETL) แบบฝังช่วยให้นักวิเคราะห์ทางการเงินสามารถเชื่อมโยงไปยังแหล่งข้อมูลของตนได้อย่างราบรื่นและเข้าถึงข้อมูลเชิงลึกได้เร็วขึ้น
เมื่อเราวางข้อมูลเพื่อโหลดลงใน Excel หรือ Power BI เรามักจะต้องทำการแปลงข้อมูลบางอย่าง ตัวอย่างของการจัดการข้อมูล ได้แก่ :
ในแผนภาพด้านล่างเราจะเห็นว่า Get & Transform ทำหน้าที่ที่น่าเบื่อนี้ในการประมวลผลข้อมูลล่วงหน้าก่อนที่จะโหลด
เหตุใดจึงคุ้มค่าที่จะเรียนรู้วิธีใช้ Get & Transform เมื่อฉันดูว่าฉันใช้ฟังก์ชันนี้เป็นการส่วนตัวเพื่ออะไรมันได้เสนอชุดเครื่องมือที่ปรับเปลี่ยนได้สำหรับ:
วิธีการสร้างภาษาโปรแกรม
โดยทั่วไปเมื่อฉันได้รับข้อมูลใหม่ฉันจะสำรวจโดยใช้ Get & Transform ก่อนที่จะโหลดลงใน Power Pivot สิ่งนี้ทำให้ฉันเห็นว่าการเปลี่ยนแปลงใดที่อาจจำเป็นและดำเนินการหมุนและการจัดกลุ่มข้อมูลอย่างรวดเร็วเพื่อกำหนดกรอบสำหรับการวิเคราะห์ ในหลาย ๆ กรณีในขั้นตอนนี้ฉันจะพบว่าฉันต้องการข้อมูลเพิ่มเติมหรือมีปัญหาเกี่ยวกับข้อมูล ด้วยการใช้แพลตฟอร์มที่ใช้ Excel ฉันสามารถทำซ้ำกับแหล่งข้อมูลของฉันได้อย่างรวดเร็วเพื่อค้นหาความผิดปกติของข้อมูลเหล่านี้
ท้ายที่สุดแล้วการตัดสินใจที่จะอยู่ใน Excel หรือย้ายการวิเคราะห์ข้อมูลไปยังแพลตฟอร์มอื่นจะขึ้นอยู่กับผู้ชมและความสามารถในการทำซ้ำและการกระจายของการวิเคราะห์ ถ้าลูกค้าของฉันใช้เฉพาะ Excel ฉันจะใช้ Get & Transform เพื่อโหลดข้อมูล Power Pivot เพื่อทำการวิเคราะห์และ Excel เพื่อสร้างผลิตภัณฑ์ PivotTables และแผนภูมิ สำหรับลูกค้าสิ่งนี้จะรู้สึกไร้รอยต่อเนื่องจากทั้งหมดอยู่ใน Excel
อย่างไรก็ตามหากลูกค้าของฉัน:
จากนั้นฉันจะใช้ Get & Transform สำหรับการสำรวจข้อมูลเบื้องต้นเท่านั้นจากนั้นย้ายการยกของหนักเข้าไป ร .
s corp c corp ห้างหุ้นส่วน
ใน Excel เวอร์ชันก่อนหน้า Power Query เป็น Add-in ที่สามารถติดตั้งเพื่อช่วยในการทำงานของ ETL อย่างไรก็ตามใน Excel 2016 และ Power BI เครื่องมือเหล่านี้จะรวมเข้าด้วยกันอย่างแน่นหนามากขึ้น ใน Excel 2016 สามารถเข้าถึงได้ผ่านไฟล์ ข้อมูล แล้วแท็บ รับและแปลงข้อมูล มาตรา.
ใน Power BI มีฟังก์ชันการทำงานอยู่บนไฟล์ บ้าน ในแท็บ ข้อมูลภายนอก มาตรา.
ในบทความนี้ตัวอย่างของฉันเกิดขึ้นใน Power BI แต่อินเทอร์เฟซเกือบจะเหมือนกันกับ Excel ฉันจะชี้ให้เห็นความแตกต่างเมื่อเกิดขึ้นดังนั้นบทช่วยสอนควรเหมาะสมกับผู้ใช้ทั้งสองประเภท
เพื่อช่วยบทช่วยสอนนี้ฉันได้สร้างตัวอย่างข้อมูลการขายสำหรับร้านค้าปลีกที่ขายอุปกรณ์และเสื้อผ้ากลางแจ้ง ในแต่ละตัวอย่างเหล่านี้ข้อมูลจะถูกสร้างขึ้นในรูปแบบต่างๆเพื่อแสดงให้เห็นถึงวิธีการถ่ายโอนข้อมูลที่เป็นจริง
ตัวอย่างแรกเราจะเห็นข้อมูลที่แสดงเป็นข้อมูลขนาดใหญ่ในไฟล์ CSV ปัจจัยที่ซับซ้อนคือข้อมูลจะถูกนำเสนอด้วยหลายคอลัมน์ที่แสดงถึงร้านค้าต่างๆ เราต้องการนำเข้าและแปลงข้อมูลให้อยู่ในรูปแบบที่ใช้งานได้มากขึ้น
ด้านล่างนี้คือภาพหน้าจอของ CSV ดิบที่ดูเหมือน:
ลงทุนในบริษัทอีลอนมัสค์
ทำไมเราถึงต้องการเปลี่ยนแปลงสิ่งนี้? เพื่อใช้ประโยชน์จากความสามารถด้านความสัมพันธ์ที่เป็นไปได้ในแอปพลิเคชันเหล่านี้ เราจะเห็นบทละครนี้เพิ่มเติมในการสนทนา
ในตอนนี้สมมติว่าเราต้องเห็นข้อมูลเป็นโครงสร้างที่ 'แคบและสูงกว่า' แทนที่จะเป็นโครงสร้างที่ 'กว้างและสั้นกว่า' ขั้นตอนแรกคือการโหลด CSV จากนั้นเราจะเริ่ม 'ยกเลิกการใช้งาน' ข้อมูล
อย่างที่คุณเห็นโครงสร้างสุดท้ายของข้อมูลนั้นแคบกว่าข้อมูลเริ่มต้นและยาวกว่ามาก อีกประเด็นหนึ่งก็คือในขณะที่เรากำลังคลิกที่การกระทำต่างๆเครื่องมือทางด้านขวามือจะสร้างรายการขั้นตอนที่ใช้เพื่อสร้างแบบสอบถาม สิ่งสำคัญคือต้องเข้าใจว่าสิ่งนี้กำลังเกิดขึ้นในพื้นหลังเนื่องจากจะมีการตรวจสอบอีกครั้งในภายหลัง
Get & Transform มีลักษณะและลักษณะการทำงานคล้ายกันระหว่าง Power BI และ Excel เป็นส่วนใหญ่ อย่างไรก็ตามใน Excel หลังจากคลิก ปิดและโหลด มีข้อความแจ้งเพิ่มเติมหนึ่งรายการ ในรูปด้านล่างเราสามารถสลับระหว่างว่าเราต้องการโหลดข้อมูลลงใน:
นอกจากนี้เรายังได้รับตัวเลือกว่าจะหรือไม่ เพิ่มข้อมูลนี้ในแบบจำลองข้อมูล . การเลือกช่องนี้จะโหลดข้อมูลลงในไฟล์ Power Pivot โต๊ะ. หากเราจะวิเคราะห์ข้อมูลใน Power Pivot ฉันแนะนำให้เลือก สร้างการเชื่อมต่อเท่านั้น จากนั้นตรวจสอบให้แน่ใจว่าไฟล์ เพิ่มข้อมูลนี้ในแบบจำลองข้อมูล เลือกตัวเลือกแล้ว หากข้อมูลอยู่ในขีด จำกัด แถวของ Excel และเราต้องการทำการวิเคราะห์ใน Excel ให้เลือก โต๊ะ .
ในคลิปต่อไปเราจะมาดูกันว่าสาเหตุที่เราจัดรูปแบบข้อมูลให้ยาวและผอมเพื่อให้เราวิเคราะห์ยอดขายได้ไม่เพียง แต่แยกตามร้านค้า แต่ยังแบ่งตามภูมิภาคและรัฐด้วย เพื่อให้งานนี้สำเร็จเราจะนำเข้าตารางที่แมปแต่ละร้านค้ากับภูมิภาคและรัฐ เราจะเห็นด้านล่างว่าเราสามารถสร้างรายงานที่แสดงยอดขายตามกลุ่มต่างๆเหล่านี้ได้อย่างรวดเร็ว
คุณสามารถจินตนาการได้ว่าความสามารถประเภทนี้สำหรับการแปลงข้อมูลใน Excel หรือ Power BI สามารถนำไปใช้กับกรณีใด ๆ ที่เรามีการจัดกลุ่มข้อมูลแบบไดนามิกเช่น:
แม้ว่าบทความนี้จะกล่าวถึง CSV และไฟล์ Excel อื่น ๆ แต่ Get & Transform จะจัดการกับประเภทข้อมูลที่หลากหลาย เมื่อสร้างแบบสอบถามแล้วสามารถรีเฟรชเมื่อเวลาผ่านไปเมื่อข้อมูลเปลี่ยนแปลง
เพื่อแสดงให้เห็นถึงความสามารถของ Get & Transform ในการจัดการสตริงฉันได้สร้างชุดข้อมูลอื่นที่เลียนแบบไฟล์ข้อความที่แสดงธุรกรรมทางบัญชีจากบัญชีแยกประเภททั่วไปของ บริษัท (GL)
สังเกตว่าหมายเลขบัญชีและชื่อปรากฏในสตริงเดียวกันหรือไม่? ใน Power BI เราสามารถแยกวิเคราะห์หมายเลขบัญชีและชื่อลงในช่องแยกได้อย่างง่ายดาย
ความจริงเสริม VS ความเป็นจริงผสม
ในวิดีโอนี้คุณจะเห็นว่าหลังจากที่ฉันแยกคอลัมน์แล้วเครื่องมือคาดเดาว่าด้านซ้ายมือใหม่ของช่องบัญชีควรเป็นตัวเลขและจะสร้างขั้นตอน 'Changed Type1' เนื่องจากในที่สุดเราต้องการให้ฟิลด์นี้เป็นสตริงเราสามารถดำเนินการต่อและลบขั้นตอนด้วยตนเองภายใต้ขั้นตอนที่ใช้
ต่อไปเราจะใช้ข้อมูลเดียวกันและสร้างผังบัญชีพร้อมการแมปกับหมวดหมู่บัญชี
ทำไมเราต้องทำตามขั้นตอนเหล่านั้นทั้งหมดเพื่อจับคู่หมายเลขบัญชีสองสามตัว บัญชีแยกประเภททั่วไปที่แท้จริงสามารถมีได้หลายร้อยหรือหลายพันบัญชี แบบสอบถามการแมปด่วนนี้ตามที่เราได้แสดงไว้จะปรับขนาดเป็นระดับนั้นโดยไม่ต้องทำงานเพิ่มเติม
หมายเลขบัตรเครดิตของใครบางคนที่ฉันสามารถใช้ได้
Get & Transform รองรับแหล่งข้อมูลต่างๆมากมาย แม้ว่าจะไม่ใช่รายการที่ละเอียดถี่ถ้วน แต่ตัวอย่างด้านล่างนี้:
ไฟล์ข้อความ Excel เฟสบุ๊ค Adobe Analytics Google Analytics Salesforce Azure Redshift จุดประกาย เซิร์ฟเวอร์ SQL SAP HANA เทราดาทา Google BigQueryโดยส่วนตัวฉันได้ลองใช้เพียงครึ่งหนึ่งของการเชื่อมต่อในรายการด้านบน ตัวเชื่อมต่อแต่ละตัวที่ฉันใช้มีความแข็งแรงพอสมควร ฉันได้รับจากข้อมูลดิบไปจนถึงข้อมูลเชิงลึกโดยไม่ต้องทำงานหนักมาก ที่สำคัญพอ ๆ กันคือทำหน้าที่เป็นตัวตรวจสอบความถูกต้องระหว่างแหล่งข้อมูลที่แตกต่างกันเพื่อให้แน่ใจว่าผลลัพธ์สุดท้ายมีการควบคุมคุณภาพในระดับปกติ
ในเบื้องหลัง Get & Transform กำลังสร้างโค้ดทุกครั้งที่เราคลิกปุ่มในเครื่องมือหรือทำการเลือก ด้านล่างนี้คือตัวอย่างวิธีที่คุณจะเข้าถึงรหัสสำหรับแบบสอบถามการแมปบัญชีที่เราสร้างขึ้น:
รหัสใช้ภาษาที่ใช้งานได้ชื่อ ม ซึ่งสร้างขึ้นโดยอัตโนมัติสำหรับกรณีการใช้งานพื้นฐาน อย่างไรก็ตามสำหรับการโต้เถียงข้อมูลที่ซับซ้อนมากขึ้นเราสามารถแก้ไขและเขียนโค้ดของเราเองได้ ในกรณีส่วนใหญ่ฉันจะแก้ไขโค้ดนี้เพียงเล็กน้อยเท่านั้น ในการแปลงที่ซับซ้อนมากขึ้นฉันอาจเขียนโค้ดส่วนใหญ่ตั้งแต่เริ่มต้นจนถึงขั้นตอน ตารางชั่วคราว หรือสำหรับการดำเนินการที่ซับซ้อนมากขึ้น เข้าร่วม .
Excel มีแนวโน้มที่จะถึงขีด จำกัด เมื่อคุณพยายามส่งออกมากกว่าหนึ่งล้านแถว ในกรณีที่ฉันเปลี่ยนแถวนับล้านด้วย Get & Transform วิธีเดียวที่จะจัดส่งแถวที่ไม่ได้จัดกลุ่มคือการแฮ็กหรือวิธีแก้ปัญหาที่น่าเบื่อ ฉันยังพบว่าแบบสอบถาม Get & Transform อาจไม่เสถียรในการปรับใช้กับผู้ใช้หลายคนโดยเฉพาะอย่างยิ่งหากคุณใช้แหล่งข้อมูลและการรวมหลายแหล่ง ในกรณีเหล่านี้ฉันจะใช้ R เพื่อปรับใช้การโต้เถียงข้อมูลที่ซ้ำกันเสมอ สุดท้าย Excel ไม่ได้ถูกสร้างขึ้นสำหรับการสร้างแบบจำลองข้อมูลขั้นสูง คุณสามารถทำการถดถอยเชิงเส้นได้อย่างรวดเร็ว แต่นอกเหนือจากนั้นคุณจะต้องใช้แพลตฟอร์มที่เข้มงวดมากขึ้น
จากที่กล่าวมาทั้งหมดฉันพบว่า Excel เป็นสิ่งที่ลูกค้าส่วนใหญ่ของฉันพอใจมากที่สุด Excel ยังคงเป็นเครื่องมือที่สำคัญที่สุดในคลังแสงของนักวิเคราะห์การเงิน ด้วยการรวมฟังก์ชัน Get & Transform ทำให้ Excel และ Power BI มีประสิทธิภาพมากยิ่งขึ้นผ่านช่วงของแหล่งข้อมูลที่พวกเขายอมรับได้
การแยกการแปลงและการโหลดเป็นกระบวนการในการย้ายข้อมูลจากแหล่งต่างๆไปยังคลังข้อมูลส่วนกลาง
Power BI เป็นชิ้นส่วนซอฟต์แวร์การวิเคราะห์ทางธุรกิจจาก Microsoft มีความสามารถเชิงลึกสำหรับการแสดงข้อมูลและการสร้างรายงานและแดชบอร์ดอัตโนมัติ
Data Lake คือที่เก็บเดียวสำหรับแหล่งข้อมูลทั้งหมดภายในองค์กร ซึ่งอาจรวมถึงช่องข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างซึ่งท้ายที่สุดแล้วสามารถดึงมาใช้และประมวลผลได้ทุกเมื่อที่ต้องการ