top of page
  • รูปภาพนักเขียนDatarich Matters

Data Cleansing สำคัญอย่างไร? มีขั้นตอนอะไรบ้าง?



Data Cleansing หรือการทำความสะอาดข้อมูล เป็นกระบวนการที่สำคัญในการจัดการข้อมูลเพื่อให้ข้อมูลมีคุณภาพสำหรับการนำไปวิเคราะห์และการใช้งานต่าง ๆ เป็นกระบวนการในการตรวจจับ แก้ไข ลบ แทนข้อมูลที่เสียหายหรือไม่ถูกต้องจากตารางหรือฐานข้อมูล และการจัดรูปแบบของข้อมูล โดยการทำให้ชุดข้อมูลมีความสอดคล้องกับความเป็นจริงกับชุดข้อมูลอื่น ๆ เพื่อเป็นการทำให้ข้อมูลมีความพร้อมใช้งาน


ในงานสาย Data เรามักจะมีคำกล่าวว่า “Garbage In, Garbage Out (GIGO)” นำขยะเข้า ได้ขยะออก หรืออธิบายได้ว่า ถ้าเราใส่ข้อมูลที่ไร้คุณค่าลงไปในระบบ ก็จะได้ผลลัพธ์เป็นข้อมูลที่ไม่มีค่ากลับมานั่นเอง บางครั้งข้อมูลที่ผิดพลาดเพียงเล็กน้อยอาจส่งผลให้การวิเคราะห์ผิดพลาดได้ ซึ่งอาจส่งผลรุ่นแรงต่อการวิเคราะห์โดยภาพรวมและส่งผลต่อการตัดสินใจที่ผิดพลาดทางธุรกิจ


สาเหตุนี้จึงต้องให้ความสำคัญกับการทำความสะอาดข้อมูล ซึ่งการทำ Data Cleansing ถือว่าเป็นกระบวนการที่สำคัญและใช้เวลานานมากที่สุดในการจัดการข้อมูล เพื่อให้ได้ผลลัพธ์สอดคล้องกับความเป็นจริงและถูกต้องพร้อมใช้งานมากที่สุดนั่นเอง


ขั้นตอนการทำ Data Cleansing มีดังนี้

1. การระบุข้อมูลที่ไม่ถูกต้องหรือขาดหาย ในขั้นตอนแรกคือการตรวจสอบข้อมูลเพื่อระบุข้อมูลที่ไม่ถูกต้อง หรือขาดหาย ซึ่งอาจเป็นการตรวจสอบข้อมูลที่ไม่มีค่า (missing data) หรือข้อมูลที่มีค่าไม่ถูกต้อง เช่น ข้อมูลที่ไม่ตรงกับรูปแบบที่กำหนด การระบุข้อมูลที่ไม่ถูกต้องเป็นขั้นตอนสำคัญเพื่อแก้ไขข้อมูลให้ถูกต้องและครบถ้วน


2. การลบข้อมูลที่ไม่เกี่ยวข้อง ขั้นตอนถัดไปคือการลบข้อมูลที่ไม่เกี่ยวข้องกับวัตถุประสงค์ของการวิเคราะห์หรือการใช้งาน ซึ่งอาจเป็นข้อมูลที่ไม่มีความสำคัญหรือข้อมูลที่ไม่ใช่สิ่งที่ต้องการ


3. การแก้ไขข้อมูลที่ไม่ถูกต้อง หากพบข้อมูลที่ไม่ถูกต้อง เช่น ค่าที่เป็น outlier (ค่าที่อยู่นอกเหนือจากค่ามาตรฐาน) หรือค่าที่ไม่น่าเชื่อถือ จะต้องมีการแก้ไขข้อมูลให้ถูกต้อง โดยการแทนค่าด้วยค่าที่ถูกต้องหรือการลบข้อมูลที่ไม่สามารถแก้ไขได้


4. การตรวจสอบข้อมูลที่ซ้ำกัน การตรวจสอบและการจัดการข้อมูลที่ซ้ำกันเป็นขั้นตอนสำคัญเพื่อให้ข้อมูลไม่มีข้อมูลที่ซ้ำกันซึ่งอาจทำให้การวิเคราะห์หรือการใช้งานข้อมูลเป็นไปอย่างไม่ถูกต้อง


5. การแปลงข้อมูล บางครั้งจะต้องมีการแปลงข้อมูลเพื่อให้ข้อมูลสามารถใช้งานได้ง่ายขึ้น เช่น การแปลงรูปแบบของวันที่หรือเวลา เป็นรูปแบบที่เหมาะสมกับการวิเคราะห์


6. การตรวจสอบคุณภาพข้อมูล หลังจากที่ทำขั้นตอนต่าง ๆ ข้างต้นแล้ว จะต้องมีการตรวจสอบคุณภาพข้อมูลอีกครั้งเพื่อให้มั่นใจว่าข้อมูลมีความถูกต้อง ครบถ้วน และตรงตามจุดประสงค์มากที่สุด เพื่อนำข้อมูลไปวิเคราะห์ต่อได้อย่างมีประสิทธิภาพ


7.การเก็บบันทึกข้อมูล ข้อมูลที่ผ่านกระบวนการทำความสะอาดข้อมูลจะถูกเก็บบันทึกเพื่อให้สามารถนำไปใช้งานหรือวิเคราะห์ต่อไปได้


กระบวนการทำความสะอาดข้อมูลเป็นกระบวนการที่ต้องทำอย่างรอบคอบและมีความระมัดระวัง เพื่อให้ข้อมูลมีคุณภาพและน่าเชื่อถือสำหรับการใช้งานต่าง ๆ ในธุรกิจและการนำไปวิเคราะห์ข้อมูล

ดู 11 ครั้ง0 ความคิดเห็น

Comments


bottom of page