top of page
  • รูปภาพนักเขียนDatarich Matters

Exploratory Data Analysis (EDA) คืออะไร มารู้จักกับขั้นตอนการทำ EDA




Exploratory Data Analysis (EDA) คือ การวิเคราะห์ข้อมูลเชิงสำรวจหรือเป็นการสำรวจข้อมูลเบื้องต้น เป็นกระบวนการวิเคราะห์ข้อมูลเพื่อค้นหารูปแบบและความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูล การวิเคราะห์ EDA มักใช้ในช่วงแรกของกระบวนการวิเคราะห์ข้อมูล เพื่อทำความรู้จักกับข้อมูลและค้นหาประเด็นที่น่าสนใจที่ควรศึกษาเพิ่มเติม เป็นกระบวนการที่นิยมใช้เมื่อต้องเริ่มต้นวิเคราะห์ข้อมูลดิบนั่นเอง


ประโยชน์ของ EDA มีดังนี้

  • ช่วยให้เข้าใจข้อมูล 

  • ระบุประเด็นที่น่าสนใจ

  • ลดความเสี่ยง

  • ประหยัดเวลาและค่าใช้จ่าย

ตัวอย่างของประโยชน์ของ EDA เช่น

  • การวิเคราะห์ข้อมูลการขายเพื่อหาสินค้าที่มียอดขายสูงที่สุดหรือต่ำที่สุด ซึ่งช่วยให้บริษัทสามารถกำหนดกลยุทธ์การขายที่เหมาะสมได้

  • การวิเคราะห์ข้อมูลลูกค้าเพื่อหากลุ่มลูกค้าเป้าหมาย ซึ่งช่วยให้บริษัทสามารถกำหนดกลยุทธ์การตลาดที่เหมาะสมได้

  • การวิเคราะห์ข้อมูลตลาดเพื่อหาแนวโน้มของตลาด ซึ่งช่วยให้บริษัทสามารถปรับตัวให้เข้ากับตลาดได้

EDA เป็นเครื่องมือที่มีประโยชน์สำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ EDA ช่วยให้เราเข้าใจข้อมูลและสามารถค้นหารูปแบบและความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูล ซึ่งสามารถนำไปสู่การตัดสินใจที่มีประสิทธิภาพ


ซึ่งกระบวนการ EDA โดยทั่วไปมีดังนี้


1) ทำความรู้จักกับข้อมูล

ขั้นตอนแรกคือการทำความรู้จักกับข้อมูล โดยพิจารณาจากลักษณะของข้อมูล เช่น ประเภทของข้อมูล จำนวนข้อมูล ข้อมูลมาจากการแหล่งใด ข้อมูลมีขอบเขตอย่างไร ข้อมูลมีอคติหรือไม่ เป็นต้น

ข้อมูลประเภทต่างๆ ที่อาจพบ ได้แก่

  • ข้อมูลเชิงปริมาณ (quantitative data) เช่น อายุ น้ำหนัก รายได้

  • ข้อมูลเชิงคุณภาพ (qualitative data) เช่น เพศ สถานะการสมรส ความคิดเห็น

จำนวนข้อมูลที่เหมาะสมขึ้นอยู่กับวัตถุประสงค์ของการวิเคราะห์ข้อมูล หากต้องการค้นหารูปแบบและความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูล จำนวนข้อมูลควรเพียงพอที่จะสามารถทำการวิเคราะห์ได้อย่างมีประสิทธิภาพ

แหล่งที่มาของข้อมูลอาจเป็นข้อมูลภายใน เช่น ข้อมูลการขาย ข้อมูลลูกค้า หรืออาจเป็นข้อมูลภายนอก เช่น ข้อมูลตลาด ข้อมูลประชากร

ขอบเขตของข้อมูลหมายถึงสิ่งที่ข้อมูลครอบคลุม เช่น ข้อมูลการขายทั้งหมดของเดือนที่ผ่านมา หรือข้อมูลการขายสินค้าบางประเภทในช่วง 3 ปี

อคติของข้อมูล หมายถึงความเอียงของข้อมูล เช่น ข้อมูลการขายที่รวบรวมมาจากกลุ่มลูกค้าเฉพาะ อาจไม่สะท้อนถึงข้อมูลการขายทั้งหมด


2) สำรวจข้อมูลเบื้องต้น

หลังจากทำความรู้จักกับข้อมูลแล้ว ขั้นตอนต่อไปคือการสำรวจข้อมูลเบื้องต้น โดยพิจารณาจากค่าสถิติพื้นฐาน เช่น ค่าเฉลี่ย ค่ามัธยฐาน ค่าเบี่ยงเบนมาตรฐาน แจกแจงความถี่ เป็นต้น การวิเคราะห์ค่าสถิติพื้นฐานจะช่วยให้เข้าใจลักษณะของข้อมูลและสามารถระบุรูปแบบและความสัมพันธ์เบื้องต้นได้

ค่าสถิติพื้นฐานที่มักใช้ ได้แก่

  • ค่าเฉลี่ย (mean) หมายถึงค่ากลางของข้อมูลทั้งหมด

  • ค่ามัธยฐาน (median) หมายถึงค่ากลางของข้อมูลเมื่อเรียงลำดับจากน้อยไปมาก

  • ค่าเบี่ยงเบนมาตรฐาน (standard deviation) หมายถึงการกระจายตัวของข้อมูลจากค่าเฉลี่ย

  • แจกแจงความถี่ (frequency distribution) หมายถึงการแบ่งข้อมูลออกเป็นกลุ่มตามค่าต่างๆ และแสดงจำนวนข้อมูลในแต่ละกลุ่ม

3) การสร้างภาพข้อมูลเป็นเครื่องมือที่ช่วยในการสำรวจข้อมูลและค้นหารูปแบบและความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูล รูปแบบของภาพข้อมูลที่นิยมใช้ ได้แก่

  • แผนภูมิแท่ง (bar chart) ใช้แสดงข้อมูลเชิงปริมาณที่มีจำนวนกลุ่มไม่มาก

  • แผนภูมิวงกลม (pie chart) ใช้แสดงข้อมูลเชิงปริมาณที่มีจำนวนกลุ่มไม่มาก

  • แผนภูมิกระจาย (scatter plot) ใช้แสดงความสัมพันธ์ระหว่างสองตัวแปร

  • แผนภูมิเส้น (line chart) ใช้แสดงการเปลี่ยนแปลงของข้อมูลเมื่อเวลาผ่านไป


4) ทดสอบสมมติฐาน

หลังจากสำรวจข้อมูลเบื้องต้นและสร้างภาพข้อมูลแล้ว ขั้นตอนต่อไปอาจทดสอบสมมติฐานเกี่ยวกับข้อมูล เช่น ทดสอบว่าค่าเฉลี่ยของสองกลุ่มแตกต่างกันหรือไม่ ทดสอบว่าความสัมพันธ์ระหว่างสองตัวแปรมีนัยสำคัญหรือไม่ เป็นต้น

การทดสอบสมมติฐานช่วยให้เรามั่นใจได้ว่ารูปแบบและความสัมพันธ์ที่พบจากการวิเคราะห์ข้อมูลนั้นมีความน่าเชื่อถือ


5) สรุปผลการวิเคราะห์ข้อมูล

ขั้นตอนสุดท้ายคือการสรุปผลการวิเคราะห์ข้อมูล โดยพิจารณาจากรูปแบบและความสัมพันธ์ที่ค้นพบจากการวิเคราะห์ข้อมูล ผลการวิเคราะห์ข้อมูลอาจนำไปสู่การตั้งสมมติฐานใหม่เพื่อศึกษาเพิ่มเติม หรือนำไปใช้ประโยชน์ในการตัดสินใจ


ขั้นตอนของ EDA อาจปรับเปลี่ยนได้ตามลักษณะของข้อมูลและเป้าหมายของการวิเคราะห์ข้อมูล

ดู 32 ครั้ง0 ความคิดเห็น

Bình luận


bottom of page