สถิติศาสตร์หนึ่งในศาสตร์ที่ต้องมีใน Data Science

สถิติศาสตร์ในการวิเคราะห์ข้อมูล เป็นหนึ่งในศาสตร์ที่ใช้ของ Data Science ใช้ในการทำงานเพื่อที่จะวิเคราะห์โอกาสที่จะสำเร็จ และ ความน่าจะเป็นในการเกิดขึ้น จะไปประกอบในการทำ Model สถิติศาสตร์เลยเป็นหนึ่งศาสตร์ที่สำคัญของ Data Science 

สถิติศาสตร์จะได้แบ่งออกได้ 2 ประเภทใหญ่ๆ

1. Descriptive Statistics หรือ มีชื่อภาษาไทยว่า สถิติเชิงพรรณนา คือ สถิติก็บอกลักษณะของข้อมูลที่เก็บรวบรวมมาโดยวิธีการเฉพาะ แล้วแต่ประเภทของข้อมูลนั้นๆ วิธีการในการนำข้อมูลมาใช้ก็จะแบ่งได้ 4 ข้อย่อย

1.1 การนำเสนอข้อมูล (Presentation) คือ การสื่อสารในการนำเสนอข้อมูล ความคิดเห็น ข้อเท็จจริงของข้อมูลรายละเอียดต่างๆจัดเรียงให้ผู้ที่มาอ่านได้ทำความเข้าใจ หรือ ทำการเปรียบเทียบข้อเท็จจริงได้โดยง่าย และ รวดเร็ว จุดประสงค์ในการนำเสนอข้อมูลเพื่อที่จะเผยแพร่ข้อมูลที่เก็บรวบรวมมา ในทางสถิติจะแบ่งการนำเสนอข้อมูลออกมาได้ 3 รูปแบบ อย่างแรกเป็นการนำเสนอในรูปของบทความ เป็นการใช้ตัวอักษรมาอธิบายบอกถึงข้อมูลรายละเอียดต่างๆ ข้อเท็จจริง หรือ เป็นการสรุปของข้อมูลให้ผู้อ่านเข้าใจถึงข้อมูลใบรูปแบบของบทความ อย่างต่อมาเป็นการนำเสนอแบบตารางร้อยละ และ การนำเสนอในรูปภาพหรือชาร์ต คือ การนำเสนอ 2 แบบนี้จะมีความเหมือนกันอยู่ ข้อมูลที่จะอยู่ในรูปแบบของตาราง ค่าตัวเลขที่เป็นร้อยละ และ สามารถนำข้อมูลที่อยู่ในรูปแบบร้อยละมาอยู่ในรูปแบบกราฟ หรือ อยู่ในรูปแบบอื่นๆ ที่จะเรียงลำดับให้เปรียบเทียบตัวเลขให้ง่ายขึ้น และมีสีรูปภาพที่ดูแล้วทำให้เข้าใจได้ง่าย ส่วนนี้สามารถให้ภาษา Python, Excel มาช่วยทำได้แล้วด้วย 

1.2 การแจกแจงความถี่ (Frequency) คือ วิธีในการจัดการข้อมูลให้อยู่เป็นหมวดหมู่ จะทำให้ง่ายต่อการวิเคราะห์ข้อมูลด้วยวิธีหาความถี่ของข้อมูลโดยการแบ่งข้อมูลเป็นช่วงๆเรียกวิธีนี้ว่า Class Interval ตัวอย่างถ้าข้อมูลเป็นตัวเลขที่ไม่ได้เรียงกัน ตามลำดับใช้ Class Interval ในแบ่งตัวเลขเป็นช่วงลำดับ แล้วนับตัวเลขในแต่ละช่วงว่ามีกี่ตัว จำนวนของตัวเลขในแต่ละช่วง คือความถี่ของข้อมูล แต่ข้อมูลที่ผ่านการ จัดการแล้วจะไม่สามารถกับไปอยู่ในรูปแบบเดิมได้เพราะว่าจะทราบแค่ว่าจำนวนความถี่อยู่ในช่วงไหนของจำนวนๆเท่านั้น

1.3 การวัดแนวโน้มเข้าสู่ส่วนกลาง (Central of Tendency) คือ การจัดระเบียบข้อมูลทางสถิติในการค่าหนึ่งเดียวเพื่อนำมาแทนข้อมูลทั้งชุด ค่าที่ได้ก็จะได้เป็นค่าที่เป็นกลางๆ โดยได้ใช้สูตรจากคณิตศาสตร์ ด้วย x=xn  ตัวอย่างการใช้ ถ้าต้องการหาช่วงอายุที่มีเลยตามนี้ 17, 20, 11, 19, 12, 21, 20, 12, 19 x=17+ 20+ 11+ 19+ 12+ 21+ 20+ 12+ 199 =1519

x=16.77 วิธีในการทำก็จะประมาณนี้ โดยสามารถใช้ Python ในการแทนค่าได้ด้วย

1.4 การวัดการกระจาย (Dispersion) คือ การสร้างความชัดเจนให้กับข้อมูลที่มีการกระจายของข้อมูล อย่างเช่น 1, 2, 2, 3 หมายถึงว่า ไม่ใช่ข้อมูลที่เหมือนกันทั้งหมด โดยจะแบ่งออกได้ 2 ประเภท อย่างแรก การวัดการกระจายสัมบูรณ์ (Absolute Variation) คือ การวัดการกระจายของข้อมูลว่ามีความแตกต่างกันเท่าไหร่ วิธีในการทำดังนี้

1. หาค่า พิสัย (Range : R)  = เอาค่าสูงสุดมาลบกับค่าต่ำสุด

2. หาค่า ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation : S.D.) = S.D.=(x-x)2n-1

อย่างต่อมา การวัดการกระจายสัมพัทธ์ (relative Variation) คือ การเปรียบเทียบของข้อมูลที่มีมากกว่า 2 ชุดขึ้นไปจะมีวิธีในการทำที่นิยมอยู่ 2 วิธี 

1. สัมประสิทธิ์ของพิสัย (coefficient of range) คือ การหาอัตราส่วนระหว่างค่าที่สูงสุดกับต่ำสุด โดยมีวิธีการทำดังนี้xmax-xmaxxmax+xmax  เอาผลที่ได้คูณด้วย 100 จะได้ค่าเป็นเปอร์เซ็นต์

2. สัมประสิทธิ์ของการแปรผัน (coefficient of variation) การหาอัตราส่วนระหว่างค่าเบี่ยงเบนมาตรฐานกับค่าเฉลี่ยเลขคณิตมาหารกัน คือ C.V.=sx   เอาค่าที่ได้ไปคูณด้วย100ให้เป็นเปอร์เซ็นต์

2. สถิติเชิงอนุมาน (Inference Statistics) คือ การที่ได้ข้อมูลมาจากการศึกษาในบางกลุ่ม หรือในบ้างกลุ่มประชากรใช้ข้อเท็จจริงในการอธิบาย หรือ นำมาสรุปถึงลักษณะของข้อมูลประชากร ใช้หลักความน่าจะเป็นในการสรุป ซึ่งหลักการเชิงอนุมานจะผิดหรือถูกจะขึ้นอยู่กับการสุ่มตัวอย่างของกลุ่มคนที่จะศึกษา

การที่ใช้ศาสตร์ในเรื่องสถิติของ Data Science นั้นสิ่งที่จำเป็นที่สุด คือ ข้อมูลที่ถูกต้อง, เป็นข้อมูลที่เป็นความจริง เพราะว่าถึงวิเคราะห์ถูกแต่ข้อมูลที่ได้มานั้นผิดการวิเคราะห์ก็จะผิดไปด้วยข้อนี้เป็นข้อที่ควรระวังอย่างมาก 

โดย พัสดี แก้วอินทร์

Source:

https://sites.google.com/site/peaytun/1-2-prapheth-khxng-sthitisastr

https://sites.google.com/site/snukkabkarwadkarkracaykhxmul/kar-wad-kark-ra-cay-samburn-absolute-variation

8Shares

Write a comment