สถิติพื้นฐาน

โดยวัฒนา สุนทรธัย

                   

 

*  มาตรวัดค่ากลาง (Measures of Central Tendency)

*  การพิจารณาเลือกใช้ค่า Mean, Mode และ Median

*  มาตรวัดค่าการกระจาย (Measures of Dispersion)

*  มาตรวัดค่าการแจกแจง (Distribution) ของข้อมูล

*  ประโยชน์ของค่าคลาดเคลื่อนมาตรฐาน   

*  การคำนวณสถิติพื้นฐานด้วยโปรแกรม SPSS

*  ภาพ Stem-and-Leaf, Histogram และ Box plots

 

ในการทำความเข้าใจข้อมูลชุดใดชุดหนึ่งนั้น ถ้าข้อมูลเป็นข้อมูลเชิงคุณภาพ (quality) ซึ่งค่าของข้อมูลไม่แตกต่างกันมากนัก เช่น เพศ ศาสนา สถานภาพสมรส ระดับการศึกษา เป็นต้น สถิติที่เหมาะสมในการทำความเข้าใจคือ ค่าร้อยละ (percent) แต่ถ้าข้อมูลเป็นข้อมูลเชิงปริมาณ (quantity) ซึ่งค่าของข้อมูลมักแตกต่างกันมาก เช่น อายุ น้ำหนัก ความสูง คะแนนสอบ เป็นต้น สถิติที่เหมาะสมในการทำความเข้าใจคือ ค่ากลาง ค่าวัดการกระจาย และค่าที่แสดงความเป็นปกติของข้อมูล รวมทั้งภาพที่ใช้แทนข้อมูลชุดนั้น ในที่นี้จะนำเสนอสถิติพื้นฐานที่ใช้กับข้อมูลเชิงปริมาณ

 

            ในการวิจัยทางธุรกิจ ขนาดของข้อมูลมักมีจำนวนมาก เราจึงนิยมวิเคราะห์ข้อมูลด้วยโปรแกรมคอมพิวเตอร์ หน้าที่ของนักวิจัยก็คือ การเลือกใช้สถิติให้เหมาะสมกับข้อมูล การแปลความ และการนำผลการวิเคราะห์ไปใช้ การที่นักวิจัยสามารถนำผลการวิเคราะห์ไปใช้ให้ได้อย่างเหมาะสมนั้น นักวิจัยควรจะต้องมีความรู้ความเข้าใจสถิติพื้นฐานเป็นอย่างดีก่อน ในตอนต้นนี้จึงได้นำข้อมูลที่มีจำนวนน้อยมาคำนวณด้วยมือ เพื่อให้ผู้เรียนทราบที่มาของสถิติพื้นฐาน และในตอนท้ายได้นำผลลัพธ์ที่ได้จากการคำนวณด้วยโปรแกรม SPSS มาแสดง เพื่อให้ผู้เรียนใช้ในการตรวจสอบและเปรียบเทียบกับผลลัพธ์ที่ได้จากการคำนวณด้วยมือ สมมุติว่าเราต้องการศึกษาอายุของคนจำนวน 10 คนดังต่อไปนี้

 

อายุ      20      25      45      45      45      55      25      30      30      60     ปี

 

การคำนวณค่าข้อมูลอายุ 10 คนนี้ ถ้าเป็นข้อมูลประชากร (บุคคลทั้งหมดมี 10 คน) เราเรียกค่าที่คำนวณได้นี้ว่า พารามิเตอร์ แต่ถ้าข้อมูลนี้เป็นกลุ่มตัวอย่าง

(สุ่มมาจากประชากร) เราเรียกค่าที่คำนวณได้นี้ว่า ค่าสถิติ

ในที่นี้สมมุติว่าข้อมูลดังกล่าวเป็นกลุ่มตัวอย่าง

 

1.      มาตรวัดค่ากลาง (Measures of Central Tendency)

1.1  ค่าเฉลี่ย (Average หรือ Mean)

ค่าเฉลี่ยมีอยู่ด้วยกันหลายชนิด เช่น ค่าเฉลี่ยเรขาคณิต ค่าเฉลี่ยฮาร์โมนิก เป็นต้น แต่ค่าเฉลี่ย

ที่นิยมใช้กันมากที่สุดในวงการธุรกิจคือ ค่าเฉลี่ยเลขคณิตหรือมัชฌิมเลขคณิต (arithmetic mean) โดยเรียกสั้น ๆ ว่า ค่าเฉลี่ย

          ค่าเฉลี่ย คือ ค่ากลาง ซึ่งคำนวณจากผลบวกของข้อมูลและหารด้วยจำนวนของข้อมูล สัญลักษณ์ที่ใช้คือ  อ่านว่า เอ็กซ์บาร์ โดยผลบวก (sum) ของข้อมูลเขียน หมายถึง การบวกข้อมูล n จำนวนจาก X1 ถึง Xn  เมื่อ n คือ จำนวนของข้อมูล ดังนั้นสูตรที่คำนวณคือ

            Mean:   =   

                             = 

 

ในที่นี้ผลบวกของข้อมูล 10 ค่า (n = 10) หาได้ดังนี้

            Sum  =

                      = X1 + X2 + X3 +...+ X10

                      = 20 + 25 + 25 +...+ 60

                      = 380

 

             =  

                 =   

                 =  38

 

ดังนั้น ค่าเฉลี่ยหรืออายุเฉลี่ยของคนกลุ่มนี้คือ 38 ปี

 

1.2  ค่ามัธยฐาน (Median)

มัธยฐาน คือ ค่ากลาง ซึ่งอยู่ตรงกลางระหว่างข้อมูลที่เรียงลำดับทั้งหมด ถ้าเรียงลำดับข้อมูล

แล้ว  มัธยฐานจะแบ่งข้อมูลออกเป็น  2  ส่วนเท่า ๆ กัน (ส่วนละ 50%) ดังนั้น วิธีการหามัธยฐานก็คือ ให้เรียงลำดับข้อมูลจากค่าน้อยไปค่ามาก (หรือจากค่ามากไปค่าน้อยก็ได้) แล้วเลือกค่าที่อยู่ตรงกลางเป็นมัธยฐาน ถ้าจำนวนข้อมูลเป็นเลขคี่ มัธยฐานคือ ค่าที่อยู่ตรงกลางหนึ่งตัว  แต่ถ้าจำนวนข้อมูลเป็นเลขคู่ ให้นำค่าที่อยู่ตรงกลางสองตัวบวกกันแล้วหารด้วย 2 ในที่นี้จำนวนข้อมูลเป็นเลขคู่ (10 จำนวน) จึงคำนวณได้ดังนี้

 

 

                         ค่ามัธยฐาน  =   

                                             =   

                                             =  37.50

 

ดังนั้น มัธยฐานของอายุคนกลุ่มนี้คือ 37.50 ปี

 

1.3  ค่าฐานนิยม (Mode)

ฐานนิยม คือ ค่ากลาง ซึ่งเลือกมาจากข้อมูลที่มีการซ้ำกันมากที่สุด ข้อมูลที่ซ้ำกันมากที่สุด

ของ  20  25  45  45  45  55  25  30  30  60  คือ 45 (ซ้ำกันสามค่า ซึ่งมากที่สุด)

 

            ค่าฐานนิยม = 45

 

ดังนั้น ฐานนิยมของอายุคนกลุ่มนี้คือ 45 ปี

            อนึ่ง ในโปรแกรม SPSS ถ้ามีฐานนิยมหลายค่า โปรแกรมจะแสดงเฉพาะค่าแรกที่พบเท่านั้น และหากข้อมูลชุดใดไม่มีค่าซ้ำกันเลย ข้อมูลชุดนั้นก็ไม่มีค่าฐานนิยม

 

การพิจารณาเลือกใช้ค่า Mean, Mode และ Median

          ค่า Mean, Mode, Median ต่างก็เป็นสถิติที่ใช้ในการวัดแนวโน้มเข้าสู่ส่วนกลางด้วยกัน แต่มีวิธีใช้ที่แตกต่างกันออกไป ทั้งนี้ขึ้นอยู่กับมาตรวัดค่าและความปกติของข้อมูล การจะพิจารณาเลือกใช้สถิติใดจึงต้องพิจารณาที่มาตรวัดค่าและความปกติของข้อมูลประกอบดังนี้

            Mean  เหมาะสำหรับข้อมูลที่มีมาตรวัดค่าตั้งแต่มาตราอันตรภาค (interval scale) เป็นต้นไป เช่น คะแนนสอบ รายได้ อายุ เป็นต้น และไม่ควรมีข้อมูลค่าใดสูงหรือต่ำจนผิดปกติ (extreme value) เช่น ไม่ควรคำนวณรายได้เฉลี่ยของคนไทยจำนวน 10 คนที่มี ดร.ทักษิณ ชินวัตร รวมอยู่ด้วย ยกเว้นมีจุดมุงหมายพิเศษบางอย่าง เช่น ต้องการคำนวณรายได้เฉลี่ยของเศรษฐีจำนวน 10 คนแรกของประเทศไทย เป็นต้น

            Median เหมาะสำหรับข้อมูลที่มีมาตรวัดค่าตั้งแต่มาตราเรียงลำดับ (ordinal scale) เป็นต้นไป เช่น ระดับความคิดเห็น คะแนนสอบ รายได้ อายุ เป็นต้น ซึ่งคำนวณจากหนึ่งหรือสองค่าที่อยู่ตรงกลางของกลุ่มเท่านั้น ดังนั้น ค่าสูงหรือต่ำผิดปกติบางค่าจึงไม่มีผลกระทบต่อ Median

            Mode เหมาะสำหรับข้อมูลที่มีมาตรวัดค่าตั้งแต่มาตรานามบัญญัติ (nominal scale) เป็นต้นไป หรือใช้ได้กับข้อมูลทุกประเภท เช่น เพศ ศาสนา อาชีพ ระดับความคิดเห็น คะแนนสอบ รายได้  อายุ เป็นต้น และคำนวณจากหนึ่งค่าของกลุ่มเท่านั้น ค่าสูงหรือต่ำผิดปกติบางค่าจึงไม่มีผลกระทบต่อ Mode ถ้าข้อมูลมีการกระจายปกติแล้ว ค่า Mean, Mode และ Median จะเท่ากัน ในกรณีนี้จะเลือกใช้ค่าใดก็ได้ แต่ถ้าข้อมูลมีความผิดปกติไปข้างใดข้างหนึ่งแล้ว ควรเลือกใช้ค่า Mode หรือ Median จะเหมาะสมกว่า Mean การใช้คำสั่งย่อย STATISTICS=ALL. โปรแกรม SPSS/PC+ จะคำนวณสถิติทุกค่าดังที่ได้กล่าวมาแล้ว โดยโปรแกรมจะไม่คำนึงว่าข้อมูลจะมีระดับการวัดค่าอยู่ในมาตราใด จึงเป็นหน้าที่ของนักวิจัยที่จะพิจารณาเลือกใช้สถิติให้เหมาะสมกับระดับข้อมูล สรุปสถิติวัดแนวโน้มเข้าสู่ส่วนกลางกับระดับข้อมูลได้ดังต่อไปนี้

 

ระดับข้อมูล

สถิติวัดแนวโน้มเข้าสู่ส่วนกลาง

Interval / Ratio

Mode,  Median,  Mean

Ordinal

Mode,  Median

Nominal

Mode

           

1.4  ควอนไทล์ (Quantile)

ควอนไทล์ คือ ค่าซึ่งแสดงตำแหน่งของข้อมูล ควอนไทล์ที่นิยมใช้คือ ควอร์ไทล์ (quartile: Qi) เดไซล์ (decile: Di) และเปอร์เซ็นไทล์ (percentile: Pi) โดยควอร์ไทล์แบ่งข้อมูลออกเป็น 4 ส่วนเท่า ๆ กัน และตำแหน่งที่แบ่งมี 3 ค่าคือ Q1 Q2 Q3  เดไซล์แบ่งข้อมูลออกเป็น 10 ส่วนเท่า ๆ กัน และตำแหน่งที่แบ่งมี 9 ค่าคือ D1 D2 D3  ... D9 และเปอร์เซ็นไทล์แบ่งข้อมูลออกเป็น 100 ส่วนเท่า ๆ กัน และตำแหน่งที่แบ่งมี 99 ค่าคือ P1 P2 P3  ... P99  โดยมัธยฐาน = Q2 = D5= P50  ดังภาพ 1.4

สูตรคำนวณค่าควอนไทล์ คือ

            Qi =

            Di  =

            Pi =

            เมื่อ

i คือ ตำแหน่งของควอนไทล์

n คือ ขนาดของข้อมูล

X คือข้อมูลดิบ

 

ในที่นี้ Q2 หรือ D5 หรือ P50 ของอายุคนกลุ่มนี้คือ 37.50 ปี

 

การแปลความเปอร์เซ็นไทล์ เปอร์เซ็นไทล์เป็นค่าของข้อมูลที่แสดงว่า ถ้าแบ่งข้อมูล (โดยเรียงลำดับจากน้อยไปมาก) ออกเป็น 100 ส่วนแล้ว จะมีกี่ส่วนที่มีค่าน้อยกว่าค่าเปอร์เซ็นไทล์ที่กล่าวถึง เช่น เปอร์เซ็นไทล์ที่ 75 หรือ P75 หมายถึง มีข้อมูลอยู่ 75 ส่วนใน 100 ส่วนที่มีค่าต่ำกว่าค่า P75 เป็นต้น ดังนั้น ค่าของเปอร์เซ็นไทล์จึงมี 99 ค่า

 

 

 

            ในโปรแกรม SPSS เราสามารถสั่งให้คำนวณค่าเปอร์เซ็นไทล์โดยใช้คำสั่งย่อยหรือคำเฉพาะ PERCENTILE ต่อจากคำสั่ง FREQUENCY เช่น ถ้าต้องการให้โปรแกรมคำนวณหาเปอร์เซ็นไทล์ที่ 25, 50, 75 ของตัวแปร AGE ก็สั่งได้ดังนี้ FREQUENCY AGE / PERCENTILE 25, 50, 75.

 

2.      มาตรวัดค่าการกระจาย (Measures of Dispersion)

2.1  ความแปรปรวน (Variance)

ความแปรปรวน คือ ค่าการกระจาย ซึ่งเป็นค่าเฉลี่ยของผลต่างกำลังสองระหว่างข้อมูลแต่

ละค่ากับ Mean ดังนั้นความแปรปรวนจึงมีหน่วยเป็น (หน่วยข้อมูล)2 โดยถ้าข้อมูลมีการกระจายน้อยแล้ว ความแปรปรวนจะมีค่าเล็กและเส้นโค้งความถี่จะมีลักษณะโด่ง ดังภาพ 2.1ก ถ้าข้อมูลมีการกระจายมากแล้ว ความแปรปรวนจะมีค่าใหญ่และเส้นโค้งความถี่จะมีลักษณะแบน ดังภาพ 2.1 และความแปรปรวนที่โปรแกรม SPSS คำนวณมาให้นี้ จะเป็นความแปรปรวนของกลุ่มตัวอย่าง ซึ่งมีตัวหารเป็น n - 1 ดังนี้ (ถ้าเป็นความแปรปรวนของประชากร ตัวหารคือ N)

            Variance  = 

                = 

                            = 

                             = 190

 

ดังนั้น ความแปรปรวนของอายุคนกลุ่มนี้คือ 190 ปี2

 

 

   ภาพ 2.1  ความแปรปรวนมีค่าเล็ก            ภาพ 2.1  ความแปรปรวนมีค่าใหญ่

 

 
 


       

 

 

 

        

 

2.2  ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation หรือ Std dev หรือ SD หรือ S)

ส่วนเบี่ยงเบนมาตรฐาน คือ ค่าการกระจาย ซึ่งเป็นค่าที่เกิดจากรากบวกที่สองของความ

แปรปรวน นั่นคือ

 

                        Std dev  = 

                                     = 

                                     =  13.784

 

ดังนั้น ส่วนเบี่ยงเบนมาตรฐานของอายุคนกลุ่มนี้คือ 13.784 ปี หรืออายุของคนกลุ่มนี้เบี่ยงเบนไปจากค่าเฉลี่ย 13.784 ปี

 

2.3  ค่าคลาดเคลื่อนมาตรฐาน (Standard Error หรือ Std err หรือ SE)

ค่าคลาดเคลื่อนมาตรฐาน คือ ค่าการกระจาย ซึ่งเป็นค่าคลาดเคลื่อนอันเนื่องมาจาก

 

 

การสุ่มกลุ่มตัวอย่าง  ถ้ากลุ่มตัวอย่างมีขนาดเล็ก ค่าคลาดเคลื่อนก็มีค่าสูง ในทางตรงกันข้าม ถ้ากลุ่มตัวอย่างมีขนาดใหญ่ ค่าคลาดเคลื่อนก็มีค่าต่ำ ค่าคลาดเคลื่อนมาตรฐานคำนวณได้จากการหารค่า Std dev ด้วย  นั่นคือ

 

                        Std err  = 

                                     = 

                                     =  4.359

 

ดังนั้น ค่าคลาดเคลื่อนมาตรฐานของอายุคนกลุ่มนี้คือ 4.359 ปี

 

            ค่าคลาดเคลื่อนมาตรฐานเป็นส่วนเบี่ยงเบนซึ่งค่าเฉลี่ยของกลุ่มตัวอย่างอยู่ห่างจากค่าเฉลี่ยของประชากร (ขนาดใหญ่) โดยมีระดับความเชื่อมั่น 95% ของค่าเฉลี่ยของประชากรดังนี้

 

 ± 1.96 (Std err)

เมื่อกลุ่มตัวอย่างสุ่มมาจากประชากรที่มีการแจกแจงปกติ

 

ดังนั้น ถ้ากลุ่มตัวอย่างขนาด 10 ข้างต้นสุ่มมาจากประชากรที่มีการแจกแจงปกติแล้ว เราสามารถกล่าวด้วยความเชื่อมั่น 95% ว่าค่าเฉลี่ยของประชากรควรจะมีค่าอยู่ระหว่าง

 

            38.00  ±  1.96 (4.359) หรือ 38.00  ±  8.54

 

            การกล่าวเช่นนี้มีความผิดพลาดไม่เกิน 5% ซึ่งหมายความว่า ถ้าสุ่มกลุ่มตัวอย่างขนาด 10 จากประชากรที่มีการแจกแจงปกติหลาย ๆ ครั้ง โดยในแต่ละครั้งเมื่อคำนวณช่วงความเชื่อมั่น 95% ของค่าเฉลี่ยของประชากรแล้ว จะพบว่าใน 100 กลุ่มตัวอย่างนั้น จะมีประมาณ 5 กลุ่มตัวอย่างเท่านั้นที่ช่วงความเชื่อมั่นที่คำนวณได้ไม่ครอบคลุมค่าเฉลี่ยที่แท้จริงของประชากร

 

2.4  คะแนนมาตรฐาน (Standard Score: Z)

คะแนนมาตรฐาน คือ คะแนนที่บอกให้ทราบว่าข้อมูลนั้นมีค่ามากกว่าค่าเฉลี่ย (มีเครื่องหมายบวก) หรือน้อยกว่าค่าเฉลี่ย (มีเครื่องหมายลบ) เป็นกี่เท่าของส่วนเบี่ยงเบนมาตรฐาน โดยค่าเฉลี่ยของ Z คือ 0 และส่วนเบี่ยงเบนมาตรฐานคือ 1 สูตรที่ใช้คำนวณคือ

 

Z =

 

จากอายุของคน 10 คนข้างต้น คะแนนมาตรฐานของคนที่มีอายุ 30 ปีคือ

 

Z =

   =

   = -.58

ดังนั้น คะแนนมาตรฐานของคนที่มีอายุ 30 ปีคือ -.58

 

แปลว่าคนที่มีอายุ 30 ปีจากกลุ่มตัวอย่างข้างต้น มีคะแนนมาตรฐานน้อยกว่าค่าเฉลี่ยของกลุ่มเป็น 0.58 เท่าของส่วนเบี่ยงเบนมาตรฐาน

เราสามารถเปิดตารางสถิติ (ดูตามหนังสือสถิติโดยทั่วไป) เพื่อคำนวณค่าควอนไทล์ต่างๆ จากค่า Z ได้ และนอกจากนี้แล้ว Z ยังมีประโยชน์ในการเปรียบเทียบตำแหน่งของข้อมูลในกลุ่มที่ต่างกัน หรือหน่วยวัดค่าข้อมูลที่ต่างกัน เช่น นายไข่นุ้ยสอบวิชาคณิตศาสตร์ได้ 91 คะแนน และสอบวิชาสถิติได้ 86 คะแนน เราต้องการทราบว่านายไข่นุ้ยถนัดวิชาใดมากกว่ากัน ถ้าค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของวิชาทั้งสองเป็นดังตารางต่อไปนี้

 

วิชา

คะแนนสอบของนายไข่นุ้ย

ค่าเฉลี่ย

ส่วนเบี่ยงเบนมาตรฐาน

คณิตศาสตร์

91

85

9.58

สถิติ

86

74

13.64

 

Zคณิตศาสตร์  =   =   = +.63

Zสถิติ              =   =  = +.88

 

คะแนนมาตรฐานของวิชาสถิติมากกว่าวิชาคณิตศาสตร์ แสดงว่านายไข่นุ้ยถนัดวิชาสถิติมากกว่าวิชาคณิตศาสตร์ ถ้าเปิดตารางสถิติเพื่อเปลี่ยนค่า Z เป็นค่าเปอร์เซ็นไทล์แล้ว วิชาคณิตศาสตร์ตรงกับเปอร์เซ็นไทล์ที่ 73 หมายถึง นายไข่นุ้ยได้คะแนนสูงกว่าคนอื่น 73 คนใน 100 คน และวิชาสถิติได้ตรงกับเปอร์เซ็นไทล์ที่ 81 หมายถึง นายไข่นุ้ยได้คะแนนสูงกว่าคนอื่น 81 คนใน 100

 

2.5  พิสัย (Range)

พิสัย คือ ค่าการกระจาย ซึ่งคำนวณได้จากผลต่างของค่าสูงสุด (maximum) กับค่าต่ำสุด

(minimum) ดังนี้

 

            พิสัย  =  Maximum - Minimum

          =  60 - 20

                      =  40

 

ดังนั้น พิสัยของอายุคนกลุ่มนี้คือ 40 ปี

 

2.6  พิสัยระหว่างควอร์ไทล์ (Interquartile Range: IQR)

พิสัยระหว่างควอร์ไทล์ คือ ค่าการกระจาย ซึ่งคำนวณได้จากผลต่างระหว่าง Q3 กับ Q1 ดังสูตรต่อไปนี้

IQR = Q3 - Q1

จากข้อมูลอายุคน 10 คนข้างต้น

            Q3  =  

                  =  

                  = 45+2.5 (ใช้วิธีเทียบบัญญัตติไตรยางค์)

                  = 47.5

            Q1 =  

                 =  

                 = 25.0

 

จะได้ IQR = Q3 - Q1

    = 47.5 - 25.0 

    = 22.5

 

ดังนั้น พิสัยระหว่างควอร์ไทล์ของอายุคนกลุ่มนี้คือ 22.5 ปี

 

3.      มาตรวัดค่าการแจกแจง (Distribution) ของข้อมูล

3.1  ค่าความเบ้ (Skewness)

          ถ้านำความถี่ของข้อมูลที่เรียงลำดับแล้วมาเขียนเป็นกราฟ โดยให้ข้อมูลดังกล่าวอยู่ตามแถวนอนและความถี่อยู่ตามแถวตั้ง และลากเส้นโค้งให้ผ่านจุดยอดของความถี่แล้ว กราฟจะมีความโค้งแตกต่างกันออกไป โดยเส้นโค้งความถี่อาจเป็นเส้นโค้งปกติ (normal) ซึ่งการกระจายของข้อมูลจะสมมาตร (symmetric) รอบค่าเฉลี่ย หรือเส้นโค้งมีความเบ้ไปข้างใดข้างหนึ่ง แล้วแต่ลักษณะของข้อมูล และถ้าเส้นโค้งความถี่เป็นเส้นโค้งปกติแล้ว Mean = Median = Mode  ดังภาพ 3.1ก ต่อไปนี้

 

ถ้าเส้นโค้งความถี่เบ้ไปทางซ้ายหรือเบ้ลบ (skewed to the left หรือ negative skew)  แล้วMean < Median < Mode แสดงว่าข้อมูลส่วนใหญ่มีค่าสูงหรือค่ามาก และข้อมูลส่วนน้อยมีค่าต่ำหรือค่าน้อย ดังภาพ 3.1ข ต่อไปนี้

 

              

                       

ถ้าโค้งความถี่เบ้ไปทางขวาหรือเบ้บวก (skewed to the right หรือ positive skew) แล้ว Mode < Median < Mean แสดงว่าข้อมูลส่วนใหญ่มีค่าต่ำหรือค่าน้อย และข้อมูลส่วนน้อยมีค่ามากหรือค่าสูง ดังภาพ 3.1ค ต่อไปนี้

 

 

การวัดค่าความเบ้ที่คำนวณจากโปรแกรม SPSS ใช้วิธีโมเมนต์ (moment) ที่สามดังสูตรต่อไปนี้

Skewness =  

 

ดังนั้น   Skewness =   

                             = 0.283

 

            การพิจารณาความเบ้ ให้พิจารณาเครื่องหมายดังนี้

                        Skewness  =  -  แสดงว่า  เบ้ซ้าย

                        Skewness  =  0  แสดงว่า  ไม่มีความเบ้

                        Skewness  =  +  แสดงว่า  เบ้ขวา

 

            ข้อมูล10 ค่าที่ผ่านมา คำนวณได้ Skewness = 0.283 แสดงว่าการกระจายของข้อมูลชุดนี้มีความเบ้ไปทางขวาเล็กน้อย

 

            ค่าคลาดเคลื่อนมาตรฐานของความเบ้ขึ้นอยู่กับจำนวนข้อมูล (n) ถ้าข้อมูลมีการแจกแจงปกติแล้ว ค่าคลาดเคลื่อนมาตรฐานของความเบ้สามารถคำนวณได้จากสูตรต่อไปนี้

 

SE Skew =  

 

ดังนั้น   SE Skew =   

                           = 0.687

 

3.2  ความโด่ง (Kurtosis)

โค้งความถี่ของข้อมูลอาจโด่งมากกว่าปกติ เรียกว่า เลปโตเคอร์ติก (lepto kurtic) โด่งน้อย

กว่าปกติ เรียกว่า แพล็ตตีเคอร์ติก (platy kurtic) และโด่งปกติ เรียกว่า เมโสเคอร์ติก (meso kurtic) ดังภาพ 3.2ก ต่อไปนี้

ภาพ 3.2ความโด่ง 3 แบบ

 

การวัดค่าความโด่งที่คำนวณจากโปรแกรม SPSS ใช้วิธีโมเมนต์ที่สี่ จากข้อมูล 10 ค่าที่ผ่านมา สามารถคำนวณค่า Kurtosis โดยใช้สูตรดังต่อไปนี้

 

Kurtosis =  

 

ดังนั้น Kurtosis =  

= -1.345

 

            การพิจารณาค่าความโด่ง ให้พิจารณาเครื่องหมายดังนี้

                        Kurtosis  =  -  แสดงว่า  ความโด่งต่ำกว่าปกติ

                        Kurtosis  =  0  แสดงว่า  ความโด่งเป็นปกติ

                        Kurtosis  =  +  แสดงว่า  ความโด่งสูงกว่าปกติ

 

            ข้อมูลชุดที่ผ่านมาคำนวณได้  Kurtosis = -1.345  แสดงว่าเส้นโค้งโด่งน้อยกว่าปกติ 

 

            ค่าคลาดเคลื่อนมาตรฐานของความโด่งขึ้นอยู่กับจำนวนข้อมูล (n) ถ้าข้อมูลมีการแจกแจงปกติแล้ว ค่าคลาดเคลื่อนมาตรฐานของความโด่งสามารถคำนวณได้จากสูตรต่อไปนี้

 

SE Kurt =  

 

ดังนั้น    SE Kurt =  

                        = 1.334 

 

ประโยชน์ของค่าคลาดเคลื่อนมาตรฐาน                 

ประโยชน์อย่างหนึ่งของค่าคลาดเคลื่อนมาตรฐานคือ ใช้ในการสร้างช่วงความเชื่อมั่น เช่น ถ้าข้อมูลมีการแจกแจงปกติแล้ว สูตรสร้างช่วงความเชื่อมั่น 95% ของ Skewness คือ

Skewness ± 1.96 (SE Skew)

ดังนั้น ช่วงความเชื่อมั่น 95% ของ Skewness และ Kurtosis  ที่ผ่านมาคือ

            ช่วงความเชื่อมั่น 95% ของ Skewness  =  0.283  ±  1.96 (0.687) 

                                                                       =  -1.064 ถึง 1.630

            ช่วงความเชื่อมั่น 95% ของ Kurtosis     =  -1.345  ± 1.96 (1.334) 

                                                                        =  -3.960 ถึง 1.270

 

            การแปลความ ถ้าช่วงความเชื่อมั่น 95% ครอบคลุมค่าศูนย์ แปลว่าข้อมูลแจกแจงปกติที่ระดับนัยสำคัญทางสถิติ 0.05 ในที่นี้ช่วงความเชื่อมั่น 95% ของ Skewness และ Kurtosis ครอบคลุมค่าศูนย์ (0) ทั้งสองชนิด แสดงว่าข้อมูลชุดนี้มีความสมมาตร (ภาษาสถิติกล่าวว่า การแจกแจงมีความเบ้อย่างไม่มีนัยสำคัญ) และมีความโด่งแบบปกติ (ภาษาสถิติกล่าวว่า การแจกแจงมีความโด่งต่ำกว่าปกติอย่างไม่มีนัยสำคัญ) ดังนั้น เราสามารถกล่าวได้ว่าข้อมูลชุดนี้มีการแจกแจงปกติ (normal distribution) ด้วยความเชื่อมั่น 95% อนึ่ง หากมีข้อมูลบางรายการมีค่าต่ำหรือสูงผิดปกติ ก็อาจมีผลต่อช่วงความเชื่อมั่นดังกล่าวได้  ในกรณีนี้จึงควรสรุปผลด้วยความระมัดระวัง

                   ภาพ 3.2ช่วงความเชื่อมั่น 95% ของ  Skewness  ครอบคลุมค่าศูนย์

 

4. การคำนวณค่าสถิติพื้นฐานด้วยโปรแกรม SPSS

จากข้อมูล 10 ค่าที่ผ่านมา เราสามารถใช้คำสั่ง Frequencies... หรือ Descriptives...หรือ Explore... คำนวณค่าสถิติพื้นฐานได้ดังนี้ (คำสั่งโปรแกรม SPSS รุ่น 6 - 8 ใช้คำ Statistics แทน Analyze)

 

*   Analyze Ü Descriptive Statistics Ü Frequencies...

*   Analyze Ü Descriptive Statistics Ü Descriptives...

*   Analyze Ü Descriptive Statistics Ü Explore...

ภาพ 4ผลลัพธ์จากการใช้คำสั่ง Frequencies...

 

 

การอ่านค่าสถิติของอายุในภาพ 4(ให้เปรียบเทียบกับค่าสถิติที่คำนวณได้ในหัวข้อ 1.1 - 3.2)

1)        จำนวนข้อมูลที่มีค่าสมบูรณ์ (N Valid) คือ10

2)        จำนวนข้อมูลที่มีค่าสูญหาย (Missing) คือ 0

3)        ค่าเฉลี่ย (Mean) คือ 38

4)        ส่วนคลาดเคลื่อนมาตรฐานของค่าเฉลี่ย (Std. Error of Mean) คือ 4.3589

5)        ค่ามัธยฐาน (Median) คือ 37.5

6)        ค่าฐานนิยม (Mode) คือ 45

7)        ค่าเบี่ยงเบนมาตรฐาน (Std. Deviation) คือ13.784

8)        ค่าความแปรปรวน (Variance) คือ190

9)        ค่าความเบ้ (Skewness) คือ .283

10)    ส่วนคลาดเคลื่อนมาตรฐานของความเบ้ (Std. Error of Skewness) คือ .687

11)    ค่าความโด่ง (Kurtosis) คือ -1.345

12)    ส่วนคลาดเคลื่อนมาตรฐานของความโด่ง (Std. Error of Kurtosis) คือ 1.334

13)    ค่าพิสัย (Range) คือ 40

14)    ค่าต่ำสุด (Minimum) คือ 20

15)    ค่าสูงสุด (Maximum) คือ 60

16)    ผลรวม (Sum) คือ 380

17)    ค่าของเปอร์เซ็นไทล์ (Percentiles) ที่ 25 คือ 25, ที่ 50 คือ 37.5, และที่ 75 คือ 47.5

 

                             ภาพ 4ผลลัพธ์จากการใช้คำสั่ง Descriptives...

 

การอ่านค่าสถิติของอายุในภาพ 4ข เหมือนกับในภาพ 4(ภาพ 4ข นี้สามารถขยายให้ใหญ่หรือเล็กได้ตามความเหมาะสมของหน้ากระดาษ แต่ถ้าทำให้เล็กลง ตัวหนังสือบางตัวอาจหายไป)

Line Callout 3 (Accent Bar): 95% Confidence 
Interval for Mean คือ
Mean ±  .(Std. Error)
= 38 ± (2.26215)(4.3589)
= 38 ± (9.8605)
= 28.1395 - 47.8605

ภาพ 4ผลลัพธ์จากการใช้คำสั่ง Explore...

 

การอ่านค่าสถิติของอายุในภาพ 4ค เหมือนกับที่ผ่านมา แต่ในภาพ 4ค ได้เพิ่มช่วงความเชื่อมั่น 95% ของค่าเฉลี่ย (95% Confidence Interval for Mean) ซึ่งมีค่าอยู่ระหว่าง 28.1395 ถึง 47.8605 ปี และค่าเฉลี่ยของอายุที่ตัดค่าต่ำและค่าสูงข้างละ 5% ออกไป (5% Trimmed Mean) คือ 37.7778 ปี

 

ภาพ Stem-and-Leaf, Histogram และ Box plots

Line Callout 3 (Accent Bar): Frequency = 3, Stem = 4, Leaf = 555 (สามใบ)
ข้อมูลจริงแต่ละค่า คำนวณได้ดังนี้
ข้อมูลจริง = (Stem width)(Stem)+Leaf
                = (10)(4)+5
                = 45 ปี 
โดย Stem คือค่าก่อนจุด และ Leaf คือค่าหลังจุด
ดังนั้น 4.555 ก็คืออายุ 45 45 45 ปี
ซึ่งในที่นี้อายุ 45 ปีมีจำนวนหรือความถี่เท่ากับ 3
AGE Stem-and-Leaf Plot

 Frequency    Stem &  Leaf

     3.00        2 .  055

     2.00        3 .  00

     3.00        4 .  555

     1.00        5 .  5

     1.00        6 .  0

 Stem width:     10.00

 Each leaf:       1 case(s)

ภาพ 4ภาพ Stem-and-Leaf จากการใช้คำสั่ง Explore...

 

 จากภาพ 4  Stem-and-Leaf ทำให้มองเห็นทั้งข้อมูลจริง และการแจกแจงความถี่

 

Line Callout 3 (Accent Bar): แท่งสุดท้าย อายุ
55.00 - 64.99 ปี
มีจำนวน 2 คน
Line Callout 3 (Accent Bar): ไม่มีคนที่มีอายุอยู่ระหว่าง 
35.00 - 44.99 ปี จึงไม่มีแท่ง

ภาพ 4ภาพฮิสโทแกรม (Histogram) จากการใช้คำสั่ง Explore...

 

 ในภาพ Histogram เรามองเห็นการแจกแจงของข้อมูลอย่างหยาบ ๆ จึงอาจมองไม่เห็นข้อมูลจริงบางค่า โปรดสังเกตว่าคนที่มีอายุ 55 และ 60 ปีในภาพ Stem-and-Leaf แยกออกจากกันอย่างเห็นได้ชัด แต่ในภาพ Histogram อายุของสองคนนี้อยู่ในช่วง 55.00 - 64.99 ปี ซึ่งถ้าไม่เคยเห็นข้อมูลดิบมาก่อนก็จะไม่ทราบว่าความถี่ 2 ในแท่งสุดท้ายของภาพ Histogram ประกอบด้วยคนอายุเท่าใดบ้าง

 

 

 

 

 

Line Callout 3: เส้นหนวด แสดงขอบเขตค่าสูงสุดของข้อมูล 
(ในที่นี้คือ 60) ที่ยังไม่สูงผิดปกติ = Q3+1.5 (IQR)
Line Callout 3: เส้น Median (ในที่นี้คือ 37.5)Line Callout 3: ด้านบนคือ Q3 (ในที่นี้คือ 47.5)Line Callout 3: ด้านล่างคือ Q1 (ในที่นี้คือ 25)

 

ภาพ 4ภาพ Box plots จากการใช้คำสั่ง Explore...

 

ภาพ Box plots แสดงการกระจายของข้อมูล และเส้นทึบระหว่างด้านทั้งสองคือ Median โดยด้านล่างของกล่องคือ Q1 ด้านบนของกล่องคือ Q3 ดังนั้น จึงมีจำนวนข้อมูลอยู่ 50% ในกล่อง ซึ่งจะมีจำนวนข้อมูล 25% อยู่ต่ำกว่าด้านล่าง (หรือ Q1) และจำนวนข้อมูล 25% อยู่เหนือด้านบน (หรือ Q3) ความกว้างของกล่องคือ IQR (Interquartile Range) ซึ่งมีค่าเท่ากับ Q3 - Q1 ภาพกล่องจะมีประโยชน์ในการเปรียบเทียบการกระจายและการแจกแจงของข้อมูลจากหลายกลุ่ม โดยถ้าการแจกแจงของข้อมูลเบ้ซ้ายแล้วมัธยฐานจะชิดขอบบนของกล่อง และถ้าการแจกแจงของข้อมูลเบ้ขวาแล้วมัธยฐานจะชิดขอบล่างของกล่อง สมมุติว่าข้อมูล 10 คนที่ผ่านมามีเพศดังนี้         

 

      อายุ      20      25      45      45      45      55      25      30      30      60     ปี

           เพศ     หญิง   ชาย    หญิง   ชาย    ชาย   หญิง   หญิง   ชาย   หญิง   ชาย

 

 

ภาพ 4ภาพ Box plots เปรียบเทียบระหว่างเพศ

 

จากภาพ 4ช เส้นทึบในกล่องอายุของผู้ชาย (male) อยู่สูงกว่า (ชิดด้านบน) เส้นทึบในกล่องอายุของผู้หญิง (female) แสดงว่าอายุของผู้ชายมีค่ามัธยฐาน (45 ปี) มากกว่าอายุของผู้หญิง (30 ปี) และกล่องของผู้ชายแคบกว่ากล่องของผู้หญิง แสดงว่าอายุของผู้ชายมีการกระจาย (IQR = 25.0 ปี) น้อยกว่าอายุของผู้หญิง (IQR = 27.5 ปี) โดยอายุมากที่สุดของกลุ่มทั้งสองเป็นผู้ชาย (60 ปี ดูที่เส้นหนวด) และอายุน้อยที่สุดเป็นผู้หญิง (20 ปี) โดยการแจกแจงอายุของผู้ชายเบ้ซ้าย ในขณะที่การแจกแจงอายุของผู้หญิงเบ้ขวา