
มาตรวัดค่ากลาง (Measures of Central Tendency)
การพิจารณาเลือกใช้ค่า
Mean, Mode และ Median
มาตรวัดค่าการกระจาย (Measures of Dispersion)
มาตรวัดค่าการแจกแจง (Distribution) ของข้อมูล
ประโยชน์ของค่าคลาดเคลื่อนมาตรฐาน
การคำนวณสถิติพื้นฐานด้วยโปรแกรม SPSS
ภาพ Stem-and-Leaf, Histogram และ
Box plots
ในการทำความเข้าใจข้อมูลชุดใดชุดหนึ่งนั้น
ถ้าข้อมูลเป็นข้อมูลเชิงคุณภาพ (quality)
ซึ่งค่าของข้อมูลไม่แตกต่างกันมากนัก เช่น เพศ ศาสนา สถานภาพสมรส ระดับการศึกษา
เป็นต้น สถิติที่เหมาะสมในการทำความเข้าใจคือ ค่าร้อยละ (percent) แต่ถ้าข้อมูลเป็นข้อมูลเชิงปริมาณ (quantity)
ซึ่งค่าของข้อมูลมักแตกต่างกันมาก เช่น อายุ น้ำหนัก ความสูง คะแนนสอบ เป็นต้น
สถิติที่เหมาะสมในการทำความเข้าใจคือ ค่ากลาง ค่าวัดการกระจาย
และค่าที่แสดงความเป็นปกติของข้อมูล
รวมทั้งภาพที่ใช้แทนข้อมูลชุดนั้น ในที่นี้จะนำเสนอสถิติพื้นฐานที่ใช้กับข้อมูลเชิงปริมาณ
ในการวิจัยทางธุรกิจ ขนาดของข้อมูลมักมีจำนวนมาก
เราจึงนิยมวิเคราะห์ข้อมูลด้วยโปรแกรมคอมพิวเตอร์ หน้าที่ของนักวิจัยก็คือ
การเลือกใช้สถิติให้เหมาะสมกับข้อมูล การแปลความ และการนำผลการวิเคราะห์ไปใช้ การที่นักวิจัยสามารถนำผลการวิเคราะห์ไปใช้ให้ได้อย่างเหมาะสมนั้น
นักวิจัยควรจะต้องมีความรู้ความเข้าใจสถิติพื้นฐานเป็นอย่างดีก่อน
ในตอนต้นนี้จึงได้นำข้อมูลที่มีจำนวนน้อยมาคำนวณด้วยมือ เพื่อให้ผู้เรียนทราบที่มาของสถิติพื้นฐาน
และในตอนท้ายได้นำผลลัพธ์ที่ได้จากการคำนวณด้วยโปรแกรม SPSS มาแสดง
เพื่อให้ผู้เรียนใช้ในการตรวจสอบและเปรียบเทียบกับผลลัพธ์ที่ได้จากการคำนวณด้วยมือ
สมมุติว่าเราต้องการศึกษาอายุของคนจำนวน 10 คนดังต่อไปนี้
|
อายุ 20 25 45 45 45 55 25 30 30 60 ปี |
|
การคำนวณค่าข้อมูลอายุ
10 คนนี้ ถ้าเป็นข้อมูลประชากร (บุคคลทั้งหมดมี 10 คน) เราเรียกค่าที่คำนวณได้นี้ว่า พารามิเตอร์ แต่ถ้าข้อมูลนี้เป็นกลุ่มตัวอย่าง
(สุ่มมาจากประชากร)
เราเรียกค่าที่คำนวณได้นี้ว่า ค่าสถิติ ในที่นี้สมมุติว่าข้อมูลดังกล่าวเป็นกลุ่มตัวอย่าง |
1.
มาตรวัดค่ากลาง (Measures of
Central Tendency)
1.1 ค่าเฉลี่ย (Average หรือ Mean)
ค่าเฉลี่ยมีอยู่ด้วยกันหลายชนิด เช่น
ค่าเฉลี่ยเรขาคณิต ค่าเฉลี่ยฮาร์โมนิก
เป็นต้น แต่ค่าเฉลี่ย
ที่นิยมใช้กันมากที่สุดในวงการธุรกิจคือ ค่าเฉลี่ยเลขคณิตหรือมัชฌิมเลขคณิต (arithmetic mean) โดยเรียกสั้น ๆ ว่า
ค่าเฉลี่ย
ค่าเฉลี่ย คือ ค่ากลาง ซึ่งคำนวณจากผลบวกของข้อมูลและหารด้วยจำนวนของข้อมูล
สัญลักษณ์ที่ใช้คือ
อ่านว่า เอ็กซ์บาร์
โดยผลบวก (sum) ของข้อมูลเขียน
หมายถึง การบวกข้อมูล n จำนวนจาก
X1 ถึง Xn เมื่อ n คือ จำนวนของข้อมูล ดังนั้นสูตรที่คำนวณคือ
Mean:
=
= ![]()
ในที่นี้ผลบวกของข้อมูล 10 ค่า (n = 10) หาได้ดังนี้
Sum = ![]()
= X1 + X2 + X3 +...+ X10
= 20 + 25 + 25 +...+ 60
= 380
=
=
= 38
ดังนั้น
ค่าเฉลี่ยหรืออายุเฉลี่ยของคนกลุ่มนี้คือ 38 ปี
1.2 ค่ามัธยฐาน (Median)
มัธยฐาน คือ ค่ากลาง ซึ่งอยู่ตรงกลางระหว่างข้อมูลที่เรียงลำดับทั้งหมด
ถ้าเรียงลำดับข้อมูล
แล้ว มัธยฐานจะแบ่งข้อมูลออกเป็น 2
ส่วนเท่า ๆ กัน (ส่วนละ 50%) ดังนั้น วิธีการหามัธยฐานก็คือ
ให้เรียงลำดับข้อมูลจากค่าน้อยไปค่ามาก (หรือจากค่ามากไปค่าน้อยก็ได้)
แล้วเลือกค่าที่อยู่ตรงกลางเป็นมัธยฐาน
ถ้าจำนวนข้อมูลเป็นเลขคี่ มัธยฐานคือ ค่าที่อยู่ตรงกลางหนึ่งตัว แต่ถ้าจำนวนข้อมูลเป็นเลขคู่
ให้นำค่าที่อยู่ตรงกลางสองตัวบวกกันแล้วหารด้วย 2 ในที่นี้จำนวนข้อมูลเป็นเลขคู่
(10 จำนวน) จึงคำนวณได้ดังนี้

ค่ามัธยฐาน =
=
= 37.50
ดังนั้น มัธยฐานของอายุคนกลุ่มนี้คือ 37.50 ปี
1.3 ค่าฐานนิยม (Mode)
ฐานนิยม คือ
ค่ากลาง ซึ่งเลือกมาจากข้อมูลที่มีการซ้ำกันมากที่สุด ข้อมูลที่ซ้ำกันมากที่สุด
ของ 20
25 45 45 45 55
25 30 30 60
คือ 45 (ซ้ำกันสามค่า
ซึ่งมากที่สุด)
ค่าฐานนิยม = 45
ดังนั้น
ฐานนิยมของอายุคนกลุ่มนี้คือ 45 ปี
อนึ่ง ในโปรแกรม SPSS ถ้ามีฐานนิยมหลายค่า
โปรแกรมจะแสดงเฉพาะค่าแรกที่พบเท่านั้น และหากข้อมูลชุดใดไม่มีค่าซ้ำกันเลย
ข้อมูลชุดนั้นก็ไม่มีค่าฐานนิยม
การพิจารณาเลือกใช้ค่า
Mean, Mode และ Median
ค่า Mean, Mode, Median
ต่างก็เป็นสถิติที่ใช้ในการวัดแนวโน้มเข้าสู่ส่วนกลางด้วยกัน
แต่มีวิธีใช้ที่แตกต่างกันออกไป ทั้งนี้ขึ้นอยู่กับมาตรวัดค่าและความปกติของข้อมูล
การจะพิจารณาเลือกใช้สถิติใดจึงต้องพิจารณาที่มาตรวัดค่าและความปกติของข้อมูลประกอบดังนี้
Mean เหมาะสำหรับข้อมูลที่มีมาตรวัดค่าตั้งแต่มาตราอันตรภาค
(interval
scale) เป็นต้นไป เช่น
คะแนนสอบ รายได้ อายุ เป็นต้น และไม่ควรมีข้อมูลค่าใดสูงหรือต่ำจนผิดปกติ (extreme
value) เช่น ไม่ควรคำนวณรายได้เฉลี่ยของคนไทยจำนวน 10 คนที่มี ดร.ทักษิณ ชินวัตร รวมอยู่ด้วย ยกเว้นมีจุดมุงหมายพิเศษบางอย่าง
เช่น ต้องการคำนวณรายได้เฉลี่ยของเศรษฐีจำนวน 10 คนแรกของประเทศไทย เป็นต้น
Median เหมาะสำหรับข้อมูลที่มีมาตรวัดค่าตั้งแต่มาตราเรียงลำดับ
(ordinal
scale) เป็นต้นไป เช่น
ระดับความคิดเห็น คะแนนสอบ รายได้ อายุ เป็นต้น ซึ่งคำนวณจากหนึ่งหรือสองค่าที่อยู่ตรงกลางของกลุ่มเท่านั้น
ดังนั้น ค่าสูงหรือต่ำผิดปกติบางค่าจึงไม่มีผลกระทบต่อ Median
Mode เหมาะสำหรับข้อมูลที่มีมาตรวัดค่าตั้งแต่มาตรานามบัญญัติ
(nominal
scale) เป็นต้นไป
หรือใช้ได้กับข้อมูลทุกประเภท เช่น เพศ ศาสนา อาชีพ ระดับความคิดเห็น คะแนนสอบ
รายได้ อายุ เป็นต้น
และคำนวณจากหนึ่งค่าของกลุ่มเท่านั้น ค่าสูงหรือต่ำผิดปกติบางค่าจึงไม่มีผลกระทบต่อ
Mode ถ้าข้อมูลมีการกระจายปกติแล้ว ค่า Mean, Mode และ Median จะเท่ากัน ในกรณีนี้จะเลือกใช้ค่าใดก็ได้
แต่ถ้าข้อมูลมีความผิดปกติไปข้างใดข้างหนึ่งแล้ว ควรเลือกใช้ค่า Mode หรือ Median จะเหมาะสมกว่า Mean การใช้คำสั่งย่อย STATISTICS=ALL. โปรแกรม SPSS/PC+
จะคำนวณสถิติทุกค่าดังที่ได้กล่าวมาแล้ว โดยโปรแกรมจะไม่คำนึงว่าข้อมูลจะมีระดับการวัดค่าอยู่ในมาตราใด
จึงเป็นหน้าที่ของนักวิจัยที่จะพิจารณาเลือกใช้สถิติให้เหมาะสมกับระดับข้อมูล สรุปสถิติวัดแนวโน้มเข้าสู่ส่วนกลางกับระดับข้อมูลได้ดังต่อไปนี้
|
ระดับข้อมูล |
สถิติวัดแนวโน้มเข้าสู่ส่วนกลาง |
|
Interval / Ratio |
Mode, Median, Mean |
|
Ordinal |
Mode, Median |
|
Nominal |
Mode |
1.4 ควอนไทล์ (Quantile)
ควอนไทล์ คือ
ค่าซึ่งแสดงตำแหน่งของข้อมูล ควอนไทล์ที่นิยมใช้คือ ควอร์ไทล์
(quartile:
Qi) เดไซล์
(decile: Di) และเปอร์เซ็นไทล์ (percentile: Pi) โดยควอร์ไทล์แบ่งข้อมูลออกเป็น
4 ส่วนเท่า ๆ กัน และตำแหน่งที่แบ่งมี 3 ค่าคือ Q1 Q2 Q3 เดไซล์แบ่งข้อมูลออกเป็น 10 ส่วนเท่า ๆ
กัน และตำแหน่งที่แบ่งมี 9 ค่าคือ D1 D2
D3 ... D9 และเปอร์เซ็นไทล์แบ่งข้อมูลออกเป็น 100 ส่วนเท่า ๆ
กัน และตำแหน่งที่แบ่งมี 99 ค่าคือ P1 P2
P3 ... P99 โดยมัธยฐาน
= Q2 = D5= P50 ดังภาพ 1.4
สูตรคำนวณค่าควอนไทล์ คือ
Qi = ![]()
Di = ![]()
Pi = ![]()
เมื่อ
i คือ ตำแหน่งของควอนไทล์
n คือ ขนาดของข้อมูล
X คือข้อมูลดิบ
ในที่นี้ Q2 หรือ D5 หรือ P50 ของอายุคนกลุ่มนี้คือ 37.50 ปี
การแปลความเปอร์เซ็นไทล์
เปอร์เซ็นไทล์เป็นค่าของข้อมูลที่แสดงว่า ถ้าแบ่งข้อมูล (โดยเรียงลำดับจากน้อยไปมาก)
ออกเป็น 100 ส่วนแล้ว
จะมีกี่ส่วนที่มีค่าน้อยกว่าค่าเปอร์เซ็นไทล์ที่กล่าวถึง เช่น เปอร์เซ็นไทล์ที่ 75
หรือ P75 หมายถึง มีข้อมูลอยู่ 75
ส่วนใน 100 ส่วนที่มีค่าต่ำกว่าค่า P75 เป็นต้น ดังนั้น ค่าของเปอร์เซ็นไทล์จึงมี 99 ค่า

ในโปรแกรม SPSS เราสามารถสั่งให้คำนวณค่าเปอร์เซ็นไทล์โดยใช้คำสั่งย่อยหรือคำเฉพาะ
PERCENTILE ต่อจากคำสั่ง FREQUENCY เช่น ถ้าต้องการให้โปรแกรมคำนวณหาเปอร์เซ็นไทล์ที่ 25, 50, 75 ของตัวแปร AGE ก็สั่งได้ดังนี้ FREQUENCY AGE
/ PERCENTILE 25, 50, 75.
2.
มาตรวัดค่าการกระจาย (Measures of
Dispersion)
2.1 ความแปรปรวน (Variance)
ความแปรปรวน
คือ ค่าการกระจาย ซึ่งเป็นค่าเฉลี่ยของผลต่างกำลังสองระหว่างข้อมูลแต่
ละค่ากับ Mean ดังนั้นความแปรปรวนจึงมีหน่วยเป็น (หน่วยข้อมูล)2
โดยถ้าข้อมูลมีการกระจายน้อยแล้ว ความแปรปรวนจะมีค่าเล็กและเส้นโค้งความถี่จะมีลักษณะโด่ง
ดังภาพ 2.1ก ถ้าข้อมูลมีการกระจายมากแล้ว
ความแปรปรวนจะมีค่าใหญ่และเส้นโค้งความถี่จะมีลักษณะแบน ดังภาพ 2.1ข และความแปรปรวนที่โปรแกรม SPSS คำนวณมาให้นี้
จะเป็นความแปรปรวนของกลุ่มตัวอย่าง ซึ่งมีตัวหารเป็น n - 1 ดังนี้
(ถ้าเป็นความแปรปรวนของประชากร ตัวหารคือ N)
Variance =
![]()
= ![]()
=

![]()
= 190
ดังนั้น
ความแปรปรวนของอายุคนกลุ่มนี้คือ 190 ปี2
ภาพ 2.1ก ความแปรปรวนมีค่าเล็ก ภาพ
2.1ข ความแปรปรวนมีค่าใหญ่

2.2 ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation
หรือ Std dev หรือ SD หรือ S)
ส่วนเบี่ยงเบนมาตรฐาน คือ
ค่าการกระจาย ซึ่งเป็นค่าที่เกิดจากรากบวกที่สองของความ
แปรปรวน นั่นคือ
Std
dev = ![]()
=
![]()
=
13.784
ดังนั้น ส่วนเบี่ยงเบนมาตรฐานของอายุคนกลุ่มนี้คือ 13.784 ปี หรืออายุของคนกลุ่มนี้เบี่ยงเบนไปจากค่าเฉลี่ย 13.784 ปี
2.3 ค่าคลาดเคลื่อนมาตรฐาน (Standard Error หรือ
Std err หรือ SE)
ค่าคลาดเคลื่อนมาตรฐาน
คือ ค่าการกระจาย ซึ่งเป็นค่าคลาดเคลื่อนอันเนื่องมาจาก
การสุ่มกลุ่มตัวอย่าง ถ้ากลุ่มตัวอย่างมีขนาดเล็ก
ค่าคลาดเคลื่อนก็มีค่าสูง ในทางตรงกันข้าม ถ้ากลุ่มตัวอย่างมีขนาดใหญ่
ค่าคลาดเคลื่อนก็มีค่าต่ำ ค่าคลาดเคลื่อนมาตรฐานคำนวณได้จากการหารค่า Std dev ด้วย
นั่นคือ
Std
err = ![]()
=
![]()
=
4.359
ดังนั้น
ค่าคลาดเคลื่อนมาตรฐานของอายุคนกลุ่มนี้คือ 4.359 ปี
ค่าคลาดเคลื่อนมาตรฐานเป็นส่วนเบี่ยงเบนซึ่งค่าเฉลี่ยของกลุ่มตัวอย่างอยู่ห่างจากค่าเฉลี่ยของประชากร
(ขนาดใหญ่) โดยมีระดับความเชื่อมั่น 95%
ของค่าเฉลี่ยของประชากรดังนี้
± 1.96 (Std err)
เมื่อกลุ่มตัวอย่างสุ่มมาจากประชากรที่มีการแจกแจงปกติ
ดังนั้น
ถ้ากลุ่มตัวอย่างขนาด 10 ข้างต้นสุ่มมาจากประชากรที่มีการแจกแจงปกติแล้ว
เราสามารถกล่าวด้วยความเชื่อมั่น 95% ว่าค่าเฉลี่ยของประชากรควรจะมีค่าอยู่ระหว่าง
38.00 ± 1.96 (4.359) หรือ 38.00 ± 8.54
การกล่าวเช่นนี้มีความผิดพลาดไม่เกิน 5% ซึ่งหมายความว่า
ถ้าสุ่มกลุ่มตัวอย่างขนาด 10 จากประชากรที่มีการแจกแจงปกติหลาย
ๆ ครั้ง โดยในแต่ละครั้งเมื่อคำนวณช่วงความเชื่อมั่น 95% ของค่าเฉลี่ยของประชากรแล้ว
จะพบว่าใน 100 กลุ่มตัวอย่างนั้น จะมีประมาณ 5 กลุ่มตัวอย่างเท่านั้นที่ช่วงความเชื่อมั่นที่คำนวณได้ไม่ครอบคลุมค่าเฉลี่ยที่แท้จริงของประชากร
2.4 คะแนนมาตรฐาน (Standard Score: Z)
คะแนนมาตรฐาน คือ คะแนนที่บอกให้ทราบว่าข้อมูลนั้นมีค่ามากกว่าค่าเฉลี่ย (มีเครื่องหมายบวก) หรือน้อยกว่าค่าเฉลี่ย (มีเครื่องหมายลบ) เป็นกี่เท่าของส่วนเบี่ยงเบนมาตรฐาน โดยค่าเฉลี่ยของ Z คือ 0 และส่วนเบี่ยงเบนมาตรฐานคือ 1 สูตรที่ใช้คำนวณคือ
Z = ![]()
จากอายุของคน 10 คนข้างต้น คะแนนมาตรฐานของคนที่มีอายุ 30 ปีคือ
Z = ![]()
= ![]()
= -.58
ดังนั้น คะแนนมาตรฐานของคนที่มีอายุ 30 ปีคือ -.58
แปลว่าคนที่มีอายุ 30 ปีจากกลุ่มตัวอย่างข้างต้น มีคะแนนมาตรฐานน้อยกว่าค่าเฉลี่ยของกลุ่มเป็น 0.58 เท่าของส่วนเบี่ยงเบนมาตรฐาน
เราสามารถเปิดตารางสถิติ (ดูตามหนังสือสถิติโดยทั่วไป)
เพื่อคำนวณค่าควอนไทล์ต่างๆ จากค่า Z ได้ และนอกจากนี้แล้ว Z ยังมีประโยชน์ในการเปรียบเทียบตำแหน่งของข้อมูลในกลุ่มที่ต่างกัน
หรือหน่วยวัดค่าข้อมูลที่ต่างกัน เช่น นายไข่นุ้ยสอบวิชาคณิตศาสตร์ได้ 91 คะแนน และสอบวิชาสถิติได้ 86 คะแนน
เราต้องการทราบว่านายไข่นุ้ยถนัดวิชาใดมากกว่ากัน
ถ้าค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของวิชาทั้งสองเป็นดังตารางต่อไปนี้
|
วิชา |
คะแนนสอบของนายไข่นุ้ย |
ค่าเฉลี่ย |
ส่วนเบี่ยงเบนมาตรฐาน |
|
คณิตศาสตร์ |
91 |
85 |
9.58 |
|
สถิติ |
86 |
74 |
13.64 |
Zคณิตศาสตร์ =
=
= +.63
Zสถิติ =
=
= +.88
คะแนนมาตรฐานของวิชาสถิติมากกว่าวิชาคณิตศาสตร์
แสดงว่านายไข่นุ้ยถนัดวิชาสถิติมากกว่าวิชาคณิตศาสตร์
ถ้าเปิดตารางสถิติเพื่อเปลี่ยนค่า Z เป็นค่าเปอร์เซ็นไทล์แล้ว
วิชาคณิตศาสตร์ตรงกับเปอร์เซ็นไทล์ที่ 73 หมายถึง นายไข่นุ้ยได้คะแนนสูงกว่าคนอื่น 73 คนใน 100
คน และวิชาสถิติได้ตรงกับเปอร์เซ็นไทล์ที่
81 หมายถึง นายไข่นุ้ยได้คะแนนสูงกว่าคนอื่น 81 คนใน 100
2.5 พิสัย (Range)
พิสัย คือ
ค่าการกระจาย ซึ่งคำนวณได้จากผลต่างของค่าสูงสุด (maximum) กับค่าต่ำสุด
(minimum) ดังนี้

พิสัย = Maximum - Minimum
= 60 - 20
= 40
ดังนั้น
พิสัยของอายุคนกลุ่มนี้คือ 40 ปี
2.6 พิสัยระหว่างควอร์ไทล์ (Interquartile Range: IQR)
พิสัยระหว่างควอร์ไทล์ คือ ค่าการกระจาย ซึ่งคำนวณได้จากผลต่างระหว่าง Q3 กับ Q1 ดังสูตรต่อไปนี้
IQR
= Q3 - Q1
จากข้อมูลอายุคน 10 คนข้างต้น
Q3
=
=
= 45+2.5 (ใช้วิธีเทียบบัญญัตติไตรยางค์)
= 47.5
Q1
=
=
= 25.0
จะได้ IQR = Q3 - Q1
= 47.5 - 25.0
= 22.5
ดังนั้น พิสัยระหว่างควอร์ไทล์ของอายุคนกลุ่มนี้คือ 22.5
ปี
3.
มาตรวัดค่าการแจกแจง
(Distribution) ของข้อมูล
3.1 ค่าความเบ้ (Skewness)
ถ้านำความถี่ของข้อมูลที่เรียงลำดับแล้วมาเขียนเป็นกราฟ
โดยให้ข้อมูลดังกล่าวอยู่ตามแถวนอนและความถี่อยู่ตามแถวตั้ง
และลากเส้นโค้งให้ผ่านจุดยอดของความถี่แล้ว กราฟจะมีความโค้งแตกต่างกันออกไป
โดยเส้นโค้งความถี่อาจเป็นเส้นโค้งปกติ (normal) ซึ่งการกระจายของข้อมูลจะสมมาตร
(symmetric) รอบค่าเฉลี่ย
หรือเส้นโค้งมีความเบ้ไปข้างใดข้างหนึ่ง แล้วแต่ลักษณะของข้อมูล
และถ้าเส้นโค้งความถี่เป็นเส้นโค้งปกติแล้ว Mean = Median = Mode ดังภาพ 3.1ก ต่อไปนี้

ถ้าเส้นโค้งความถี่เบ้ไปทางซ้ายหรือเบ้ลบ
(skewed
to the left หรือ negative skew) แล้วMean < Median
< Mode แสดงว่าข้อมูลส่วนใหญ่มีค่าสูงหรือค่ามาก
และข้อมูลส่วนน้อยมีค่าต่ำหรือค่าน้อย ดังภาพ 3.1ข ต่อไปนี้

ถ้าโค้งความถี่เบ้ไปทางขวาหรือเบ้บวก
(skewed
to the right หรือ positive skew) แล้ว Mode
< Median < Mean แสดงว่าข้อมูลส่วนใหญ่มีค่าต่ำหรือค่าน้อย
และข้อมูลส่วนน้อยมีค่ามากหรือค่าสูง ดังภาพ 3.1ค ต่อไปนี้

การวัดค่าความเบ้ที่คำนวณจากโปรแกรม SPSS ใช้วิธีโมเมนต์ (moment) ที่สามดังสูตรต่อไปนี้
Skewness =
ดังนั้น Skewness =
= 0.283
การพิจารณาความเบ้ ให้พิจารณาเครื่องหมายดังนี้
Skewness = -
แสดงว่า
เบ้ซ้าย
Skewness = 0
แสดงว่า
ไม่มีความเบ้
Skewness = +
แสดงว่า เบ้ขวา
ข้อมูล10 ค่าที่ผ่านมา คำนวณได้ Skewness = 0.283 แสดงว่าการกระจายของข้อมูลชุดนี้มีความเบ้ไปทางขวาเล็กน้อย
ค่าคลาดเคลื่อนมาตรฐานของความเบ้ขึ้นอยู่กับจำนวนข้อมูล
(n) ถ้าข้อมูลมีการแจกแจงปกติแล้ว
ค่าคลาดเคลื่อนมาตรฐานของความเบ้สามารถคำนวณได้จากสูตรต่อไปนี้
SE
Skew =
ดังนั้น SE Skew =
= 0.687
3.2 ความโด่ง (Kurtosis)
โค้งความถี่ของข้อมูลอาจโด่งมากกว่าปกติ
เรียกว่า เลปโตเคอร์ติก (lepto kurtic) โด่งน้อย
กว่าปกติ เรียกว่า แพล็ตตีเคอร์ติก (platy kurtic) และโด่งปกติ
เรียกว่า เมโสเคอร์ติก (meso
kurtic) ดังภาพ 3.2ก ต่อไปนี้

ภาพ 3.2ก
ความโด่ง 3 แบบ
การวัดค่าความโด่งที่คำนวณจากโปรแกรม
SPSS ใช้วิธีโมเมนต์ที่สี่ จากข้อมูล 10 ค่าที่ผ่านมา
สามารถคำนวณค่า Kurtosis โดยใช้สูตรดังต่อไปนี้
Kurtosis =
ดังนั้น Kurtosis =
=
-1.345
การพิจารณาค่าความโด่ง ให้พิจารณาเครื่องหมายดังนี้
Kurtosis =
- แสดงว่า ความโด่งต่ำกว่าปกติ
Kurtosis =
0 แสดงว่า ความโด่งเป็นปกติ
Kurtosis =
+ แสดงว่า ความโด่งสูงกว่าปกติ
ข้อมูลชุดที่ผ่านมาคำนวณได้ Kurtosis
= -1.345 แสดงว่าเส้นโค้งโด่งน้อยกว่าปกติ
ค่าคลาดเคลื่อนมาตรฐานของความโด่งขึ้นอยู่กับจำนวนข้อมูล
(n) ถ้าข้อมูลมีการแจกแจงปกติแล้ว
ค่าคลาดเคลื่อนมาตรฐานของความโด่งสามารถคำนวณได้จากสูตรต่อไปนี้
SE
Kurt =
ดังนั้น SE Kurt =
=
1.334
ประโยชน์ของค่าคลาดเคลื่อนมาตรฐาน
ประโยชน์อย่างหนึ่งของค่าคลาดเคลื่อนมาตรฐานคือ
ใช้ในการสร้างช่วงความเชื่อมั่น เช่น ถ้าข้อมูลมีการแจกแจงปกติแล้ว
สูตรสร้างช่วงความเชื่อมั่น 95% ของ Skewness
คือ
Skewness ± 1.96 (SE Skew)
ดังนั้น ช่วงความเชื่อมั่น 95% ของ
Skewness และ Kurtosis ที่ผ่านมาคือ
ช่วงความเชื่อมั่น 95% ของ Skewness = 0.283 ± 1.96 (0.687)
= -1.064 ถึง 1.630
ช่วงความเชื่อมั่น 95% ของ Kurtosis = -1.345 ± 1.96 (1.334)
= -3.960 ถึง 1.270
การแปลความ ถ้าช่วงความเชื่อมั่น 95% ครอบคลุมค่าศูนย์ แปลว่าข้อมูลแจกแจงปกติที่ระดับนัยสำคัญทางสถิติ 0.05
ในที่นี้ช่วงความเชื่อมั่น 95% ของ Skewness และ Kurtosis ครอบคลุมค่าศูนย์
(0) ทั้งสองชนิด แสดงว่าข้อมูลชุดนี้มีความสมมาตร (ภาษาสถิติกล่าวว่า การแจกแจงมีความเบ้อย่างไม่มีนัยสำคัญ) และมีความโด่งแบบปกติ (ภาษาสถิติกล่าวว่า
การแจกแจงมีความโด่งต่ำกว่าปกติอย่างไม่มีนัยสำคัญ) ดังนั้น
เราสามารถกล่าวได้ว่าข้อมูลชุดนี้มีการแจกแจงปกติ (normal distribution) ด้วยความเชื่อมั่น 95%
อนึ่ง หากมีข้อมูลบางรายการมีค่าต่ำหรือสูงผิดปกติ
ก็อาจมีผลต่อช่วงความเชื่อมั่นดังกล่าวได้
ในกรณีนี้จึงควรสรุปผลด้วยความระมัดระวัง

ภาพ 3.2ข ช่วงความเชื่อมั่น 95% ของ
Skewness ครอบคลุมค่าศูนย์
4. การคำนวณค่าสถิติพื้นฐานด้วยโปรแกรม
SPSS
จากข้อมูล 10 ค่าที่ผ่านมา
เราสามารถใช้คำสั่ง Frequencies... หรือ Descriptives...หรือ Explore... คำนวณค่าสถิติพื้นฐานได้ดังนี้ (คำสั่งโปรแกรม SPSS
รุ่น 6 - 8 ใช้คำ Statistics แทน Analyze)
Analyze Ü Descriptive
Statistics Ü Frequencies...
Analyze Ü Descriptive
Statistics Ü Descriptives...
Analyze Ü Descriptive
Statistics Ü Explore...

ภาพ 4ก ผลลัพธ์จากการใช้คำสั่ง
Frequencies...
การอ่านค่าสถิติของอายุในภาพ 4ก (ให้เปรียบเทียบกับค่าสถิติที่คำนวณได้ในหัวข้อ
1.1 - 3.2)
|
1)
จำนวนข้อมูลที่มีค่าสมบูรณ์ (N Valid)
คือ10 2)
จำนวนข้อมูลที่มีค่าสูญหาย (Missing)
คือ 0 3)
ค่าเฉลี่ย (Mean) คือ 38 4)
ส่วนคลาดเคลื่อนมาตรฐานของค่าเฉลี่ย (Std. Error of
Mean) คือ 4.3589 5)
ค่ามัธยฐาน (Median)
คือ 37.5 6)
ค่าฐานนิยม (Mode) คือ 45 7)
ค่าเบี่ยงเบนมาตรฐาน (Std. Deviation) คือ13.784 8)
ค่าความแปรปรวน (Variance)
คือ190 9)
ค่าความเบ้ (Skewness) คือ
.283 10) ส่วนคลาดเคลื่อนมาตรฐานของความเบ้
(Std. Error of Skewness) คือ .687 11) ค่าความโด่ง (Kurtosis) คือ -1.345 12) ส่วนคลาดเคลื่อนมาตรฐานของความโด่ง
(Std. Error of Kurtosis) คือ 1.334 13) ค่าพิสัย (Range) คือ 40 14) ค่าต่ำสุด (Minimum) คือ 20 15) ค่าสูงสุด (Maximum) คือ 60 16) ผลรวม (Sum) คือ 380 17)
ค่าของเปอร์เซ็นไทล์ (Percentiles)
ที่ 25 คือ 25, ที่ 50 คือ 37.5, และที่ 75 คือ 47.5 |
ภาพ 4ข ผลลัพธ์จากการใช้คำสั่ง
Descriptives...
การอ่านค่าสถิติของอายุในภาพ
4ข เหมือนกับในภาพ 4ก (ภาพ 4ข นี้สามารถขยายให้ใหญ่หรือเล็กได้ตามความเหมาะสมของหน้ากระดาษ
แต่ถ้าทำให้เล็กลง ตัวหนังสือบางตัวอาจหายไป)



ภาพ 4ค ผลลัพธ์จากการใช้คำสั่ง
Explore...
การอ่านค่าสถิติของอายุในภาพ 4ค เหมือนกับที่ผ่านมา
แต่ในภาพ 4ค ได้เพิ่มช่วงความเชื่อมั่น 95% ของค่าเฉลี่ย (95% Confidence Interval
for Mean) ซึ่งมีค่าอยู่ระหว่าง
28.1395
ถึง 47.8605 ปี
และค่าเฉลี่ยของอายุที่ตัดค่าต่ำและค่าสูงข้างละ 5% ออกไป
(5% Trimmed Mean) คือ
37.7778 ปี
ภาพ Stem-and-Leaf,
Histogram และ Box plots
|
Frequency Stem
& Leaf 3.00 2
. 055 2.00 3
. 00 3.00 4
. 555 1.00 5
. 5 1.00 6
. 0 Stem width: 10.00 Each leaf: 1 case(s) |
ภาพ 4ง ภาพ Stem-and-Leaf
จากการใช้คำสั่ง Explore...
จากภาพ 4ง Stem-and-Leaf
ทำให้มองเห็นทั้งข้อมูลจริง และการแจกแจงความถี่



ภาพ 4จ ภาพฮิสโทแกรม
(Histogram) จากการใช้คำสั่ง Explore...
ในภาพ Histogram เรามองเห็นการแจกแจงของข้อมูลอย่างหยาบ ๆ
จึงอาจมองไม่เห็นข้อมูลจริงบางค่า โปรดสังเกตว่าคนที่มีอายุ 55 และ 60 ปีในภาพ Stem-and-Leaf
แยกออกจากกันอย่างเห็นได้ชัด แต่ในภาพ Histogram อายุของสองคนนี้อยู่ในช่วง 55.00 - 64.99 ปี
ซึ่งถ้าไม่เคยเห็นข้อมูลดิบมาก่อนก็จะไม่ทราบว่าความถี่ 2 ในแท่งสุดท้ายของภาพ Histogram ประกอบด้วยคนอายุเท่าใดบ้าง

![]()



ภาพ 4ฉ ภาพ Box plots จากการใช้คำสั่ง Explore...
ภาพ Box plots แสดงการกระจายของข้อมูล และเส้นทึบระหว่างด้านทั้งสองคือ Median โดยด้านล่างของกล่องคือ Q1
ด้านบนของกล่องคือ Q3 ดังนั้น จึงมีจำนวนข้อมูลอยู่ 50% ในกล่อง ซึ่งจะมีจำนวนข้อมูล 25% อยู่ต่ำกว่าด้านล่าง (หรือ Q1) และจำนวนข้อมูล
25% อยู่เหนือด้านบน (หรือ Q3) ความกว้างของกล่องคือ IQR (Interquartile Range) ซึ่งมีค่าเท่ากับ Q3 - Q1
ภาพกล่องจะมีประโยชน์ในการเปรียบเทียบการกระจายและการแจกแจงของข้อมูลจากหลายกลุ่ม
โดยถ้าการแจกแจงของข้อมูลเบ้ซ้ายแล้วมัธยฐานจะชิดขอบบนของกล่อง และถ้าการแจกแจงของข้อมูลเบ้ขวาแล้วมัธยฐานจะชิดขอบล่างของกล่อง สมมุติว่าข้อมูล 10 คนที่ผ่านมามีเพศดังนี้
|
อายุ 20 25 45 45 45 55 25 30 30 60 ปี
เพศ หญิง ชาย หญิง ชาย ชาย หญิง หญิง ชาย หญิง ชาย |

ภาพ 4ช ภาพ Box plots เปรียบเทียบระหว่างเพศ
จากภาพ 4ช
เส้นทึบในกล่องอายุของผู้ชาย (male) อยู่สูงกว่า (ชิดด้านบน) เส้นทึบในกล่องอายุของผู้หญิง (female) แสดงว่าอายุของผู้ชายมีค่ามัธยฐาน (45 ปี)
มากกว่าอายุของผู้หญิง (30 ปี) และกล่องของผู้ชายแคบกว่ากล่องของผู้หญิง
แสดงว่าอายุของผู้ชายมีการกระจาย (IQR = 25.0 ปี) น้อยกว่าอายุของผู้หญิง (IQR = 27.5 ปี) โดยอายุมากที่สุดของกลุ่มทั้งสองเป็นผู้ชาย (60 ปี
ดูที่เส้นหนวด) และอายุน้อยที่สุดเป็นผู้หญิง (20 ปี)
โดยการแจกแจงอายุของผู้ชายเบ้ซ้าย ในขณะที่การแจกแจงอายุของผู้หญิงเบ้ขวา