การวิเคราะห์พฤติกรรมการสูบบุหรี่ในสหราชอาณาจักร
สวัสดีครับ หลังจากห่างหายไปเป็นอาทิตย์ วันนี้เรากลับมากับ coursework จาก คอร์ส Data Analyst Bootcamp ของ Ad’ Toy โดยการบ้านนี้จะเป็นส่วนหนึ่งของวิชา Spreadsheet โฟกัสที่การทำ pivot table และ dashboard
สำหรับการบ้านนี้ผมเลือกที่จะใช้ dataset จากบน kaggle แหล่งรวม free dataset จากทั่วทุกมุมโลก ซึ่งในคราวนี้มันจะเกี่ยวกับ การสูบบุหรี่ภายในสหราชอาณาจักร
สาเหตุที่ผมเลือกหัวข้อนี้เพราะว่าปีหน้าผมกำลังจะไปเรียนต่อ ป.โท เลยคิดว่าอยากทำอะไรที่เกี่ยวกับประเทศที่เราไปดีกว่า
ในสหราชอาณาจักรอังกฤษตอนนี้กำลังจะบัญญัติกฎหมายใหม่ว่าด้วยการซื้อบุหรี่นั้นมีความผิดหากผู้ซื้อมีอายุต่ำกว่า 15 ปี แม้ว่าในปัจจุบันจำนวนผู้สูบบุหรี่ในช่วงวัยรุ่น นั้นจะลดลงแต่จำนวนผู้ที่เลือกหันไปสูบ บุหรี่ไฟฟ้า ( Vape ) ก็มีเพิ่มขึ้นเช่นกัน แม้งานวิจัยหลายอย่างจะชี้ตรงกันว่า การสูบบุหรี่ไฟฟ้ามีผลข้างเคียงน้อยกว่าบุหรี่ธรรมดา แต่ในระยะยาวแล้ว ก็สามารถส่งผลต่อระบบการหายใจ สมองและหัวใจได้เช่นเดียวกัน
จากการสำรวจข้อมูลของ ทาง Office of National Statistics ใน สหราชอาณาจักรอังกฤษ พบว่า 50% เลิกบุหรี่เพราะว่าปัญหาด้านสุขภาพในขณะที่ 25% เลิกเพราะราคาที่ปรับตัวสูงขึ้นของบุหรี่
หลังจากที่เรารู้ข้อมูลบางส่วนเกี่ยวกับพฤติกรรมการสูบบุหรี่ไปเรียบร้อยแล้ว งั้นเรามาดู columns ของ dataset นี้กันก่อนดีกว่าครับ
Table of Content
- About Dataset
- How to Create a Graph in Google Sheet with Pivot Table
- Insight
- Summary
- Restriction
- How I can make it better
About Dataset
แบบสำรวจนี้เป็นการสำรวจข้อมูลพฤติกรรมการสูบบุหรี่ในสหราชอาณาจักร โดยข้อมูลดังกล่าวสามารถนำมาใช้วิเคราะห์ลักษณะของผู้สูบและประเภทของบุหรี่ที่สูบ โดยข้อมูลนี้จะเก็บจากกลุ่มตัวอย่าง (sample) 1,691 คน ด้วยตัวแปรทั้ง 12 ตัวดังนี้
| Column | Description |
|---|---|
| gender | ชาย หรือ หญิง |
| age | อายุ |
| marital_status | สถานะการแต่งงาน แบ่งเป็น หย่าร้าง แต่ง แยกกันอยู่ โสด และ หม่าย |
| highest_qualification | ระดับการศึกษา |
| nationality | สัญชาติ |
| ethnicity | เชื้อชาติ |
| gross_income | รายได้สุทธิ |
| region | พื้นที่ |
| smoke | สถานะว่าสูบหรือไม่สูบ |
| amt_weekends | จำนวนบุหรี่ที่สูบ ต่อวันในช่วงวันหยุดสุดสัปดาห์ |
| amt_weekdays | จำนวนบุหรี่ที่สูบ ต่อวันในช่วงวันธรรมดา |
| type | ประเภทบุหรี่ที่สูบ |
How can I create a chart in with pivot table
- ขั้นตอนแรก เลือกข้อมูลทั้งหมดโดยคลิกที่บริเวณมุมซ้ายบนของตาราง

2. หลังจากเลือกข้อมูลทั้งหมดแล้ว ให้เลือกเมนู Insert > Pivot Table ระบบจะถามว่าต้องการสร้างใน Sheet ใหม่หรือใช้ Sheet ที่มีอยู่แล้ว

3. เมื่อกด Create จะได้ตารางว่างและ Pivot Table Editor


4. เมื่อได้หน้าตาแบบนี้แล้ว เราสามารถลากหรือกดปุ่ม Add เพื่อเพิ่มข้อมูลในส่วนต่างๆ เช่น:
- Filters
- Rows
- Columns
- Values
5. เราสามารถเลือกให้แสดงค่าผลรวมโดยเลือกที่ Show Totals Checkbox
6. เมื่อได้ตารางที่ต้องการแล้ว ให้เลือกตารางดังกล่าวแล้วไปที่เมนู Insert > Chart
7. สามารถคลิกที่ปุ่มสามจุด (⋮) เพื่อ:
- ปรับแต่งรายละเอียดอื่นๆ
- แก้ไขประเภทของกราฟให้เหมาะสม
- ปรับแต่งชื่อกราฟ
- เปลี่ยนสัญลักษณ์

Insight
ภายในข้อมูลชุดนี้ ไม่มีการระบุข้อมูลประเภทเวลา (date/time) ทำให้เราไม่สามารถสร้างกราฟประเภท line chart หรือ time series chart ได้
หาก กราฟนี้มีข้อมูลประเภทนี้เพิ่มขึ้นเราสามารถวัดได้ว่าในแต่ละช่วงเวลาของปี ปริมาณบุหรี่ที่สูบแปรผันหรือไม่ หรือ ถ้าข้อมูลเวลายาวนานเพียงพอก็สามารถนำมาตั้งสมมติฐานว่า ในอดีตจนถึงปัจจุบันบุหรี่แต่ละประเภทมีความนิยมต่างกันเช่นไร (multiple line graph in one chart) เป็นต้น
- อายุเฉลี่ยของคนที่มาตอบแบบสอบถามนี้ เฉลี่ยแล้วอยู่ที่ 49.84 ปี
- แบบสอบถามนี้แบ่งออกเป็น ผู้ชาย 726 คน และ ผู้หญิง 965 คน

3. ภายในแบบสอบถามนี้มีผู้สูบบุหรี่ (Yes) คิดเป็น 24.90% และ ไม่สูบ ( No ) 75.10%


4. จากการวิเคราะห์ข้อมูลระหว่างช่วงรายได้สุทธิและประเภทของบุหรี่ ทำให้ผมพบข้อมูลที่น่าสนใจ ดังนี้
- แบบซอง (Packets)
- ในทุกช่วงรายได้ ผู้คนเลือกที่จะซื้อบุหรี่แบบซองมากกว่าที่จะมวนเองหรือเลือกทั้งคู่ โดยมีสัดส่วนถึง 75% ในช่วงรายได้ 26,400 ไปจนถึง 36,400 และมากกว่านั้น โดยในช่วงมากกว่า 36,400 บาทนั้นไม่พบผู้ที่ซื้อบุหรี่มวนเองเลย
- ในขณะที่ช่วงรายได้อื่นก็คิดเป็นถึง 70% ของผู้ตอบแบบสอบถามในแต่ละช่วง
- แบบมวนเอง (Hand-rolled)
- ในช่วงรายได้ 2,600 ถึง 5,200 มีผู้ซื้อบุหรี่มามวนเองคิดเป็น 25% ของกลุ่มตัวอย่างที่มีรายได้อยู่ในช่วงดังกล่าว
- จำนวนจะลดลงตามช่วงรายได้ที่เพิ่มขึ้น
- เลือกทั้งคู่
- ในทุกช่วงรายได้มีคนเลือกที่จะทั้งซื้อและมวนเอง ยกเว้นในช่วง 28,600-36,400 ที่ไม่พบกลุ่มตัวอย่างใดเลย
- แม้ว่าจะพบได้ในเกือบทุกช่วง แต่จำนวนเปอร์เซ็นต์ก็ถือว่าเป็นส่วนน้อยเมื่อเทียบกับผู้ที่เลือกอย่างใดอย่างหนึ่ง
- ปัจจัยที่มีผลต่อการเลือกประเภทบุหรี่
- ราคา: ราคาบุหรี่แบบซองนั้นมีราคามากกว่า ส่งผลให้ในช่วงรายได้ต่ำๆ นั้นคนจึงเลือกที่จะซื้อแบบมวนเองอย่างมีนัยสำคัญ
- ความสะดวก: การเลือกซื้อบุหรี่แบบซองนั้นง่ายต่อการใช้งานเมื่อเทียบกับแบบมวนเองที่ต้องนำมาเตรียม และยังมีราคาเพิ่มเติมหากต้องใช้อุปกรณ์ในการมวน

5. จากข้อมูล ผมได้นำกราฟสัญชาติมาเทียบกับพื้นที่ เพื่อดูว่าในแต่ละพื้นที่นั้น สัญชาติใดมีแนวโน้มในการสูบบุหรี่อย่างไรบ้าง
- British
- กลุ่มตัวอย่างที่นิยามตัวเองว่าเป็น British มีจำนวนการสูบบุหรี่กระจายตัวอยู่ในทุกพื้นที่
- สามารถพบได้มากในบริเวณ Midland & East Anglia, The North และ South East มากกว่า 25 คนในแต่ละพื้นที่
- English
- กลุ่มที่นิยามตนว่าเป็น English นั้นพบได้ทั่วไปในทุกพื้นที่ แต่จะพบมากที่สุดที่ The North เป็นจำนวน 60 คน และประมาณ 58 คนบริเวณ Midland & East Anglia
- พบได้น้อยในพื้นที่ Scotland และ Wales
- Irish
- ผู้ที่นิยามว่าตนเป็น Irish นั้นพบได้น้อยมากในชุดข้อมูลนี้ โดยพบได้ในทุกพื้นที่แต่อยู่ในสัดส่วนที่น้อย ยกเว้นใน Wales ที่ไม่พบคนกลุ่มนี้เลย
- แต่ละพื้นที่จะพบเพียงแค่ 5 คน หรือน้อยกว่านั้น
- Scottish
- คนสกอตแลนด์สามารถพบได้มากที่สุดในพื้นที่ Scotland โดยมีมากกว่า 40 คนจากกลุ่มตัวอย่าง และเพียง 3-5 คนใน London และ The North
- Welsh
- คนเวลส์สามารถพบได้มากใน Wales และเพียง 2-3 คนในพื้นที่ The North และ South East
- ข้อสังเกตเพิ่มเติม
- จากกลุ่มตัวอย่างนี้ ไม่สามารถสรุปได้อย่างแน่ชัดว่าคนสัญชาติใดที่สูบบุหรี่มากที่สุด เนื่องจากพื้นที่ที่ใช้ในการสำรวจนั้นไม่ครอบคลุมทั่วทั้งสหราชอาณาจักร
- กลุ่มตัวอย่างเพียง 1,691 คน ไม่สามารถสรุปได้ว่าสัญชาติในแต่ละพื้นที่ใดสูบบุหรี่มากกว่ากัน
- จากการสังเกตจะพบว่ามีความสอดคล้องอย่างหนึ่งคือ หากเป็นคน Scottish ก็จะพบมากในพื้นที่ Scotland และ Welsh ก็พบมากใน Wales

6. กราฟนี้จะเป็นการพูดถึงรายได้สุทธิเทียบกับระดับการศึกษา จากกราฟเราจะเห็นว่าในช่วงที่รายได้สูง กลุ่มประชากรที่จบระดับปริญญาตรีขึ้นไปก็เยอะเช่นกัน คิดเป็นเกือบ 50% ของช่วงรายได้ 28,600 ถึง 36,400 และช่วงที่มากกว่า 36,400 ในขณะเดียวกัน ในช่วงรายได้ต่ำจะสังเกตได้ว่าระดับการศึกษานั้นมีความหลากหลายเป็นอย่างมาก อย่างไรก็ตามเรายังไม่สามารถบอกได้ว่ารายได้กับจำนวนคนที่สูบบุหรี่มีความสัมพันธ์กัน
- Degree
- จากกราฟจะพบว่าคนที่เรียนจบระดับอุดมศึกษาและสูบบุหรี่จะพบมากที่สุด คิดเป็นเกือบ 50% ในช่วงรายได้ 28,600-36,400 หรือมากกว่านั้น และไม่พบเลยในช่วง 2,600-5,200
- ในส่วนของช่วงรายได้อื่นจะคิดเป็นเปอร์เซ็นต์ไม่เกิน 10%
- GCSE/O Level
- สามารถพบได้ในทุกช่วงรายได้ และคิดเป็น 10-35% ของคนสูบบุหรี่ในแต่ละช่วง
- ไม่พบในช่วงรายได้ 28,600 – 36,400
- No Qualification
- สามารถพบได้ประมาณ 30-50% ในช่วงรายได้ต่ำ ตั้งแต่ต่ำกว่า 2,600 ไปจนถึง 10,400 และค่อยๆ ลดลงไปเรื่อยๆ ตามช่วงรายได้สุทธิ
- พบจำนวนคนสูบบุหรี่ที่ไม่มีวุฒิการศึกษาในช่วง 2,600-5,200 มากที่สุด คิดเป็น 50% ของกลุ่มตัวอย่างในช่วงนี้
- A Level
- คนที่เรียนจบระดับ A-Level พบได้น้อยมากในชุดข้อมูลนี้ โดยคิดเป็นเพียง 1-10% เท่านั้น
- พบน้อยที่สุดในช่วง 5,200-10,400 ที่ 1.88% ของกลุ่มตัวอย่างในช่วงรายได้
- GCSE/CSE
- สวนทางกับผู้ที่เรียนจบระดับอุดมศึกษา กลุ่มนี้สามารถพบได้มากในช่วงรายได้น้อยและลดลงในช่วงรายได้มากขึ้น
- พบได้มากที่สุดในผู้สูบบุหรี่ที่มีรายได้ต่ำกว่า 2,600 คิดเป็น 27.78% ของกลุ่มตัวอย่าง
- ONC/BTEC
- ไม่พบในรายได้ต่ำกว่า 5,200
- พบมากที่สุดในช่วงรายได้มากกว่า 36,400 คิดเป็น 26.67%
- ข้อสังเกต:
- ในช่วงรายได้ปานกลางตั้งแต่ 5,200-28,600 เราสามารถพบคนสูบบุหรี่ได้จากทุกระดับการศึกษา
- การศึกษาที่สูงมีโอกาสมีรายได้สูงตามด้วยเช่นกัน
- แต่เราไม่สามารถระบุได้ว่าการมีรายได้สูงหรือการศึกษาสูงมีผลต่อจำนวนคนที่สูบบุหรี่หรือไม่


7. ในส่วนของ bar chart สองอันนี้จะเป็นจำนวนบุหรี่ที่สูบในช่วงวันเสาร์-อาทิตย์ หรือช่วงวันธรรมดา ในแต่ละช่วงอายุ โดยจะสังเกตว่าในวันธรรมดา ผู้หญิงมีแนวโน้มสูบบุหรี่มากกว่าผู้ชายในช่วงอายุ 20-49 ในขณะที่ช่วงวันเสาร์-อาทิตย์ ผู้ชายสูบบุหรี่ในปริมาณที่มากกว่าผู้หญิงในทุกช่วงอายุ ยกเว้นเพียงช่วง 60-69 และ 80-89 เท่านั้น
- ผู้ชาย
- มีแนวโน้มสูบบุหรี่มากกว่าผู้หญิงในช่วงวันเสาร์-อาทิตย์ทุกช่วง ยกเว้นช่วงอายุ 60-69 และช่วงอายุ 80-89
- ไม่พบทั้งผู้ชายและผู้หญิงในช่วงอายุ 90+ สูบบุหรี่เลยในช่วงวันเสาร์-อาทิตย์
- พบผู้ชายสูบบุหรี่มากกว่าผู้หญิงในช่วง 70-79 โดยคิดเป็นความต่างอยู่ที่ประมาณ 13 คน
- ผู้หญิง
- มีแนวโน้มสูบบุหรี่มากกว่าผู้ชายในวันทำงาน ยกเว้นในช่วงอายุ 50-59 และ 60-69 ที่ผู้ชายมีแนวโน้มจะสูบบุหรี่มากกว่า และในช่วงอายุต่ำกว่า 20 ที่มีจำนวนผู้สูบบุหรี่เท่ากัน
- ไม่พบผู้ชายสูบบุหรี่ในช่วงอายุ 90+
- ผู้หญิงมีจำนวนสูบบุหรี่มากกว่าผู้ชายมากกว่า 20 คนในช่วงอายุ 40-49
- ข้อสังเกต:
- จากกราฟไม่สามารถสรุปได้ว่าเพศและวันหยุดมีความสัมพันธ์กันหรือไม่
- ยิ่งอายุมากขึ้น มีแนวโน้มที่จะสูบบุหรี่น้อยลง
- ไม่สามารถระบุความสัมพันธ์ได้

8. ในส่วนของกราฟนี้จะเป็นการดูว่าสถานะการสมรสกับจำนวนบุหรี่นั้นมีความสัมพันธ์อย่างไร โดยข้อมูลจำนวนบุหรี่นั้นเกิดจากการสร้าง Calculated Field ของค่าเฉลี่ยจำนวนบุหรี่ที่สูบในช่วงวันธรรมดาและวันหยุดเสาร์-อาทิตย์มารวมกัน
- ผู้ที่มีสถานะโสดมีค่าเฉลี่ยของบุหรี่ที่สูบต่ำที่สุด ประมาณ 28 มวน และสูงสุดคือผู้ที่เป็นหม้าย อยู่ที่ 33 มวน
- ในแต่ละสถานะการสมรสไม่ได้มีผลต่อจำนวนบุหรี่ที่สูบมากนัก เพราะว่าในกลุ่มตัวอย่างอื่นๆ ก็มีจำนวนที่ใกล้เคียงกัน
- ข้อสังเกต
- ไม่ได้พิจารณาปัจจัยอื่นๆ เช่น อายุ ระยะเวลา และเศรษฐกิจ
- การใช้ค่าเฉลี่ยอาจเป็นค่ากลางที่ไม่ดีที่สุด หากการกระจายตัวนั้นไม่เป็นแบบ Normal Distribution
Summary
- อายุและเพศ
- ผู้หญิงมีแนวโน้มสูบบุหรี่มากกว่าผู้ชายในช่วงวันธรรมดา
- การสูบบุหรี่ลดลงตามอายุ
- ปัจจัยทางเศรษฐกิจและการศึกษา
- บุหรี่แบบซองเป็นที่นิยมในทุกช่วงรายได้
- รายได้และการศึกษาแปรผันตามกัน
- ผู้ที่มีรายได้น้อยเลือกที่จะมวนเอง
- สถานภาพการสมรส
- คนโสดมีแนวโน้มสูบบุหรี่น้อยที่สุด
- สถานภาพกับจำนวนบุหรี่ไม่ได้มีนัยสำคัญที่ชัดเจน
Restriction
- ไม่มีข้อมูลช่วงเวลา จึงไม่สามารถทำ Time Series Chart ได้ ส่งผลให้ไม่รู้ว่าในระยะยาวนั้นสรุปข้อมูลได้อย่างไร
- ข้อมูลยังน้อยไป ไม่สามารถหาความสัมพันธ์ที่ชัดเจนได้
- ไม่มีข้อมูลบางด้าน เช่น อาชีพที่อาจจะสามารถสะท้อนระดับความเครียดกับจำนวนบุหรี่ได้
How can I make it better
- เก็บข้อมูลเพิ่มเติมโดยอ้างอิงตามช่วงเวลา เพื่อดูแนวโน้มการเปลี่ยนแปลงในระยะยาว
- เก็บข้อมูลเพิ่มเติม เช่น อาชีพ และระดับความเครียด
References
https://www.kaggle.com/datasets/utkarshx27/smoking-dataset-from-uk/data

Leave a comment