Academic2026
Stellar Classification
CS372 Machine Learning: ระบบจำแนกประเภทวัตถุทางดาราศาสตร์

บทบาท
AI/ML Engineer
ปี
2026
ทีม
Solo Project
Tech Stack
โครงงานนี้จัดทำขึ้นเพื่อศึกษาและประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่อง (Machine Learning) ในการแก้ปัญหาการจำแนกประเภทวัตถุทางดาราศาสตร์ (Stellar Classification) โดยอาศัยชุดข้อมูลจากโครงการสำรวจท้องฟ้าดิจิทัลสโลน (Sloan Digital Sky Survey: SDSS) รุ่นที่ 17 (DR17) จำนวน 100,000 รายการ ระบบถูกออกแบบให้จำแนกวัตถุบนท้องฟ้าออกเป็น 3 ประเภทหลัก ได้แก่ ดาราจักร (Galaxies), ดาวฤกษ์ (Stars) และ เควซาร์ (Quasars) ผ่านการวิเคราะห์คุณลักษณะทางสเปกตรัม ข้อมูลเชิงแสงผ่านฟิลเตอร์กรองแสงย่านต่างๆ (u, g, r, i, z) และค่าการเลื่อนทางแดง (Redshift) เพื่อค้นหาแบบจำลองทางคณิตศาสตร์ที่มีความแม่นยำและเหมาะสมที่สุดในการจัดการกับข้อมูลดาราศาสตร์ขนาดใหญ่ (Big Data)
01
ปัญหา
- ปัจจุบันดาราศาสตร์ก้าวเข้าสู่ยุคข้อมูลขนาดใหญ่ (Big Data) โครงการสำรวจท้องฟ้าผลิตข้อมูลมหาศาลในระดับเทระไบต์ต่อคืน การจำแนกประเภทวัตถุเหล่านี้ด้วยมนุษย์จึงเป็นเรื่องที่เป็นไปไม่ได้ในทางปฏิบัติ
- วัตถุบางประเภท เช่น เควซาร์ (Quasars) ซึ่งเป็นวัตถุพลังงานสูงที่อยู่ไกลโพ้น มีลักษณะปรากฏคล้ายคลึงกับ ดาวฤกษ์ (Stars) มากเมื่อมองผ่านกล้องโทรทรรศน์ทั่วไป ทำให้การแยกแยะทำได้ยาก
- ต้องการระบบจำแนกประเภทอัตโนมัติที่ประมวลผลข้อมูลปริมาณมากได้อย่างรวดเร็วและแม่นยำ เพื่อลดภาระงานของนักดาราศาสตร์ และช่วยคัดกรองวัตถุเพื่อนำไปศึกษาเชิงลึกต่อไป
02
แนวทางแก้ไข
- ทำความสะอาดและเตรียมข้อมูล (Data Preprocessing) อย่างเป็นระบบ โดยแปลงค่าที่ผิดปกติทางความหมายเชิงฟิสิกส์ (Sentinel values เช่น -9999) ให้เป็น NaN และกำจัดออก รวมถึงการใช้วิธี IQR Clipping (Winsorization) เพื่อลดผลกระทบของค่า Outliers
- นำแนวทาง Tree-based และ Permutation Importance มาวิเคราะห์เพื่อคัดเลือกคุณลักษณะ (Feature Selection) ตัดตัวแปรที่ระบุเชิงระบบ (เช่น ID ต่างๆ) ที่ทำให้เกิด Data Leakage ออกไป
- พัฒนาและเปรียบเทียบอัลกอริทึม 3 รูปแบบ ได้แก่ K-Nearest Neighbors (KNN), XGBoost (Tree-based Ensemble) และ Neural Network (Multilayer Perceptron - MLP)
- ปรับจูนพารามิเตอร์ (Hyperparameter Tuning) ผ่านวิธีการ Grid Search ร่วมกับการทำ Cross Validation เพื่อค้นหาพารามิเตอร์ที่ให้ประสิทธิภาพสูงสุดและลดปัญหา Overfitting / Underfitting
03
ผลลัพธ์
- ได้แบบจำลองที่สามารถจำแนกประเภทดาราจักร ดาวฤกษ์ และเควซาร์ ได้อย่างแม่นยำสูงมาก โดยโมเดล XGBoost ให้ผลลัพธ์ดีที่สุด (Evaluation Accuracy 0.9785 และ F1-macro 0.9752)
- โมเดลทั้งหมดที่พัฒนาขึ้นไม่มีปัญหาสัญญาณ Overfitting อย่างมีนัยสำคัญ สามารถ Generalize ไปยังข้อมูลใหม่ (Unseen Data) ได้อย่างแข็งแกร่ง
- ได้ Data Pipeline ที่สมบูรณ์ ตั้งแต่กระบวนการเตรียมข้อมูล การจัดการค่าผิดปกติ ไปจนถึงการทำนายผล ซึ่งสามารถนำไปประยุกต์ใช้เป็น "ระบบคัดกรองเบื้องต้น" ในท่อส่งข้อมูล (Data Pipeline) ของหอดูดาวได้จริง