1. Decision tree

ให้พัฒนาโปรแกรมเพื่อคำนวณหา decision tree เพื่อทำนายข้อมูลชุด Iris และ Adult โดยมีรายละเอียดดังนี้

  • ให้ดาวนโหลดข้อมูลทั้งสองชุด
    • สำหรับข้อมูลชุด Iris ให้สุ่มข้อมูลออกมา 30% เพื่อใช้สำหรับทดสอบประสิทธิภาพ อีก 70% ที่เหลือใช้สำหรับสร้าง decision tree
    • สำหรับ Adult ให้ใช้ข้อมูลในแฟ้ม adult.data ในการฝึกสอน และ adult.test ในการทดสอบประสิทธิภาพ
  • ทำการ preprocess ข้อมูลก่อน โดยในการเตรียมข้อมูลหรือเลือกระดับการ quantization ให้พิจารณาได้จากแฟ้มข้อมูลส่วนที่ใช้ฝึกสอนเท่านั้น ห้ามดูแฟ้มสำหรับทดสอบ
    • ในการเตรียมอาจมีการเลือกเอา attribute บางตัวออกจากการพิจารณาก็ได้ (ทดลองดู?)
    • ควรจัดเก็บข้อมูลที่เตรียมแล้วให้อยู่ในรูปแบบเดียวกันสำหรับทั้งสองข้อมูลชุดทดสอบ (จะได้เขียนโปรแกรมเดียวทำงานได้สองชุด)
  • เขียนโปรแกรมที่อ่านไฟล์ data มาสร้าง decision tree และนำ decision tree ดังกล่าวมาใช้ในการทำนายข้อมูลส่วนทดสอบ
    • พยายามเขียนให้เป็นโมดูลที่สามารถนำไปใช้ได้สะดวก
    • ให้ทดลองและวัดอัตราความผิดพลาดของ decision tree ที่สร้างได้

เมื่อทดลองเสร็จในการส่งการบ้านให้ระบุรายละเอียดต่อไปนี้

  • วิธีการ preprocess เช่น เลือก attribute อะไรบ้าง, ทำ quantization อย่างไร
  • อัตราความผิดพลาด
  • ให้แนบโปรแกรมที่ใช้สร้าง decision tree มาด้วย
01204461-52/hw4.txt · Last modified: 2010/02/14 17:15 (external edit)
 
 
©2008 Another cool website by 80KV