ปกติถ้าได้หัวข้อ Thesis เรื่องนี้มาแล้ว บทที่ 1,2,3 ต้องเสร็จแล้ว ได้ศึกษาทฤษฎีและการประยุกต์ใช้ของคนอื่นมาหมดแล้ว ไม่น่าจะต้องมาถามผมแล้วนะครับ
ตอบลัดเลย
2. ก่อนจะนำข้อมูลไปใช้ ไปวิเคราะห์ ต้องทำการกรองข้อมูลก่อน (Data Cleansing, Data Filtering) เพื่อขจัดข้อมูลนอกช่วง Outlier ที่จะทำให้สมการพยากรณ์ (สำหรับคนส่วนใหญ่) เพี้ยนไป ส่วนเลข 0 ต้องดูดีๆ ว่าจะใช้หรือไม่ หาก 0 แทนไม่มีการใช้ไฟฟ้า มันเป็นความเป็นจริง มันเป็นข้อมูลสำคัญว่าชั่วโมงนั้นของบ้านหลังนั้นไม่มีการใช้ไฟฟ้า ตัดสินไป ก็คำนวณไม่ได้ เพราะไม่ใช่ค่าว่าง
ตรวจสอบวัตถุประสงค์ของ Thesis ดู ว่างานนี้ต้องการจะสร้างสมการการพยากรณ์การใช้ไฟฟ้า แสดงว่าต้องมีตัวแปรทุกชั่วโมง พร้อมค่าสัมประสิทธิ์ มีค่าคงที่
3. ข้อมูลที่แตกต่างเป็นเรื่องธรรมดาครับ ไม่จำเป็นว่าบ้านหลังหนึ่งจะต้องใช้ไฟเท่ากันในทุกๆชั่วโมง มันเป็นความเป็นจริง ไปสั่งเค้าไม่ได้ เค้าเป็นลูกค้า เป็นสิทธิ์ของเค้าที่เค้าจะใช้ไฟ และจ่ายเงินเรา
ในเรื่องข้อมูล บ้านหนึ่งหลัง ก็จะได้เป็น 1 record ในพื้นที่หนึ่งๆ ก็จะมีหลาย record ที่มีข้อมูลปริมาณการใช้ไฟในแต่ละชั่วโมง เราต้องการที่จะมีข้อมูลมากๆ เพื่อจะสร้างสมการพยากรณ์ไงครับ อันนี้เป็นพื้ฐานสถิติพยากรณ์เลยนะครับ ไม่ใช่มีข้อมูลบ้านหลังเดียว แล้วสร้างสมการหลายตัวแปรได้ หรือเอาไปพยากรณ์หลังอื่นได้
อยากให้ทบทวนพื้นฐานคณิตศาสตร์ สถิติ และระบบการจัดการข้อมูลก่อนครับ เพราะคำถามพวกนี้ไม่น่าจะถามแล้วนะครับ น่าจะลุยไปเลย ติดปัญหาตรงไหน ก็ว่ากันไปครับ