กลับไปที่บทความ
Machine Learning Python FastAPI Backend

การนำไปใช้งาน Machine Learning Models ในการผลิต ด้วย FastAPI

พลากร วรมงคล
15 สิงหาคม 2567 10 นาที

“การฝึกซ้อม ML model นั้นง่าย แต่การให้บริการอย่างเชื่อถือได้ในการผลิต — พร้อมด้วยการตรวจสอบความถูกต้องของข้อมูล, versioning, monitoring, และ scaling — นี่คือจุดที่วิศวกรรมแท้จริงเกิดขึ้น นี่คือแนวทางที่ผ่านการทดสอบในสนามจริงโดยใช้ FastAPI”

ช่องว่าง ML Production

มีการบันทึกไว้อย่างดีเกี่ยวกับช่องว่างระหว่าง “model ทำงานในสมุดบันทึก” และ “model ให้บริการการทำนายอย่างเชื่อถือได้ในการผลิต” ฉันเคยเห็นนักวิทยาศาสตร์ข้อมูลฝึกซ้อม models ที่ยอดเยี่ยมที่ไม่เคยมาถึงการผลิตเพราะโครงสร้างพื้นฐานด้านวิศวกรรมไม่มี ในทางกลับกัน ฉันเคยเห็นวิศวกรสร้างโครงสร้างพื้นฐานการให้บริการที่งดงามสำหรับ models ที่ทำงานได้ไม่ดีเพราะไม่ได้รับการตรวจสอบอย่างเหมาะสม

การเชื่อมช่องว่างนี้ต้องใช้ทั้งความเข้าใจ ML และทักษะด้านวิศวกรรมการผลิต FastAPI ตีความหมายแบบตำแหน่งสุดท้าย: เป็น Python (ดังนั้นนักวิทยาศาสตร์ข้อมูลสามารถอ่านและมีส่วนร่วม), มันเร็ว (สร้างจาก Starlette และ Uvicorn พร้อมการสนับสนุน async), และมีการตรวจสอบและเอกสารแบบในตัว (ผ่าน Pydantic และ OpenAPI)

ภาพรวมสถาปัตยกรรม

ระบบการให้บริการ ML การผลิตมีห้าชั้น: ชั้น API (รับคำขอ, ตรวจสอบอินพุต, ส่งกลับการทำนาย), ชั้น model (โหลดและจัดการเลขานุการ model artifacts, เรียกใช้ inference), ชั้นการประมวลผลล่วงหน้า (แปลงอินพุตดิบเป็นฟีเจอร์พร้อมสำหรับ model), ชั้น monitoring (ติดตามการกระจายการทำนาย, latency, และ model drift), และชั้นโครงสร้างพื้นฐาน (containerization, scaling, health checks)

FastAPI จัดการชั้น API ตามธรรมชาติ ชั้นอื่นๆ คือแพตเทิร์นที่คุณสร้างขึ้นมา

การตรวจสอบอินพุตด้วย Pydantic

บัคที่พบบ่อยที่สุดในการผลิต ML คืออินพุตที่มีรูปแบบไม่ถูกต้อง Model ที่ฝึกซ้อมบนฟีเจอร์ในช่วงเฉพาะจะสร้างการทำนายไร้ประโยชน์เมื่อให้ inputs นอกช่วงนั้น Pydantic models จับสิ่งนี้ก่อน inference

นิยามสคีมาอินพุตของคุณด้วยประเภทที่เข้มงวด, ช่วงค่า, และ validators ที่กำหนดเอง Model การทำนายราคาบ้านอาจต้อง square footage ระหว่าง 100 และ 50,000, bedrooms ระหว่าง 0 และ 20, และรูปแบบรหัสไปรษณีย์ที่ถูกต้อง ถ้าการตรวจสอบล้มเหลว API จะส่งกลับข้อผิดพลาด 422 ที่ชัดเจนแทนการทำนายที่ไร้ความหมาย

นี่คือเส้นป้องกันแรกต่อปัญหาคุณภาพข้อมูล Model ไม่ควรเห็น input ที่ไม่ถูกต้อง

แพตเทิร์นการโหลด Model

Singleton Pattern

โหลด model ของคุณครั้งเดียวเมื่อเริ่มต้นแอปพลิเคชัน, ไม่ใช่ต่อคำขอ การโหลด model (โดยเฉพาะสำหรับเครือข่ายประสาทขนาดใหญ่) อาจใช้เวลาหลายวินาทีหรือนาที การเก็บ model ที่โหลดแล้วเป็นตัวแปรระดับโมดูล หรือใช้ FastAPI lifespan events เพื่อให้แน่ใจว่ามันพร้อมเมื่อคำขอแรกมาถึง

Model Versioning

ให้บริการหลาย model versions พร้อมกัน API ของคุณควรสนับสนุนพารามิเตอร์เวอร์ชันที่ส่งไปยัง model ที่ถูกต้อง นี่เปิดใจให้ A/B testing, gradual rollouts, และ instant rollback

เก็บ model artifacts ด้วยข้อมูล metadata เวอร์ชัน: ไฟล์ model, พารามิเตอร์การฝึกซ้อม, feature schema, และเมตริกประสิทธิภาพจากการประเมิน เมื่อมีสิ่งผิดปกติในการผลิต, คุณต้องสามารถติดตามกลับไปยัง model เวอร์ชันใดแม่นยำว่ากำลังทำให้เกิดปัญหาและสิ่งที่ฝึกซ้อม

Graceful Model Updates

การอัปเดต model ไม่ควรต้องมี downtime โหลด model ใหม่ในเธรดพื้นหลัง, ตรวจสอบกับชุดข้อมูลทดสอบ, และสลับอย่างอะตอมิก Model เก่าจะยังคงให้บริการจนกว่า model ใหม่จะพร้อม ถ้าการตรวจสอบล้มเหลว, model เก่าจะยังคงทำงานและคุณจะได้รับการเตือน

Preprocessing Pipeline

Feature preprocessing ต้องเหมือนกันระหว่างการฝึกซ้อมและการให้บริการ นี่คือแหล่งที่พบบ่อยที่สุดของการเบี่ยงเบนการฝึก-บริการ ถ้า pipeline การฝึกซ้อมของคุณทำให้ฟีเจอร์ปกติโดยใช้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของชุดการฝึกซ้อม, pipeline บริการต้องใช้ค่าเดียวกันเหล่านั้น — ไม่ใช่คำนวณซ้ำจาก inference input

Serialize preprocessing pipeline ของคุณพร้อมกับ model ของคุณ Scikit-learn pipelines, custom transformers, และ feature scalers ควรบันทึกและโหลดพร้อมกัน Prediction request ไหลผ่าน transformations เดียวกันที่ข้อมูลการฝึกซ้อมผ่าน

Feature Validation

นอกเหนือจากการตรวจสอบอินพุต, ตรวจสอบว่า computed features ตกอยู่ในช่วงที่คาดหวัง ถ้าฟีเจอร์ที่มักอยู่ระหว่าง 0 และ 1 ในการฝึกซ้อมก็สระหว่าง 0 และ 1 ค่าที่มากกว่า 10 ในการผลิต, มีบางสิ่งบางอย่างที่ผิด — input ผิดปกติหรือ preprocessing มี bug บันทึกอสัญญาหนึ่งเหล่านี้แม้ว่าคุณยังคงส่งกลับการทำนาย, เพราะพวกเขาคือคำเตือนแรกของ data drift

Async Inference สำหรับ Throughput

FastAPI async support ให้คุณจัดการคำขอพร้อมกันได้อย่างมีประสิทธิภาพ สำหรับ inference ที่ CPU-bound (รุ่น ML แบบเดิมส่วนใหญ่), ใช้ thread pool executor เพื่อป้องกันการบล็อก event loop สำหรับ inference ของ GPU (deep learning models), batch requests พร้อมกันและเรียกใช้ inference บน batch เพื่อการใช้ประโยชน์จาก GPU ที่ดีขึ้น

แพตเทิร์นทั่วไปสำหรับระบบ throughput สูง: คำขอมาถึงเป็นแต่ละรายการ, ได้รับการเพิ่มไปยัง batch queue, และพนักงานพื้นหลังทำให้ inference บน full batches ในช่วงเวลาปกติ แต่ละคำขอรอผลลัพธ์ของตัวเองเป็นรายบุคคล นี่คือ amortizes per-inference overhead ในหลายการทำนาย

Health Checks และ Readiness

ใช้งาน three health check endpoints: liveness endpoint (is process กำลังทำงาน), readiness endpoint (is model loaded และพร้อมให้บริการ), และ startup endpoint (สำหรับ slow-starting models ที่ต้องใช้เวลาโหลด weights)

Kubernetes ใช้ endpoints เหล่านี้เพื่อจัดการ pod lifecycle โปรแกรม pod ที่มี alive แต่ไม่พร้อมจะไม่ได้รับ traffic โปรแกรม pod ที่ล้มเหลว liveness checks จะได้รับการรีสตาร์ท นี่ป้องกัน traffic จากถึง pods ที่ยังกำลังโหลด models หรือเข้า bad state

Monitoring Predictions

Distribution Monitoring

ติดตามการกระจายของการทำนายในช่วงเวลา ถ้า house price model ของคุณก็สระหว่าง 0 และ 1 ค่าที่มากกว่า 10 ในการผลิต ค่าต่อเนื่องเหล่านี้เปลี่ยนแปลง — either input data shifted หรือ model นั้น stale ตั้งค่า alerts สำหรับ distribution shifts โดยใช้การทดสอบทางสถิติหรือเช็ค threshold ง่ายๆ บน prediction percentiles

Feature Drift Detection

เปรียบเทียบการกระจายของ incoming features กับการกระจายข้อมูล training ดริฟท์ที่มีนัยสำคัญบ่งชี้ว่าโลกแห่งความเป็นจริงเปลี่ยนแปลงในรูปแบบที่ model ไม่ได้รับการฝึกซ้อม นี่คือเครื่องหมายคำเตือนแรกสุดว่าประสิทธิภาพของ model กำลังลดลง

Latency และ Error Tracking

ติดตาม inference latency (P50, P95, P99) แยกจาก total request latency นี่บอกคุณว่า slowness มาจาก model, preprocessing, หรือ API overhead ติดตาม error rates ตามประเภทข้อผิดพลาด: validation errors, preprocessing failures, inference exceptions, และ timeouts

Scaling Considerations

Horizontal Scaling

Stateless API servers scale horizontally — เพิ่มเติมเลียบแค่เพิ่ม replicas ไป Model จะโหลดลงใน memory ของแต่ละ replica สำหรับ 500MB model ที่มี 10 replicas, นั่นคือ 5GB ของ total memory ตัวเลขสิ่งนี้เป็นแนว capacity planning ของคุณ

GPU Sharing

ถ้าคุณกำลังใช้ GPU inference, GPU memory คือ bottleneck ของคุณ Multiple models สามารถแบ่งปันเดียว GPU ใช้ frameworks เช่น NVIDIA Triton Inference Server, หรือคุณสามารถเรียกใช้หลาย small model servers บน single GPU Profile GPU memory usage ของคุณก่อนทำให้承諾 architecture

Caching Predictions

สำหรับ models ด้วย deterministic outputs (same input เสมอผลิต same prediction), cache predictions aggressively A Redis cache keyed บน hash ของ input features สามารถกำจัด redundant inference calls ทั้งหมด สำหรับ recommendation system ที่ให้บริการซ้ำผู้ใช้, caching สามารถลด inference load ได้ 60-80%

Testing ML Services

Test ที่ทุกชั้น: unit tests สำหรับ preprocessing functions, integration tests สำหรับ full prediction pipeline (input ถึง output), contract tests สำหรับ API compatibility, และ load tests สำหรับประสิทธิภาพภายใต้ traffic ที่มี production-like

รวม edge case tests: มี input valid ขั้นต่ำ, maximum valid input, missing optional fields, และ unexpected feature combinations ML models สามารถสร้าง surprising outputs สำหรับ inputs ใกล้ขอบเขต training distribution ของพวกเขา

Lessons Learned

เริ่มง่ายๆ: FastAPI service เดี่ยวด้วย model เดี่ยว, validation พื้นฐาน, และ structured logging เพิ่มความซับซ้อนเมื่อคุณต้องการมัน ฉันเคยเห็นทีมสร้าง elaborate ML platforms ก่อนที่พวกเขามี model แรกในการผลิต Ship prediction, แล้ว iterate infrastructure

Comments powered by Giscus are not yet configured. Set PUBLIC_GISCUS_REPO_ID and PUBLIC_GISCUS_CATEGORY_ID in apps/web/.env to enable.

PV

เขียนโดย พลากร วรมงคล

Software Engineer Specialist ประสบการณ์กว่า 20 ปี เขียนเกี่ยวกับ Architecture, Performance และการสร้างระบบ Production

เพิ่มเติมเกี่ยวกับผม

บทความที่เกี่ยวข้อง