DeepSeek ซึ่งเป็นบริษัทสตาร์ทอัพของจีนได้สร้างความตกตะลึงให้กับหลายๆ คน เมื่อโมเดลใหม่นี้ท้าทายบริษัท AI ที่มีชื่อเสียงของอเมริกา

DeepSeek: การเกิดขึ้นด้าน AI ของจีน

DeepSeek: The Emergence of Chinese AI

พลตรี มารวย  ส่งทานินทร์

[email protected]

6 กุมภาพันธ์ 2568

บทความเรื่องDeepSeek: การเกิดขึ้นด้าน AI ของจีน นำมาจากบทความในเว็บไซต์ คือ Why DeepSeek Shouldn’t Have Been a Surprise โดย Prithwiraj (Raj) ChoudhuryNatarajan Balasubramanian and Mingtao Xu เมื่อ January 31, 2025

ผู้ที่ประสงค์ศึกษาบทความนี้ในรูปแบบ PowerPoint (PDF file) สามารถติดตามได้ที่ DeepSeek: การเกิดขึ้นด้าน AI ของจีน DeepSeek - The Emergence of Chinese AI.pdf

บทความโดยย่อ

  • DeepSeek ซึ่งเป็นบริษัทสตาร์ทอัพของจีนได้สร้างความตกตะลึงให้กับหลายๆ คน เมื่อโมเดลใหม่นี้ท้าทายบริษัท AI ที่มีชื่อเสียงของอเมริกา ทั้ง ๆ ที่โมเดลใหม่นี้มีขนาดเล็กกว่า แต่มีประสิทธิภาพมากกว่า และราคาถูกกว่าอย่างเห็นได้ชัด อย่างไรก็ตาม ทฤษฎีการจัดการ โดยเฉพาะทฤษฎีการหยุดชะงัก (disruption theory) สามารถทำนายได้ว่า คู่แข่งประเภทนี้จะต้องมาอย่างหลีกเลี่ยงไม่ได้ ท้ายที่สุดแล้ว นวัตกรรมการหยุดชะงักนั้น ล้วนเกี่ยวกับทางเลือกต้นทุนต่ำ ที่ไม่ทันสมัย แต่มีประสิทธิภาพเพียงพอสำหรับผู้ใช้จำนวนมาก ซึ่งดูเหมือนว่านี่จะเป็นวิธีการที่ DeepSeek สร้างกระแสตอบรับอย่างท่วมท้น
  • DeepSeek ทำงานในลักษณะเดียวกันกับบริษัทจีนอื่นๆ หลายแห่ง ซึ่งแตกต่างจากบริษัทอเมริกันในสองประเด็นสำคัญคือ 1) บริษัทจีนมักใช้ฮาร์ดแวร์ที่ถูกกว่าและใช้ประโยชน์จากสถาปัตยกรรมแบบเปิด (ด้วยเหตุนี้จึงถูกกว่า) เพื่อลดต้นทุน และ 2) LLM (large language models) ของจีนจำนวนมากได้รับการปรับแต่งให้เหมาะกับการใช้งานเฉพาะโดเมน (ที่แคบกว่า ไม่ใช่การทำงานทั่วไป)
  • ทฤษฎีการจัดการยังให้ข้อมูลเกี่ยวกับวิธีที่บริษัทควรดำเนินการต่อไปจากจุดนี้คือ การใช้โมเดล LLM หลายโมเดลภายในองค์กรคือการกระจายความเสี่ยง ข้อดีของการทำงานร่วมกับผู้ส่งมอบรายเดียวคือลดต้นทุนการบริหาร และการบริหารจัดการแบบพหุภาคี ซึ่งเกี่ยวข้องกับการใช้ผู้ส่งมอบภายนอกและนักพัฒนาภายในร่วมกัน เพื่อใช้ประโยชน์จากเทคโนโลยีใหม่ ๆ

DeepSeek

  • DeepSeek ซึ่งเป็นบริษัทสตาร์ทอัพด้าน AI ของจีนที่สร้างความประหลาดใจให้กับผู้คนจำนวนมาก โดยโมเดลใหม่ของบริษัทซึ่งเปิดตัวเมื่อวันที่ 20 มกราคมที่ผ่านมา (พ.ศ. 2568) สามารถแข่งขันกับโมเดลจากบริษัท AI ชั้นนำของอเมริกา เช่น OpenAI และ Meta ได้ แม้ว่าจะมีขนาดเล็กกว่า แต่มีประสิทธิภาพมากกว่า และมีต้นทุนในการฝึกและดำเนินการที่ถูกกว่ามาก
  • อย่างไรก็ตาม ความสำเร็จของบริษัทจีนอาจได้รับการทำนายโดยทฤษฎีการจัดการ โดยเฉพาะทฤษฎีของนวัตกรรมการหยุดชะงัก (disruptive innovation) เพราะนวัตกรรมการหยุดชะงักคือทางเลือกที่มีต้นทุนต่ำซึ่งไม่ทันสมัยแต่มีประสิทธิภาพเพียงพอสำหรับผู้ใช้จำนวนมาก ดูเหมือนว่า นี่จะเป็นวิธีการที่ DeepSeek สร้างกระแสที่ท้าทายสมมติฐานบางประการของอุตสาหกรรม AI ของอเมริกา และทำให้หุ้นเทคโนโลยีและพลังงานร่วงลง
  • หากทฤษฎีการจัดการสามารถช่วยอธิบายสิ่งที่เพิ่งเกิดขึ้นได้ ทฤษฎีนี้ยังให้ข้อมูลเชิงลึกเกี่ยวกับสิ่งที่เราอาจดำเนินการต่อไปจากจุดนี้ได้อีกด้วย โดยอาศัยทฤษฎีการเปลี่ยนแปลงทางเทคโนโลยี ซึ่งเน้นย้ำถึงผลกระทบที่การเปลี่ยนแปลงครั้งนี้ส่งผลต่อบริษัทระดับโลกอย่างไร ขณะที่ผู้นำของบริษัทเหล่านี้กำลังดิ้นรนหาทางว่า จะใช้โมเดลภาษาขนาดใหญ่ (LLM: large language models) ของจีนหรืออเมริกา หรือจะเปิดทางเลือกอื่นๆ ไว้

ความแตกต่างระหว่าง LLM ของจีนและอเมริกัน

  • สิ่งสำคัญที่ต้องชี้ให้เห็นก่อนก็คือ LLM (large language models) ของจีนนั้นแตกต่างจาก LLM ของอเมริกาในสองประเด็นสำคัญคือ 1) มักใช้ฮาร์ดแวร์ที่ถูกกว่าและใช้สถาปัตยกรรมแบบเปิด (และด้วยเหตุนี้จึงถูกกว่า) เพื่อลดต้นทุน และ 2) LLM ของจีนจำนวนมากได้รับการปรับแต่งให้เหมาะกับการใช้งานเฉพาะโดเมน (แคบกว่า) และไม่ใช่สำหรับงานทั่วไป อย่างไรก็ตาม โมเดลเช่น DeepSeek-R1 กำลังกลายมาเป็นโมเดลการใช้เหตุผลแบบทั่วไปมากขึ้น
  • โดยทั่วไปแล้วแบบจำลอง LLM ของอเมริกาจะได้รับการฝึกอบรมบนคลัสเตอร์ GPU ที่ทันสมัยที่สุด ซึ่งประกอบด้วยชิปขั้นสูงที่สุดของ NVIDIA จำนวนหลายหมื่นตัว และต้องใช้การลงทุนและโครงสร้างพื้นฐานคลาวด์จำนวนมหาศาล ในทางตรงกันข้าม แบบจำลอง LLM ของจีนส่วนใหญ่จึงพึ่งพาการฝึกอบรมแบบกระจายไปยัง GPU ที่มีประสิทธิภาพน้อยกว่า (เนื่องมาจากการควบคุมการส่งออกชิปขั้นสูงของอเมริกา) อย่างไรก็ตาม พวกเขายังมีประสิทธิภาพที่สามารถแข่งขันได้ ตัวอย่างเช่น สถาปัตยกรรม Multi-Head Latent Attention (MLA) และ Mixture of Experts (MOE) ของ DeepSeek ได้รับการออกแบบมาเพื่อลดการใช้หน่วยความจำ ช่วยให้ใช้ทรัพยากรคอมพิวเตอร์ได้อย่างมีประสิทธิภาพมากขึ้น
  • การนำฐานโค้ดโอเพ่นซอร์สมาใช้ ยังมีบทบาทสำคัญในการพัฒนา LLM ของจีนอีกด้วย DeepSeek-V3 ซึ่งเป็นโมเดลพื้นฐานที่ขับเคลื่อนระบบการใช้เหตุผลล่าสุด และ DeepSeek-R1 ได้รับการเผยแพร่ภายใต้ใบอนุญาตโอเพ่นซอร์สของ MIT ซึ่งใบอนุญาตนี้ส่งเสริมการนำไปใช้อย่างแพร่หลายโดยอนุญาตให้ผู้ใช้ใช้งาน แก้ไข และแจกจ่ายซอฟต์แวร์ได้อย่างอิสระ รวมถึงเพื่อวัตถุประสงค์เชิงพาณิชย์ โดยมีข้อจำกัดเพียงเล็กน้อย ข้อได้เปรียบของสถาปัตยกรรมที่มีประสิทธิภาพและแนวทางโอเพ่นซอร์สนี้ เห็นได้ชัดที่สุดเมื่อเปรียบเทียบต้นทุนการฝึกอบรมคือ DeepSeek รายงานว่า มีค่าใช้จ่าย 5.6 ล้านดอลลาร์ (สำหรับ V3) เมื่อเทียบกับ 40 ถึง 200 ล้านดอลลาร์ บริษัท AI ของสหรัฐฯ เช่น OpenAI และ Alphabet
  • นอกจากนี้ ในขณะที่โมเดลของสหรัฐฯ ให้ความสำคัญกับแบบสอบถามวัตถุประสงค์ทั่วไปที่ฝึกอบรมบนชุดข้อมูลที่มีแหล่งที่มาจากทั่วโลกจำนวนมาก แต่ LLM ของจีนจำนวนมากยังได้รับการออกแบบมาให้มีความแม่นยำเฉพาะโดเมนอีกด้วย ยักษ์ใหญ่ด้านเทคโนโลยีของจีน เช่น Alibaba, Tencent, Baidu และ ByteDance รวมถึงสตาร์ทอัพที่เพิ่งเกิดใหม่ เช่น DeepSeek นำเสนอแอปพลิเคชันเฉพาะอุตสาหกรรมที่ขับเคลื่อนโดย LLM ของพวกเขา ซึ่งผสานรวมอย่างลึกซึ้งกับระบบนิเวศดิจิทัลของจีน
  • โดยสรุปแล้ว LLM ของจีนจะพึ่งพาฮาร์ดแวร์ขั้นสูงน้อยกว่าและมุ่งเน้นไปที่แอปพลิเคชันระดับล่างเป็นหลัก ซึ่งมีความเฉพาะเจาะจงมากกว่าและมีวัตถุประสงค์ทั่วไปน้อยกว่า ใช้พลังในการคำนวณน้อยกว่า ซึ่งหมายความว่า LLM ของจีนหลายตัวมีราคาที่ต่ำกว่า ตัวอย่างเช่น Qwen plus ของ Alibaba และ Doubao 1.5-pro ของ ByteDance มีราคาต่ำกว่า 0.30 ดอลลาร์ต่อ 1 ล้านโทเค็นของเอาต์พุต เมื่อเทียบกับ OpenAIo1 และ Claude 3.5 Opus ของ Anthropic ซึ่งมีราคาสูงกว่า 60 ดอลลาร์
  • นี่คือทฤษฎีการหยุดชะงัก (disruption theory) แบบคลาสสิก เป็นวิธีการที่โรงงานขนาดเล็กทำให้โรงงานเหล็กแบบครบวงจรหยุดชะงักเมื่อหลายทศวรรษก่อน ทฤษฎีการหยุดชะงักคาดการณ์ว่า เทคโนโลยีที่ด้อยกว่าในช่วงเริ่มต้น (เช่น เตาเผาไฟฟ้า) ซึ่งปรับแต่งให้เหมาะกับงานระดับล่างเฉพาะ (เช่น การผลิตเหล็กสำหรับเหล็กเส้นคุณภาพต่ำ) จะกลายเป็นภัยคุกคามต่อผู้ผลิตระดับสูง (เช่น โรงงานเหล็กแบบครบวงจร) ซึ่งมุ่งเน้นแต่ลูกค้าระดับสูงที่ให้มาร์จิ้นสูงกว่า (เช่น ลูกค้าของเหล็กแผ่นคุณภาพสูง) ผู้ผลิตที่หยุดชะงักจะค่อยๆ ปรับปรุงคุณภาพของผลิตภัณฑ์อย่างช้าๆ และสม่ำเสมอ และผู้ดำเนินการเดิมเสียส่วนแบ่งการตลาดให้กับผู้ผลิตที่หยุดชะงัก
  • ทฤษฎีการหยุดชะงักได้ทำนายการเกิดขึ้นและวิวัฒนาการของ DeepSeek และประเภทเดียวกัน ซึ่งในความเป็นจริง จะไม่น่าแปลกใจเลย หากการหยุดชะงักอื่นๆ จะเกิดขึ้นในอีกไม่กี่เดือนข้างหน้า โดยเฉพาะอย่างยิ่งโมเดลภาษาขนาดเล็ก (SLM: small language models) ซึ่งใช้ข้อมูลและทรัพยากรน้อยกว่า และให้เนื้อหาที่มีคุณภาพต่ำกว่า อาจเป็นอีกเทคโนโลยีหนึ่งที่ท้าทายทั้ง LLM ของอเมริกาและจีนในอีกไม่กี่เดือนข้างหน้า

เราจะไปต่อจากนี้ได้อย่างไร?

  • การเกิดขึ้นของ DeepSeek ทำให้เกิดคำถามสำหรับคณะกรรมการบริหารทั่วโลกว่า บริษัทต่างๆ ควรลงทุนใน LLM ของอเมริกาหรือของจีน หรือทั้งสองอย่างกันแน่ นอกจากนี้ ข้อมูลเชิงลึกของฝ่ายบริหารก่อนหน้านี้ โดยเฉพาะเกี่ยวกับการนำทางสู่การกระจายความเสี่ยงทางเทคโนโลยี ยังมีประโยชน์อีกด้วย
  • ข้อดีของการมีโมเดล LLM หลายโมเดลที่นำไปใช้ภายในองค์กรคือการกระจายความเสี่ยง ด้วยโมเดล LLM จะทำให้สามารถบรรเทาผลกระทบจากเวลาหยุดทำงานของผู้ให้บริการได้ ตัวอย่างเช่น หากบริการ OpenAI ได้รับผลกระทบด้วยเหตุผลบางประการ ธุรกิจก็สามารถดำเนินการต่อไปได้โดยใช้โมเดลของผู้ให้บริการรายอื่น
  • ประโยชน์อีกประการหนึ่งของการใช้โมเดลหลายตัวมาจากประโยชน์ของการรวมข้อมูล โมเดลที่แตกต่างกันใช้อัลกอริทึมที่แตกต่างกัน และด้วยเหตุนี้จึงให้คำตอบที่แตกต่างกันสำหรับคำถามเดียวกัน การศึกษาพบว่าการรวมข้อมูลระหว่างโมเดลหลายตัวและแหล่งที่มาของการคาดการณ์หลายแหล่ง ซึ่งเป็นแนวทางที่นักวิจัยเรียกว่า "การรวมข้อมูลเข้าด้วยกัน (ensembling)" มักจะให้ผลลัพธ์ที่มีคุณภาพดีกว่า โดยเฉพาะอย่างยิ่งกับงานที่ซับซ้อนและคลุมเครือ แท้จริงแล้ว แพลตฟอร์มอย่าง Openrouter ซึ่งเป็นผู้รวบรวมโมเดล AI ที่เพิ่งก่อตั้งใหม่ในสหรัฐอเมริกา มีอินเทอร์เฟซแบบบูรณาการ ที่ให้ผู้ใช้เปรียบเทียบประสิทธิภาพและต้นทุนของโมเดลมากกว่า 180 โมเดลแบบเรียลไทม์ ด้วยค่าธรรมเนียมเพียงเล็กน้อย
  • ในทางกลับกัน ข้อดีของการทำงานร่วมกับผู้ส่งมอบรายเดียวคือลดต้นทุนการบริหาร และเข้าใจความสามารถทั้งสองฝ่ายเพื่อความร่วมมือได้ดีขึ้น การใช้โมเดลหลายแบบจะเพิ่มความเสี่ยงต่อความเป็นส่วนตัวและความปลอดภัยของข้อมูล เนื่องจากข้อมูลอาจต้องแบ่งปันกับผู้ให้บริการหลายราย แม้ว่าความกังวลหลายประการเหล่านี้จะแพร่หลายไปทั่ว LLM รวมถึงในสหรัฐอเมริกา แต่การเข้าถึงข้อมูลและการใช้ข้อมูลระหว่างประเทศ เช่น ระหว่างสหรัฐอเมริกาและจีน (ซึ่งแต่ละประเทศมีกรอบการกำกับดูแลของตนเอง) จะเพิ่มความซับซ้อนอีกชั้นหนึ่ง ซึ่งอาจเป็นปัญหาได้ โดยเฉพาะอย่างยิ่งในแอปพลิเคชันที่ละเอียดอ่อน เช่น การดูแลสุขภาพ
  • ทฤษฎีการจัดการก่อนหน้านี้เกี่ยวกับการเปลี่ยนแปลงทางเทคโนโลยีและการกระจายความเสี่ยงยังแนะนำความเป็นไปได้ที่สามนอกเหนือจากแหล่งเดียวหรือหลายแหล่งคือ การบริหารแบบพหุภาคี การบริหารแบบพหุภาคีเกี่ยวข้องกับการใช้ผู้ส่งมอบภายนอกและนักพัฒนาภายในร่วมกันเพื่อใช้ประโยชน์จากเทคโนโลยีใหม่ ๆ ในความเป็นจริง การวิจัยทางเศรษฐศาสตร์ก่อนหน้านี้ได้โต้แย้งกันมานานแล้วว่าบริษัทที่พัฒนาทุนมนุษย์ภายใน มีแนวโน้มที่จะได้รับประโยชน์สูงสุดจากการเกิดขึ้นของเทคโนโลยีใหม่ ในกรณีของโมเดลภาษา อาจหมายถึงการใช้ LLM ของอเมริกาสำหรับงานทั่วไป (เช่น การพัฒนาบอทที่ช่วยในการวิจัยสำหรับที่ปรึกษาหรือทนายความในบริษัทให้บริการเฉพาะทาง) และการใช้ประโยชน์จาก LLM ของจีนสำหรับงานเฉพาะบริษัท (เช่น บอทฝึกอบรมทรัพยากรบุคคลที่ช่วยต้อนรับพนักงานใหม่)
  • หากพิจารณาให้ลึกลงไปอีก โมเดล LLM แบบโอเพ่นซอร์สมีต้นทุนต่ำกว่าซึ่งมีข้อกำหนดข้อมูลการฝึกอบรมที่น้อยกว่า แม้ว่าจะมีความสามารถน้อยกว่าโมเดลแบบปิดก็ตาม จะช่วยให้บริษัทต่างๆ สามารถพัฒนาโมเดลเฉพาะบริษัทที่เหมาะกับบริบทของตนได้ อย่างไรก็ตาม เมื่อเวลาผ่านไป โมเดลที่มีต้นทุนต่ำกว่าและคุณภาพต่ำกว่าเหล่านี้ มีแนวโน้มที่จะเข้ามาแทนที่โมเดลที่มีต้นทุนสูงกว่า เช่นเดียวกับโรงงานขนาดเล็กที่เข้ามาแทนที่โรงงานเหล็กแบบครบวงจรในทุกกลุ่มตลาด
  • แม้จะมีข้อกังวลเรื่องความเป็นส่วนตัวและความปลอดภัยของข้อมูล และมีเหตุการณ์ TikTok เกิดขึ้นเมื่อไม่นานมานี้ แต่ LLM ของอเมริกาได้เพิกเฉยต่อภัยคุกคามจาก LLM ของจีนที่เข้ามาเปลี่ยนแปลงธุรกิจ ซึ่งถือเป็นอันตรายสำหรับพวกเขาเอง อย่างน้อยที่สุด พวกเขาควรกลัวการเกิดขึ้นของผู้ที่เข้ามาเปลี่ยนแปลงธุรกิจในอเมริกาที่ใช้ SLM รวมถึงแนวทางอื่นๆ บริษัท AI ขนาดใหญ่ของอเมริกาอาจพยายามเปลี่ยนแปลงธุรกิจของตัวเอง (เช่น GE พัฒนาอัลตร้าซาวด์แบบพกพาเพื่อเปลี่ยนแปลงธุรกิจอัลตร้าซาวด์ที่มีราคาแพงกว่า) แม้ว่าการวิจัยจะชี้ให้เห็นว่า การเปลี่ยนแปลงธุรกิจด้วยตัวเองนั้นยากมากก็ตาม โดยเฉพาะอย่างยิ่งความเข้าใจผิดเรื่องต้นทุนจมที่เกี่ยวข้องกับการลงทุนก่อนหน้านี้ (ในชิป ฮาร์ดแวร์ และข้อมูลการฝึกอบรมที่มีราคาแพง และแรงจูงใจในการขายโซลูชันที่มีอัตรากำไรสูง) อาจผูกมัดบริษัท AI ของอเมริกาส่วนใหญ่ไว้กับ LLM ระดับไฮเอนด์ แทนที่จะลงทุนใน LLM ที่ถูกกว่าแต่ "ดีพอ"
  • สำหรับบริษัทระดับโลกที่ใช้ LLM แบบหยุดชะงัก จะเป็นการเปิดประตูสู่การลงทุนด้านทักษะภายในและการพัฒนาโมเดลเฉพาะบริษัท ที่อาจนำไปสู่การใช้งานแบบมีเป้าหมายมากขึ้น ต้นทุนที่ต่ำลง และผลตอบแทนจากการลงทุน (ROI) ที่สูงขึ้น

Take Home Messages

  • บทความนี้เกี่ยวกับความสำเร็จของบริษัทจีนชื่อ DeepSeek ที่สามารถสร้างโมเดล AI ที่มีขนาดเล็กกว่า มีประสิทธิภาพมากกว่า และมีราคาถูกกว่าบริษัทอเมริกันชื่อดัง เช่น OpenAI และ Meta
  • บริษัท DeepSeek ใช้ฮาร์ดแวร์ราคาถูกและสถาปัตยกรรมเปิดเพื่อประหยัดค่าใช้จ่าย และโมเดล AI ของพวกเขามุ่งเน้นการใช้งานเฉพาะด้านมากกว่างานทั่วไป ทฤษฎีการจัดการได้แนะนำว่าการเปลี่ยนแปลงนี้เป็นไปได้เพราะการนวัตกรรมแบบหยุดชะงัก
  • ในทางปฏิบัติ หลายบริษัทมีทางเลือกในการใช้โมเดล LLM จากทั้งสองแหล่ง ซึ่งสามารถช่วยลดความเสี่ยงและเพิ่มประสิทธิภาพในการทำงาน ซึ่งมีข้อได้เปรียบในการใช้โมเดลหลายแบบพร้อมกันเพื่อให้ได้ผลลัพธ์ที่ดีกว่า รวมถึงข้อดีของการลดต้นทุนการบริหารและการเข้าใจความสามารถของทั้งสองฝ่าย
  • สุดท้าย ทฤษฎีการหยุดชะงักทางเทคโนโลยีได้แนะนำว่า บริษัทควรใช้การผสมผสานของผู้ส่งมอบภายนอกและนักพัฒนาภายใน เพื่อใช้เทคโนโลยีที่เกิดใหม่ให้เกิดประโยชน์สูงสุด

*******************************