การเปิดตัว ChatGPT ในเดือนพฤศจิกายน 2022 ได้เปิดหูเปิดตาของผู้เล่นในอุตสาหกรรมต่างๆ ถึงโมเดลภาษาขนาดใหญ่ AI ไดนามิกที่บ้าคลั่งนี้แทรกซึมเข้าไปในพื้นที่ Crypto และบทความนี้มีจุดมุ่งหมายเพื่อแนะนําการพัฒนา AI สถานะปัจจุบันและอุตสาหกรรมที่เกิดขึ้นจากการรวมกันของ AI + Crypto
Machine learning (ML) เป็นเทคโนโลยีที่มีความสามารถในการเรียนรู้จากประสบการณ์ ซึ่งเรียนรู้ในการแยกแยะสัตว์ การแปลภาษา และงานที่เฉพาะเจาะจงอื่น ๆ โดยการเรียนรู้จากชุดข้อมูลขนาดใหญ่ Machine learning เป็นวิธีที่เป็นปฏิบัติที่สุดสำหรับการเรียนรู้ปัจจุบัน ตามว่าข้อมูลที่เรียนรู้มีป้ายชื่อหรือไม่และลักษณะมันสามารถแบ่งเป็นการเรียนรู้ซึ่งกำกับและการเรียนรู้ที่ไม่ได้รับการกำกับ
มีหลายประเภทของโมเดลที่สามารถทำ supervised learning ได้ รวมถึงโมเดลที่ใช้ต้นไม้, โมเดลกราฟ, และ neural networks ที่เพิ่งปรากฏออกมาเร็ว ๆ นี้ ด้วยการพัฒนาประสิทธิภาพการคำนวณและข้อมูลอย่างรวดเร็ว, deep learning ได้รับการพัฒนาต่อไปโดยอิงจากโครงสร้างของ neural networks โครงสร้าง deep learning ปัจจุบันรวมถึง, แต่ไม่จำกัดอยู่ที่, CNNs, RNNs, และ mechanism การให้ความสนใจ
การจำแนกประเภทของการเรียนรู้ของเครื่อง, แหล่งที่มา: ทุน HashKey
เครือข่ายการเรียนรู้เชิงลึกที่แตกต่างกันมีสถาปัตยกรรมพื้นฐานของเลเยอร์อินพุตเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาต์พุตเลเยอร์อินพุตมักจะเป็นข้อความวิดีโอเสียงและข้อมูลอื่น ๆ หลังจากได้รับการประมวลผล เลเยอร์ที่ซ่อนอยู่มีการออกแบบที่แตกต่างกัน (รูปร่างแบบจําลอง) ขึ้นอยู่กับชุดข้อมูลและวัตถุประสงค์ของงานดังที่แสดงในตาราง
ประเภทของเครือข่ายประสาท ที่มา: จัดระเบียบโดย HashKey Capital
30 ปีของการพัฒนาเครือข่ายประสาท ที่มา: จัดโดย HashKey Capital
การฝึกโครงข่ายประสาทเทียมมีต้นกำเนิดครั้งแรกในช่วงกลางของปี ค.ศ. 1980 เมื่อจอร์แดนฝึกโครงข่ายประสาทเพื่อเรียนรู้รูปแบบตามลำดับในบทความปี 1986 ของเขาลำดับซีเรียล: วิธีการประมวลผลแบบกระจายขนาดใหญ่เครือข่ายขนาดเล็กมีนิวรอนเพียงไม่กี่ตัว
ในปี 1990 Jeffrey Ehrman ขยายเครือข่ายประสาทเป็นเครือข่าย 50 นิวรอนพบว่าเครือข่ายจัดกลุ่มคำตามความหมายทางพื้นที่ เช่น แยกคำนามที่ไม่มีชีวิตและมีชีวิต และภายในหมวดหมู่นี้ วัตถุที่มีชีวิตถูกแบ่งเป็นหมวดหมู่มนุษย์และไม่มนุษย์ และวัตถุที่ไม่มีชีวิตถูกจำแนกเป็นที่สามารถแตกและที่สามารถกิน ซึ่งแสดงให้เห็นว่าเครือข่ายสามารถเรียนรู้การอธิบายแบบชั้นย่อย
เขายังสังเกตเห็นว่าคำสามารถแสดงให้เห็นเป็นจุดในพื้นที่มิติสูง และจากนั้นลำดับของคำหรือประโยคสามารถมองเห็นเป็นเส้นทาง การเจริญใหญ่นี้ช่วยให้ชุดข้อมูลที่เป็นข้อความสามารถถูกดิจิทัล, มีเวกเตอร์, และประมวลผลโดยคอมพิวเตอร์
ที่มา: http://3b1b.co/neural-networks
ในปี 2011 นักวิจัย Confluence ได้ฝึกฝนเครือข่ายขนาดใหญ่ที่มีพันธะพันธุ์พันโตที่เกี่ยวข้องและล้าหลังพบว่ามีปัญหาในการศึกษาในความสามารถของเครือข่ายในการรักษาบริบทที่สมเหตุสมผลตลอดช่วงเวลายาว
ในปี 2017 OpenAI พัฒนาต่อจากงานของ Kathy โดยการฝึกอบรมด้วยรีวิว Amazon 82 ล้านรีวิว โดยพบว่ามีเซลล์ประสาทที่เชื่อมโยงกับอารมณ์ของข้อความได้อย่างละเอียด
Source: การเรียนรู้ในการสร้างรีวิวและค้นพบอารมณ์
เกี่ยวกับข้อจำกัดของขนาดบริบทที่ กระดาษ 2017 Attention Is All You Need นำเสนอวิธีการแก้ปัญหา กระดาษสร้างเครือข่ายเลเยอร์ไดนามิคที่ปรับน้ำหนักการเชื่อมต่อขึ้นอยู่กับบริบทของเครือข่าย มันทำงานโดยอนุญาตให้คำในอินพุตมอง จับคู่คำอื่น ๆ และค้นหาคำที่เกี่ยวข้องที่สุด คำเหล่านี้เมื่ออยู่ใกล้กันตามแนวความคิดมากขึ้น ก็สามารถมีน้ำหนักการเชื่อมต่อสูงขึ้น อย่างไรก็ตาม กระดาษเฉพาะกล่าวถึงปัญหาการแปลเท่านั้น
ดังนั้น นักวิจัย OpenAI ได้ลองใช้โครงสร้าง transformer ที่มีกำลังการทำงานมากกว่าและเปิดตัว GPT-3 ในปี 2020 ซึ่งได้ดึงดูดความสนใจจากอุตสาหกรรมทั่วโลก ในครั้งนี้กับเครือข่ายที่มีพารามิเตอร์รวม 175 พันล้าน ชั้นของ 96 ชั้น และหน้าต่างบริบท 1,000 คำ
เรียกดูภาพดิจิตอลขนาด 28x28 พิกเซลต่อไปนี้เป็นตัวอย่าง นิวรอนสมควรตรงกับแต่ละพิกเซลของภาพนำเข้าขนาด 28x28 ทั้งหมด 784 นิวรอน ตัวเลขในนิวรอนคือค่าการกระตุ้นซึ่งมีช่วงค่าตั้งแต่ 0–1
รูปภาพดิจิตอลขนาด 28x28 พิกเซล, ที่มา: http://3b1b.co/neural-networks
เซลล์ประจำนิวรอน 784 เซลล์เป็นชั้นนำของเครือข่าย ชั้นสุดท้ายคือชั้นเอาท์พุต ซึ่งประกอบด้วยนิวรอนสิบตัวที่แทนตัวเลข 0–9 อีกครั้งด้วยค่าการเปิดใช้งานที่ห่างกัน 0–1 ชั้นกลางคือชั้นซ่อนที่ค่าการเปิดใช้งานของชั้นก่อนหน้ากำหนดค่าการเปิดใช้งานของชั้นถัดไปขณะที่เครือข่ายประสานปฏิบัติการ
ความลึกของการเรียนรู้ลึกอยู่ที่ตรงที่โมเดลเรียนรู้ชั้นมากมายของการแปลงข้อมูลแต่ละชั้นที่มีการแสดงผลต่างกัน ดังที่แสดงในภาพด้านล่าง เช่นใน 9 ชั้นที่แตกต่างกันสามารถรู้จำลักษณะที่แตกต่างกัน ยิ่งชั้นข้อมูลนำเข้าเข้าใกล้ชั้นระดับล่างของข้อมูลมากเท่าใด ยิ่งชั้นผลลัพธ์เข้าใกล้กับแนวคิดที่เฉพาะเจาะจงมากขึ้นที่สามารถใช้แยกแยะ
ต้นฉบับ: http://3b1b.co/neural-networks
เมื่อโมเดลใหญ่ขึ้น ชั้นที่ซ่อนอยู่ตรงกลางเกี่ยวข้องกับน้ำหนักที่มีร้อยละของพันล้านต่อชั้น และคือน้ำหนักและความเอียงเหล่านี้ที่จะกำหนดว่าเครือข่ายกำลังทำอะไรในความเป็นจริง กระบวนการของการเรียนรู้ของเครื่องคือกระบวนการค้นหาพารามิเตอร์ที่ถูกต้องซึ่งคือน้ำหนักและความเอียง
โครงสร้างการแปลงใช้ใน GPT โมเดลภาษาขนาดใหญ่ มีชั้นซ่อนตัวกลางที่ประกอบด้วยโมดูลการถอดรหัส 96 ชั้นซึ่ง GPT1, GPT2 และ GPT3 มี 12, 48 และ 96 ชั้นตามลำดับ ตัวถอดรหัสมีองค์ประกอบของเครือข่ายประสาทที่สนใจและส่งกลับไปยังข้างหน้า
การประมวลผลหรือการเรียนรู้เกี่ยวกับการกำหนดฟังก์ชันต้นทุน (หรือฟังก์ชันขาดทุน) ซึ่งรวมผลรวมของสี่เหลี่ยมของความแตกต่างระหว่างค่าทำนายผลลัพธ์ของเครือข่ายและค่าจริง ๆ และเมื่อผลรวมเล็ก ๆ น้อย ๆ โมเดลจะทำงานอยู่ภายใต้ขีดจำกัดที่ยอมรับได้
การฝึกอบรมเริ่มต้นด้วยการกำหนดพารามิเตอร์ของเครือข่ายในลักษณะสุ่มและการสรุปผลของพารามิเตอร์ของเครือข่ายโดยการค้นหาพารามิเตอร์ที่ลดค่าฟังก์ชันต้นทุน วิธีในการทำให้ฟังก์ชันต้นทุนรวมคือด้วยการคลี่ร์เดสเซนต์ โดยซึ่งจะตรวจสอบระดับผลกระทบของการเปลี่ยนแปลงพารามิเตอร์แต่ละตัวต่อค่าทุน/สูญเสีย และจากนั้นจะปรับปรุงพารามิเตอร์ตามระดับผลกระทบนั้น
กระบวนการคำนวณค่าเกรเดียนทำให้มีการถอยกลับหรือการถอยกลับซึ่งวิ่งผ่านเครือข่ายจากเลเยอร์เอาต์พุทไปยังเลเยอร์อินพุทในลำดับกลับตามกฎเชน อัลกอริทึมยังต้องการการจัดเก็บตัวแปรกลาง (อนุพันธ์บางส่วน) ที่จำเป็นสำหรับการคำนวณเกรเดียน
มีปัจจัยหลัก 3 ปัจจัยที่มีผลต่อประสิทธิภาพของโมเดลขนาดใหญ่ที่ใช้ในการฝึก AI ระบบภาษา คือ จำนวนพารามิเตอร์ของโมเดล ขนาดของชุดข้อมูล และปริมาณการคำนวณ
แหล่งที่มา: รายงาน OpenAI, กฎหมายสำหรับโมเดลภาษาประสาน神經
นี่สอดคล้องกับการพัฒนาข้อมูลและคอมพิวเตอร์ (กำลังคำนวณ) ในโลกของความเป็นจริง แต่ก็สามารถเห็นได้จากตารางด้านล่างว่า กำลังคำนวณกำลังเติบโตเร็วกว่าข้อมูลที่มีอยู่ ในขณะที่หน่วยความจำเป็นจะเติบโตช้าที่สุด
การพัฒนาของชุดข้อมูล ความจำ และกำลังคำนวณ แหล่งที่มา: https://github.com/d2l-ai
เมื่อต้องเผชิญกับโมเดลขนาดใหญ่ overfitting มีแนวโน้มที่จะเกิดขึ้นเมื่อข้อมูลการฝึกอบรมมีขนาดเล็กเกินไปและโดยทั่วไปความแม่นยําของแบบจําลองที่ซับซ้อนมากขึ้นจะดีขึ้นเมื่อปริมาณข้อมูลเพิ่มขึ้น เกี่ยวกับข้อกําหนดข้อมูลที่จําเป็นสําหรับโมเดลขนาดใหญ่สามารถตัดสินใจได้ตามกฎ 10 ซึ่งชี้ให้เห็นว่าปริมาณข้อมูลควรเป็น 10 เท่าของพารามิเตอร์ แต่อัลกอริธึมการเรียนรู้เชิงลึกบางอย่างใช้ 1: 1
การเรียนรู้ภายใต้การควบคุม ต้องใช้ชุดข้อมูลที่มีป้ายชื่อและคุณลักษณะเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง
Source: Fashion-MNIST ชุดข้อมูลการจำแนกประเภทเสื้อผ้า
ถึงกระแสการเพิ่มขึ้นอย่างรวดเร็วของข้อมูลในรอบ 1-2 ทศวรรษที่ผ่านมาและชุดข้อมูลแบบโอเพนซอร์สที่มีให้ใช้งานรวมถึง Kaggle, Azure, AWS, Google database ฯลฯ ข้อมูลที่จำกัด น้อย และมีราคาแพงกำลังกลายเป็นข้อจำกัดสำคัญสำหรับการพัฒนา AI เนื่องจากปัญหาเรื่องความเป็นส่วนตัว เพิ่มพารามิเตอร์โมเดล และการทำให้ข้อมูลสามารถทำซ้ำได้ มีการนำเสนอวิธีการแก้ปัญหาด้านข้อมูลต่าง ๆ เพื่อลดปัญหานี้
เทคนิคการขยายข้อมูลอาจเป็นวิธีการที่มีประสิทธิภาพโดยการให้ข้อมูลไม่เพียงพอให้กับโมเดลโดยไม่ต้องเก็บตัวอย่างใหม่ เช่นการปรับขนาด การหมุน การสะท้อน การตัด การแปลง การเพิ่มเสียงรบกวน Gaussian การผสมเข้าด้วยกัน เป็นต้น
ข้อมูลสังเคราะห์เป็นตัวเลือกอีกอย่าง ข้อมูลสังเคราะห์คือข้อมูลที่สามารถสร้างขึ้นได้ด้วยการจำลองคอมพิวเตอร์หรืออัลกอริทึมโดยมีหรือไม่มีชุดข้อมูลอ้างอิงก่อนหน้า ในเชิงพัฒนาเครื่องมือสำหรับสร้างข้อมูลสังเคราะห์ Ian J. Goodfellow ประดิษฐ์ Generative Adversarial Network (GAN) ซึ่งเป็นสถาปัตยกรรมการเรียนรู้เชิงลึก
มีการฝึกสอนระบบประสาทสองระบบให้แข่งขันกัน ซึ่งสามารถสร้างข้อมูลใหม่ที่สมจริงมากขึ้นจากชุดข้อมูลการฝึกที่กำหนดให้ โครงสร้างรองรับการสร้างภาพ เติมข้อมูลที่ขาดหายไป สร้างข้อมูลฝึกสำหรับโมเดลอื่น ๆ สร้างโมเดล 3 มิติจากข้อมูล 2 มิติ และอื่น ๆ
ยังเร็วไปในการพัฒนาด้านนี้ โดยบริษัทที่มีอยู่ส่วนใหญ่ที่ทำข้อมูลสังเคราะห์ถูกสร้างขึ้นในปี 2021 หรือ 2022 และบางส่วนในปี 2023
สถานะการจัดหาเงินทุนสำหรับบริษัทข้อมูลสังเคราะห์ ที่มา : https://frontline.vc/blog/synthetic-data/
กระบวนการฝึก AI เกี่ยวข้องกับการดำเนินการเมทริกซ์จำนวนมาก ตั้งแต่การฝังคำ, การเปลี่ยนวงจร QKV ของ transformer, ไปจนถึงการดำเนินการ softmax, และอื่น ๆ ผ่านการดำเนินการเมทริกซ์ พารามิเตอร์โมเดลทั้งหมดก็ถูกพกพาในเมทริกซ์ด้วย
ตัวอย่างฐานข้อมูลเวกเตอร์, Source : https://x.com/ProfTomYeh/status/1795076707386360227
โมเดลขนาดใหญ่นำมาซึ่งความต้องการที่มีขนาดใหญ่ของฮาร์ดแวร์คอมพิวเตอร์ ซึ่งส่วนใหญ่จะถูกจำแนกเป็นการฝึกและการสรุป
การฝึกก่อนและปรับปรุงสามารถแบ่งออกเป็นส่วนย่อยได้อีก ดังที่กล่าวไว้ก่อนหน้า การสร้างโมเดลเครือข่ายต้องเริ่มต้นด้วยการกำหนดค่าพารามิเตอร์ให้สุ่มก่อน จากนั้นค่อยทำการฝึกเครือข่ายและปรับค่าพารามิเตอร์อย่างต่อเนื่องจนกระทั่งค่าสูญเสียของเครือข่ายอยู่ในช่วงที่ยอมรับได้ ความแตกต่างระหว่างการฝึกก่อนและปรับปรุงคือ
การฝึกก่อนการฝึกที่เริ่มต้นด้วยพารามิเตอร์ของแต่ละเลเยอร์จากการเริ่มต้นแบบสุ่ม ในขณะที่บางเลเยอร์ของการปรับปรุงเสร็จสิ้นสามารถใช้พารามิเตอร์ของโมเดลที่เทรนไว้ก่อนหน้าเป็นพารามิเตอร์เริ่มต้นสำหรับงานนี้ได้โดยตรง (การตรึงพารามิเตอร์ของเลเยอร์ก่อนหน้าและมีผลกับชุดข้อมูลที่เฉพาะเจาะจง)
Source: https://d2l.ai/chapter_computer-vision/fine-tuning.html
การฝึกอบรมล่วงหน้าและการปรับแต่งทั้งสองอย่างเกี่ยวข้องกับการเปลี่ยนแปลงพารามิเตอร์แบบจําลองซึ่งในที่สุดก็ส่งผลให้เกิดการเพิ่มประสิทธิภาพแบบจําลองหรือพารามิเตอร์ในขณะที่การอนุมานคือการคํานวณการอนุมานโดยการโหลดแบบจําลองหลังจากอินพุตของผู้ใช้และในที่สุดก็ได้รับข้อเสนอแนะและผลลัพธ์
การฝึกก่อน, ปรับปรุง, และการตัดสินให้เรียงลำดับจากขนาดใหญ่ไปยังเล็กที่สุดตามความต้องการของคอมพิวเตอร์ ตารางต่อไปนี้เปรียบเทียบความต้องการฮาร์ดแวร์ของคอมพิวเตอร์ในการฝึกและการตัดสินให้ ความต้องการฮาร์ดแวร์ของคอมพิวเตอร์สองอย่างนั้นแตกต่างกันอย่างมีนัยสำคัญในด้านพลังการคำนวณ, หน่วยความจำ, และ การสื่อสาร/แบนด์วิดที่เกิดจากความแตกต่างในกระบวนการคำนวณและความต้องการในความแม่นยำ, ในเวลาเดียวกันยังมี Impossible Trilemma ในการพลังการคำนวณ, หน่วยความจำ, และ การสื่อสาร/แบนด์วิด
การวัดค่าสถิติในตารางนี้ ขึ้นอยู่กับการประมวลผลโดยโมเดลเดียว ใช้โทเค็นเดียว พารามิเตอร์เดียวFLOPs: การดำเนินงานทศนิยมต่อวินาที จำนวนของการคำนวณเมทริกซ์
*DP, TP, PP: การแบ่งข้อมูล, การแบ่งเซนเซอร์, การแบ่งท่อทาง
การเปรียบเทียบฮาร์ดแวร์คอมพิวเตอร์ระหว่างการฝึกฝนและการอินเฟอร์เรนซิ่ง ที่มา: จัดทำโดยแฮชคีย์แคปิตัล
กระบวนการฝึกโครงข่ายประสาทต้องทำการสลับระหว่างการกระจายข้างหน้าและการกระจายถอดกลับ โดยใช้ค่าได้เดินทางที่ได้จากการกระจายถอดกลับเพื่อปรับปรุงพารามิเตอร์ของโมเดล ในขณะเดียวกัน การบ่งบอกใช้การกระจายข้างหน้าเท่านั้น ความแตกต่างนี้กลายเป็นปัจจัยที่มีผลต่อความต้องการของทรัพยากรฮาร์ดแวร์คอมพิวเตอร์ที่แตกต่างกันสำหรับการฝึกและการบ่งบอก
ในเชิงพลวัตของความสามารถในการคำนวณ ตามที่แสดงในตารางมีความสัมพันธ์แบบเชิงคูณระหว่างจำนวนพารามิเตอร์ของโมเดลและการบริโภคพลังงานในการคำนวณอย่างง่าย ๆ โดยการฝึกอบรมต้องการ 6-8 การดำเนินการทศนิยมและการอ้างอิงต้องการ 2 นั่นเป็นเพราะการย้อนกลับที่มีการฝึกอบรม ซึ่งต้องการพลวัตคอมพิวเตอร์เท่ากับการส่งผ่านไปและจึงการบริโภคพลังงานในการคำนวณของการฝึกอบรมสูงกว่าการอ้างอิงมาก
ในเชิงหน่วยความจำ การใช้ backpropagation สำหรับการฝึกอบรมจะใช้ค่ากลางที่เก็บไว้ในการส่งเสริมไปยังการป้องกันละเว้นการคำนวณซ้ำซ้อน ดังนั้น กระบวนการฝึกอบรมจำเป็นต้องเก็บค่ากลางไว้จนกว่า backpropagation จะเสร็จสิ้น การใช้งานหน่วยความจำที่เกิดขึ้นในระหว่างการฝึกอบรมประกอบด้วยพารามิเตอร์ของโมเดล ค่ากลางกิจกรรมระหว่างการคำนวณไปข้างหน้า ค่าชันที่สร้างขึ้นโดยตัวคำนวณการถอดกลับ และสถานะของตัวปรับปรุง ช่วงการโต้ตอบไม่ต้องการ backpropagation และไม่ต้องการสถานะตัวปรับปรุงและค่าชัน ฯลฯ และการใช้งานหน่วยความจำของมันจะเล็กกว่ามากเมื่อเปรียบเทียบกับการฝึกอบรม
ในเชิงการสื่อสาร/แบนด์วิดท์ เพื่อปรับปรุงประสิทธิภาพในการฝึกอบรม AI แบบหลักปกติมักใช้กลยุทธ์สามวิธีคือ การแบ่งข้อมูลตามพาราเลล การแบ่งเธนเซอร์และการแบ่งพายล์น์
แหล่งที่มา: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
สำหรับกลยุทธ์สามส่วนนี้ คาดว่าความถี่ในการสื่อสาร TP มีความใหญ่ที่สุด ปริมาณการสื่อสารมีค่าสูงสุด และเกี่ยวข้องกับจำนวนโทเค็น ความกว้างของโมเดล และจำนวนเลเยอร์ ปริมาณการสื่อสารและความถี่ของ PP เล็กกว่าของ TP และเกี่ยวข้องกับจำนวนโทเค็น และความกว้างของโมเดล ปริมาณการสื่อสารและความถี่ของ DP เล็กที่สุดและไม่เกี่ยวข้องกับโทเค็นขาเข้า
ปัญหาขีดจำกัดของทรัพยากรฮาร์ดแวร์คอมพิวเตอร์ในโมเดลขนาดใหญ่มีข้อจำกัดหลักๆ โดยมีการคำนวณพลังงาน แบนด์วิดธ์/การสื่อสาร และหน่วยความจำ และมีการตรวจสอบและคงสมดุลระหว่างทั้งสามอย่าง ทำใให้เกิดปัญหา Impossible Trilemma เช่นเดียวกับ จากข้อจำกัดในการสื่อสาร ประสิทธิภาพของคลัสเตอร์ไม่สามารถปรับปรุงได้โดยการปรับปรุงพลังงานของคอมพิวเตอร์เพียงเครื่องเดียว
ดังนั้น แม้ว่าโครงสร้างพร้อมกันจะถูกใช้ในการเร่งความเร็วในการทำงานของคลัสเตอร์ โครงสร้างพร้อมกันส่วนมากนั้นจริงๆ แล้วเสียสารสนเพื่อการคำนวณ
เสียสื่อสารและพื้นที่จัดเก็บเพื่อพลังการคำนวณ:
ใน PP หากมี GPU ถูกกำหนดให้กับแต่ละเลเยอร์ของตัวแปรทรานส์ฟอร์มเมอร์ ถึงแม้จะมีการเพิ่มพลังการคำนวณในหน่วยเวลา ความต้องการในการสื่อสารระหว่างเลเยอร์ก็เพิ่มขึ้นเช่นกัน ทำให้มีปริมาณข้อมูลและความล่าช้าเพิ่มขึ้น นอกจากนี้ ความต้องการในการจัดเก็บสถานะกลางของการส่งเสริมไปข้างหน้าเพิ่มขึ้นอย่างรวดเร็วที่สุด
เสียสื่อสารเพื่อพลังคำนวณ:
ใน TP ทุกตัวแปรถูกแยกออกสำหรับการคำนวณแบบขนานกัน โดยเนื่องจากตัวแปรประกอบด้วยสองส่วน (หัวใจความสนใจและเครือข่ายกำลังส่ง) งานสามารถแบ่งในชั้นเพื่อหัวใจความสนใจหรือเครือข่ายประสาทเชิงบวก วิธีการ TP นี้สามารถบรรเทาปัญหาของโครงสร้างหลายระดับของ PP มาจาก GPU ไม่สามารถพอดีกับโมเดล อย่างไรก็ตามวิธีการนี้ยังมีการสื่อสารเฉพาะอย่างร้ายแรง
ในเอกสารนี้ เราเชื่อว่าในปัจจุบันมีประเภทหลักๆ ของ AI ในสนามคริปโต ดังนี้:
แหล่งที่มา: จัดโดย HashKey Capital
เช่นที่กล่าวไว้แล้ว สามส่วนประกอบที่สำคัญที่สุดใน AI คือ ข้อมูล แบบจำลอง และพลังการคำนวณ ซึ่งทำหน้าที่เป็นโครงสร้างพื้นฐานเพื่อเสริมความสามารถของคริปโต AI
การผสมผสานของพวกเขาจริง ๆ ก็เป็นการสร้างเครือข่ายคอมพิวเตอร์ ด้วยจำนวนมากของ middleware ที่ปรากฏขึ้นในกระบวนการคำนวณเพื่อเป็นอย่างมีประสิทธิภาพและสอดคล้องกับวิญญาณคริปโตมากขึ้น ทางล่างคือตัวแทนที่ขึ้นอยู่กับผลลัพธ์ที่สามารถทำให้เห็นได้ว่าถูกต้อง ซึ่งสามารถให้บริการบทบาทต่าง ๆ สำหรับกลุ่มผู้ใช้ที่แตกต่างกันได้อีก
สามารถใช้แผนภูมิกระแสอีกอย่างสำหรับแสดงนิเวศวิธีพื้นฐานของ AI คริปโตได้ดังนี้:
แผนภูมินิเวศวิธี ที่มา: จัดทำโดย HashKey Capital
แน่นอนว่าการสร้างกลไกทางการเงินที่จำเป็นในพื้นที่คริปโตเพื่อสร้างสติมูลค่าให้กับการประสานงานกับผู้เล่นที่แตกต่างกัน
สำหรับชุดข้อมูล คุณสามารถเลือกระหว่างแหล่งข้อมูลสาธารณะหรือแหล่งข้อมูลส่วนตัวที่เฉพาะเจาะจงของตนเอง
แหล่งข้อมูล:
แพลตฟอร์มข้อมูลสังเคราะห์:
อื่นๆ:
แพลตฟอร์มบริการติดป้ายข้อมูลโดยการมอบหมายงานการติดป้ายให้กับคนงานที่แตกต่างกัน พวกเขาจะได้รับสิทธิ์ในการขอรางวัลตรงกันข้ามหลังจากทำงานเช่นคริปโต ไพ่จำลอง และอื่น ๆ อย่างไรก็ตามปัญหาปัจจุบันคือมีคนทำการติดป้ายข้อมูลมากกว่าข้อมูล ในขณะที่บริษัท AI มีผู้ผลิตข้อมูลการติดป้ายที่มั่นคงสำหรับความต้องการข้อมูลที่ติดป้ายเนื่องจากการมีอยู่ของความหดหู่ทำให้ความประสงค์ของพวกเขาที่จะสลับแพลตฟอร์มซึ่งอยู่ในลักษณะกระจายตัวอ่อนแอ แพลตฟอร์มเหล่านี้อาจเพียงสามารถได้รับการจัดสรรของส่วนที่เหลือของคำสั่งจากผู้ผลิตข้อมูลที่ติดป้าย
เครือข่ายการคำนวณทั่วไป หมายถึงเครือข่ายที่รวบรวมทรัพยากรเช่น GPUs และ CPUs เพื่อให้บริการการคำนวณทั่วไปซึ่งหมายความว่าไม่มีความแตกต่างระหว่างการฝึกสอนและการอ้างอิง
ในพื้นที่คริปโต, Gensyn, ที่ถูกลงทุนโดย a16z, предлагает ระบบคอมพิวเตอร์สำหรับการฝึกอบรมแบบกระจาย
กระบวนการคือหลังจากผู้ใช้ส่งงานความต้องการการฝึกอบรมแพลตฟอร์มจะวิเคราะห์และประเมินพลังการคำนวณที่จำเป็นรวมถึงแยกออกเป็นจำนวนขั้นต่ำของงาน ML ซึ่งตรงนี้ผู้ตรวจสอบจะเก็บงานที่วิเคราะห์อย่างสม่ำเสมอเพื่อสร้างค่าเกณฑ์สำหรับการเปรียบเทียบพิสูจน์การเรียนรู้ล่างๆ
เมื่องานเข้าสู่ขั้นตอนการฝึกอบรม มันจะถูกดำเนินการโดย Solver ซึ่งเก็บน้ำหนักโมเดลและดัชนีการตอบสนองจากชุดข้อมูลการฝึกอบรมเป็นระยะ ๆ พร้อมทั้งสร้างการพิสูจน์การเรียนรู้ และผู้ตรวจสอบทำงานคำนวณให้เกิดการทำงานซ้ำเพื่อทำการคำนวณระยะทางเพื่อยืนยันว่ามันตรงกับการพิสูจน์ นอกจากนี้ Whistleblowers ทำงานความถูกต้องโดยใช้โปรแกรมท้าทายบนกราฟเพื่อตรวจสอบว่างานการตรวจสอบถูกต้องหรือไม่
การปรับแต่งคือง่ายและมีค่าใช้จ่ายน้อยกว่าการฝึกฝนโดยตรงบนโมเดลขนาดใหญ่โดยการปรับแต่งโมเดลที่ถูกฝึกไว้ก่อนด้วยชุดข้อมูลที่เฉพาะเจาะจงและการปรับโมเดลให้เข้ากับงานที่เฉพาะเจาะจงในขณะที่ยังคงรักษาโมเดลเดิม
Hugging Face สามารถเข้าถึงได้เป็นผู้ให้บริการทรัพยากรโมเดลภาษาที่ถูกเตรียมไว้ล่วงหน้าสำหรับแพลตฟอร์มกระจาย ผู้ใช้เลือกโมเดลที่จะทำการปรับปรุงตามความต้องการของงานและใช้ GPU และทรัพยากรอื่นที่ให้บริการโดยเครือข่ายคอมพิวเตอร์สำหรับการปรับปรุงตามงาน ซึ่งจำเป็นต้องขึ้นอยู่กับความซับซ้อนของงานเพื่อกำหนดขนาดของชุดข้อมูล ความซับซ้อนของโมเดล และเพื่อกำหนดความต้องการในทรัพยากรระดับสูงเช่น A100
นอกจาก Gensyn แพลตฟอร์มที่สามารถรองรับการฝึกฝนล่วงหน้า แพลตฟอร์มคำนวณสามารถรองรับการปรับแต่งได้ด้วย
เมื่อเปรียบเทียบกับการฝึกอบรม (การฝึกก่อนและการปรับแต่ง), ซึ่งต้องการการปรับตั้งค่ารุ่นโมเดล กระบวนการคำนวณของการอ้างอิงเกี่ยวข้องกับการส่งต่อไปข้างหน้าเท่านั้น และต้องการพลังการคำนวณน้อยกว่า ระบบเครือข่ายการคำนวณที่มีการกระจายอย่างมากในปัจจุบันมุ่งเน้นบริการการอ้างอิง
เมื่อการสรุปถึงการดำเนินการที่อยู่ในขั้นตอนนี้เป็นขั้นตอนของการใช้โมเดลแล้ว จึงสามารถนำมิดเดิลแวร์เข้ามาในเวลาที่เหมาะสม:
On-chain smart contract เพื่อดึงข้อมูลผลลัพธ์จากการคำนวณ AI นอกเครือข่าย:
สามารถเพิ่มชั้นความเป็นส่วนตัวอีกชั้นหนึ่งในเครือข่ายคอมพิวเตอร์ได้ ซึ่งประกอบด้วยความเป็นส่วนตัวของข้อมูลและความเป็นส่วนตัวของโมเดล โดยที่ความเป็นส่วนตัวของข้อมูลมีความสำคัญมากกว่าความเป็นส่วนตัวของโมเดล
เครือข่ายคอมพิวเตอร์ของส่วนใหญ่สร้างระบบการตรวจสอบที่แตกต่างกันเพื่อให้ระบบเดินไปอย่างถูกต้องในขณะที่ลิงค์เป็นส่วนหนึ่งที่ยังไม่เคยถูกนำเสนอในฟิลด์ AI เดิม
บทบาทหลักของการพิสูจน์ ZK คือ 2 จุดต่อไปนี้:
Modulus Labs แสดงให้เห็นว่าเป็นไปได้ที่จะสร้างพิสูจน์สำหรับโมเดลที่มีพารามิเตอร์ 18 ล้านตัวใน 60–70 วินาทีโดยใช้ระบบพิสูจน์ Plonky ของ Polygon สำหรับโมเดลขนาดเล็ก เป็นไปได้ที่จะใช้ ZKML ในขั้นตอนนี้ แต่ค่าใช้จ่ายยังคงมีนัยสำคัญ
Source: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
ด้วยข้อ จํากัด ของ ZKML ที่อธิบายไว้ข้างต้น OPML จึงเป็นทางเลือก แม้ว่าจะอ่อนแอกว่า ZKML ในแง่ของความปลอดภัย แต่การใช้หน่วยความจําและเวลาในการคํานวณหลักฐานนั้นดีกว่า ZKML อย่างมาก ตามรายงาน ORA แสดงให้เห็นว่าสําหรับรุ่น 7B-LLaMA เดียวกัน (มีขนาดรุ่นประมาณ 26GB) opML สามารถประมวลผลได้ภายใน 32GB ของหน่วยความจําในขณะที่การใช้หน่วยความจําของวงจรใน zkML สามารถอยู่ในลําดับของเทราไบต์หรือแม้แต่เพตะไบต์
Trusted Execution Environment ให้ความปลอดภัยในระดับฮาร์ดแวร์และสามารถเป็นทางเลือกต่อ ZKML และ OPML ได้ TEE-proof ถูกสร้างขึ้นเป็นผลจากการคำนวณภายใน TEE และต้นทุนการคำนวณของมันมีราคาที่ต่ำมากกว่า zk-proof อีกด้วย ขนาดของ proof ของ TEE โดยปกติจะเป็นค่าคงที่ (ความยาวของลายเซ็น) และจึงมีข้อได้เปรียบในรูปทรงของพื้นที่ที่เล็กกว่าและต้นทุนการตรวจสอบ on-chain ที่ต่ำลง
นอกจากการตรวจสอบแล้ว TEE ยังมีข้อดีที่สามารถเก็บข้อมูลที่ละเอียดอ่อนรักษาไว้ในที่ๆ แยกออกมา ทำให้กระบวนการหรือการคำนวณภายนอกไม่สามารถเข้าถึงหรือเปลี่ยนแปลงข้อมูลภายในได้
โครงการที่ใช้ TEE ได้รวมถึง:
แหล่งที่มา: https://arxiv.org/pdf/2401.17555,โปรโตคอลมาร์ลิน
นอกจากนี้ โปรโตคอล ORA ได้พัฒนา opp/ai (Optimistic Privacy-Preserving AI on Blockchain) นอกจาก ZKML และการตรวจสอบ OPML ของตนเอง และไม่รวมอยู่ในตารางเปรียบเทียบด้านบน
เอเจนท์มีความสามารถในการวิเคราะห์ข้อมูลที่เข้ามา ประเมินเงื่อนไขสภาพแวดล้อมปัจจุบันและตัดสินใจ เอเจนท์ประกอบด้วยส่วนประกอบตามภาพด้านล่าง ซึ่ง LLM เป็นส่วนประกอบหลัก นอกจากนี้จำเป็นต้องเลี้ยงคำแนะนำที่เหมาะสมให้กับ LLM และผ่านหน่วยความจำเพื่อเก็บข้อมูลระยะสั้นและข้อมูลประวัติยาวนาน (ข้อมูลภายนอก)
เนื่องจากงานที่ซับซ้อนไม่สามารถทำเสร็จในคราวเดียวได้ จึงต้องแบ่งเป็นงานย่อยๆ โดย Plan นอกจากนี้ Agent ยังสามารถเรียกใช้ API ภายนอกเพื่อรับข้อมูลเพิ่มเติม รวมถึงข้อมูลปัจจุบัน ความสามารถในการดำเนินการโค้ด การเข้าถึงแหล่งข้อมูลที่เป็นเอกสิทธิ์ และอื่นๆ อีกมากมาย
แหล่งที่มา: การสำรวจเกี่ยวกับตัวแทนอัตโนมัสที่ใช้รูปแบบภาษาขนาดใหญ่
ความสามารถในการตัดสินใจของตัวแทนไม่มีการพัฒนาที่แน่ชัดจนกระชักมาถึงการเกิดของโมเดลภาษาขนาดใหญ่ LLM ในปีสุดท้าย เอกสารรายงานได้รวบรวมจำนวนของเอกสารที่เผยแพร่เกี่ยวกับตัวแทนตั้งแต่ปี 2021 ถึงปี 2023 ดังแสดงในภาพด้านล่าง ในความเป็นจริงมีเพียงประมาณหนึ่งโครงการวิจัยในปี 2021 แต่มีร้อยเอกสารที่เผยแพร่เกี่ยวกับพวกเขาในปี 2023 หนังสือฉบับนี้จะจัดหมวดหมู่ตัวแทนเป็น 7 ประเภท
แหล่งที่มา: การสำรวจเกี่ยวกับตัวแทนอัตโนมัสที่ใช้โมเดลภาษาขนาดใหญ่
ใน web3 ฉากที่เอเจ้นต์มีอยู่ยังมีข้อจำกัดเมื่อเปรียบเทียบกับโลก web2 และประกอบด้วยการล้างอัตโนมัติ การสร้างส่วนประกอบของโค้ด (เขียนสัญญาอัจฉริยะ เขียนวงจร zk) การควบคุมความเสี่ยงแบบเรียลไทม์ และการดำเนินกลยุทธ์เช่น อาร์บิเทรจ และการเกษียณเพาะเสียด
โดยอิงจากตัวแทนที่แตกต่างกัน สามารถรวม/รวมร่าย/สร้างแอปพลิเคชั่นเฉพาะได้ในเวลาเดียวกัน ในเวลาเดียวกัน มีแพลตฟอร์มประสานงานบางรายที่สามารถเลือกตัวแทนที่จะใช้สร้างประเภทแอปพลิเคชั่นที่เฉพาะเจาะจง แต่ส่วนใหญ่ของพวกเขาถูก จำกัด ในการพัฒนาตัวแทน
นักพัฒนาบางคนจะใช้ปัญญาประดิษฐ์บางส่วนเพื่อช่วยให้แพลตฟอร์มของพวกเขาฉลาดขึ้น เช่นในโครงการด้านความปลอดภัย การเรียนรู้ของเครื่องถูกใช้ในการแยกแยะช่องโหว่การโจมตี โปรโตคอล DeFi ใช้ปัญญาประดิษฐ์ในการสร้างเครื่องมือตรวจสอบแบบเรียลไทม์ และแพลตฟอร์มการวิเคราะห์ข้อมูลยังใช้ปัญญาประดิษฐ์เพื่อช่วยในการทำความสะอาดข้อมูลและการวิเคราะห์
ในบทความนี้เราอยากจะเน้น 3 ประเด็นต่อไปนี้:
ใน crypto เครือข่ายคอมพิวเตอร์จํานวนหนึ่งเกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ทําให้ผู้ใช้รู้สึกว่า GPU เป็น AI แต่ตามที่วิเคราะห์ในส่วนก่อนหน้ามี trilemma ที่เป็นไปไม่ได้ของเครือข่ายคอมพิวเตอร์เช่นพลังการประมวลผลแบนด์วิดท์ / การสื่อสารและหน่วยความจํารวมถึงกลยุทธ์แบบขนานสามประเภทที่ใช้ในการฝึกอบรมแบบจําลองเช่นข้อมูลขนานเทนเซอร์ขนาน และไปป์ไลน์ขนานทั้งหมดชี้ไปที่การตรวจสอบและยอดคงเหลือที่กําหนดไว้ในการตั้งค่ากรอบของเครือข่ายคอมพิวเตอร์
เหตุผลที่เหมือนกันและข้อมูลเดียวกันไม่จำเป็นต้องให้ผลลัพธ์เดียวกันคือการใช้การคำนวณทศนิยม ความแตกต่างในการคำนวณนี้ยังมีผลต่อการสร้างเครือข่ายคอมพิวเตอร์
เอไอ เอเจนต์เพียงเริ่มแสดงความมีประโยชน์มากขึ้นในปีหลังสุด และเราคาดหวังว่าเอเจนต์จะปรากฏขึ้นในตลาดมากขึ้น แต่ว่าเอเจนต์ทำงานในคริปโตหรือวิธีการหาสิ่งสนับสนุนโทเค็นที่เหมาะสมยังเป็นความท้าทาย
บทความนี้ถูกคัดลอกมาจาก[กลาง],ชื่อเรื่องเดิม "AI into Crypto" เป็นสิทธิ์ในการเขียนของผู้เขียนเดิม[HashKey Capital ],หากมีข้อผิดพลาดในการโพสต์กรุณาติดต่อทีม Gate Learnทีมจะดำเนินการตามกระบวนการที่เกี่ยวข้องเร็วที่สุด
คำปฏิเสธความรับผิด: มุมมองและความเห็นที่แสดงในบทความนี้เป็นเพียงมุมมองส่วนตัวของผู้เขียนเท่านั้น ไม่เป็นที่สร้างสรรค์ข้อเสนอแนะในการลงทุนใด ๆ
บทความเวอร์ชันอื่น ๆ ถูกแปลโดยทีม Gate Learn ในกรณีที่ไม่ได้กล่าวถึงGate.ioในกรณีที่ไม่ได้คัดลอก ส่งผ่าน หรือลอกเลียนแบบบทความที่ถูกแปล
การเปิดตัว ChatGPT ในเดือนพฤศจิกายน 2022 ได้เปิดหูเปิดตาของผู้เล่นในอุตสาหกรรมต่างๆ ถึงโมเดลภาษาขนาดใหญ่ AI ไดนามิกที่บ้าคลั่งนี้แทรกซึมเข้าไปในพื้นที่ Crypto และบทความนี้มีจุดมุ่งหมายเพื่อแนะนําการพัฒนา AI สถานะปัจจุบันและอุตสาหกรรมที่เกิดขึ้นจากการรวมกันของ AI + Crypto
Machine learning (ML) เป็นเทคโนโลยีที่มีความสามารถในการเรียนรู้จากประสบการณ์ ซึ่งเรียนรู้ในการแยกแยะสัตว์ การแปลภาษา และงานที่เฉพาะเจาะจงอื่น ๆ โดยการเรียนรู้จากชุดข้อมูลขนาดใหญ่ Machine learning เป็นวิธีที่เป็นปฏิบัติที่สุดสำหรับการเรียนรู้ปัจจุบัน ตามว่าข้อมูลที่เรียนรู้มีป้ายชื่อหรือไม่และลักษณะมันสามารถแบ่งเป็นการเรียนรู้ซึ่งกำกับและการเรียนรู้ที่ไม่ได้รับการกำกับ
มีหลายประเภทของโมเดลที่สามารถทำ supervised learning ได้ รวมถึงโมเดลที่ใช้ต้นไม้, โมเดลกราฟ, และ neural networks ที่เพิ่งปรากฏออกมาเร็ว ๆ นี้ ด้วยการพัฒนาประสิทธิภาพการคำนวณและข้อมูลอย่างรวดเร็ว, deep learning ได้รับการพัฒนาต่อไปโดยอิงจากโครงสร้างของ neural networks โครงสร้าง deep learning ปัจจุบันรวมถึง, แต่ไม่จำกัดอยู่ที่, CNNs, RNNs, และ mechanism การให้ความสนใจ
การจำแนกประเภทของการเรียนรู้ของเครื่อง, แหล่งที่มา: ทุน HashKey
เครือข่ายการเรียนรู้เชิงลึกที่แตกต่างกันมีสถาปัตยกรรมพื้นฐานของเลเยอร์อินพุตเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาต์พุตเลเยอร์อินพุตมักจะเป็นข้อความวิดีโอเสียงและข้อมูลอื่น ๆ หลังจากได้รับการประมวลผล เลเยอร์ที่ซ่อนอยู่มีการออกแบบที่แตกต่างกัน (รูปร่างแบบจําลอง) ขึ้นอยู่กับชุดข้อมูลและวัตถุประสงค์ของงานดังที่แสดงในตาราง
ประเภทของเครือข่ายประสาท ที่มา: จัดระเบียบโดย HashKey Capital
30 ปีของการพัฒนาเครือข่ายประสาท ที่มา: จัดโดย HashKey Capital
การฝึกโครงข่ายประสาทเทียมมีต้นกำเนิดครั้งแรกในช่วงกลางของปี ค.ศ. 1980 เมื่อจอร์แดนฝึกโครงข่ายประสาทเพื่อเรียนรู้รูปแบบตามลำดับในบทความปี 1986 ของเขาลำดับซีเรียล: วิธีการประมวลผลแบบกระจายขนาดใหญ่เครือข่ายขนาดเล็กมีนิวรอนเพียงไม่กี่ตัว
ในปี 1990 Jeffrey Ehrman ขยายเครือข่ายประสาทเป็นเครือข่าย 50 นิวรอนพบว่าเครือข่ายจัดกลุ่มคำตามความหมายทางพื้นที่ เช่น แยกคำนามที่ไม่มีชีวิตและมีชีวิต และภายในหมวดหมู่นี้ วัตถุที่มีชีวิตถูกแบ่งเป็นหมวดหมู่มนุษย์และไม่มนุษย์ และวัตถุที่ไม่มีชีวิตถูกจำแนกเป็นที่สามารถแตกและที่สามารถกิน ซึ่งแสดงให้เห็นว่าเครือข่ายสามารถเรียนรู้การอธิบายแบบชั้นย่อย
เขายังสังเกตเห็นว่าคำสามารถแสดงให้เห็นเป็นจุดในพื้นที่มิติสูง และจากนั้นลำดับของคำหรือประโยคสามารถมองเห็นเป็นเส้นทาง การเจริญใหญ่นี้ช่วยให้ชุดข้อมูลที่เป็นข้อความสามารถถูกดิจิทัล, มีเวกเตอร์, และประมวลผลโดยคอมพิวเตอร์
ที่มา: http://3b1b.co/neural-networks
ในปี 2011 นักวิจัย Confluence ได้ฝึกฝนเครือข่ายขนาดใหญ่ที่มีพันธะพันธุ์พันโตที่เกี่ยวข้องและล้าหลังพบว่ามีปัญหาในการศึกษาในความสามารถของเครือข่ายในการรักษาบริบทที่สมเหตุสมผลตลอดช่วงเวลายาว
ในปี 2017 OpenAI พัฒนาต่อจากงานของ Kathy โดยการฝึกอบรมด้วยรีวิว Amazon 82 ล้านรีวิว โดยพบว่ามีเซลล์ประสาทที่เชื่อมโยงกับอารมณ์ของข้อความได้อย่างละเอียด
Source: การเรียนรู้ในการสร้างรีวิวและค้นพบอารมณ์
เกี่ยวกับข้อจำกัดของขนาดบริบทที่ กระดาษ 2017 Attention Is All You Need นำเสนอวิธีการแก้ปัญหา กระดาษสร้างเครือข่ายเลเยอร์ไดนามิคที่ปรับน้ำหนักการเชื่อมต่อขึ้นอยู่กับบริบทของเครือข่าย มันทำงานโดยอนุญาตให้คำในอินพุตมอง จับคู่คำอื่น ๆ และค้นหาคำที่เกี่ยวข้องที่สุด คำเหล่านี้เมื่ออยู่ใกล้กันตามแนวความคิดมากขึ้น ก็สามารถมีน้ำหนักการเชื่อมต่อสูงขึ้น อย่างไรก็ตาม กระดาษเฉพาะกล่าวถึงปัญหาการแปลเท่านั้น
ดังนั้น นักวิจัย OpenAI ได้ลองใช้โครงสร้าง transformer ที่มีกำลังการทำงานมากกว่าและเปิดตัว GPT-3 ในปี 2020 ซึ่งได้ดึงดูดความสนใจจากอุตสาหกรรมทั่วโลก ในครั้งนี้กับเครือข่ายที่มีพารามิเตอร์รวม 175 พันล้าน ชั้นของ 96 ชั้น และหน้าต่างบริบท 1,000 คำ
เรียกดูภาพดิจิตอลขนาด 28x28 พิกเซลต่อไปนี้เป็นตัวอย่าง นิวรอนสมควรตรงกับแต่ละพิกเซลของภาพนำเข้าขนาด 28x28 ทั้งหมด 784 นิวรอน ตัวเลขในนิวรอนคือค่าการกระตุ้นซึ่งมีช่วงค่าตั้งแต่ 0–1
รูปภาพดิจิตอลขนาด 28x28 พิกเซล, ที่มา: http://3b1b.co/neural-networks
เซลล์ประจำนิวรอน 784 เซลล์เป็นชั้นนำของเครือข่าย ชั้นสุดท้ายคือชั้นเอาท์พุต ซึ่งประกอบด้วยนิวรอนสิบตัวที่แทนตัวเลข 0–9 อีกครั้งด้วยค่าการเปิดใช้งานที่ห่างกัน 0–1 ชั้นกลางคือชั้นซ่อนที่ค่าการเปิดใช้งานของชั้นก่อนหน้ากำหนดค่าการเปิดใช้งานของชั้นถัดไปขณะที่เครือข่ายประสานปฏิบัติการ
ความลึกของการเรียนรู้ลึกอยู่ที่ตรงที่โมเดลเรียนรู้ชั้นมากมายของการแปลงข้อมูลแต่ละชั้นที่มีการแสดงผลต่างกัน ดังที่แสดงในภาพด้านล่าง เช่นใน 9 ชั้นที่แตกต่างกันสามารถรู้จำลักษณะที่แตกต่างกัน ยิ่งชั้นข้อมูลนำเข้าเข้าใกล้ชั้นระดับล่างของข้อมูลมากเท่าใด ยิ่งชั้นผลลัพธ์เข้าใกล้กับแนวคิดที่เฉพาะเจาะจงมากขึ้นที่สามารถใช้แยกแยะ
ต้นฉบับ: http://3b1b.co/neural-networks
เมื่อโมเดลใหญ่ขึ้น ชั้นที่ซ่อนอยู่ตรงกลางเกี่ยวข้องกับน้ำหนักที่มีร้อยละของพันล้านต่อชั้น และคือน้ำหนักและความเอียงเหล่านี้ที่จะกำหนดว่าเครือข่ายกำลังทำอะไรในความเป็นจริง กระบวนการของการเรียนรู้ของเครื่องคือกระบวนการค้นหาพารามิเตอร์ที่ถูกต้องซึ่งคือน้ำหนักและความเอียง
โครงสร้างการแปลงใช้ใน GPT โมเดลภาษาขนาดใหญ่ มีชั้นซ่อนตัวกลางที่ประกอบด้วยโมดูลการถอดรหัส 96 ชั้นซึ่ง GPT1, GPT2 และ GPT3 มี 12, 48 และ 96 ชั้นตามลำดับ ตัวถอดรหัสมีองค์ประกอบของเครือข่ายประสาทที่สนใจและส่งกลับไปยังข้างหน้า
การประมวลผลหรือการเรียนรู้เกี่ยวกับการกำหนดฟังก์ชันต้นทุน (หรือฟังก์ชันขาดทุน) ซึ่งรวมผลรวมของสี่เหลี่ยมของความแตกต่างระหว่างค่าทำนายผลลัพธ์ของเครือข่ายและค่าจริง ๆ และเมื่อผลรวมเล็ก ๆ น้อย ๆ โมเดลจะทำงานอยู่ภายใต้ขีดจำกัดที่ยอมรับได้
การฝึกอบรมเริ่มต้นด้วยการกำหนดพารามิเตอร์ของเครือข่ายในลักษณะสุ่มและการสรุปผลของพารามิเตอร์ของเครือข่ายโดยการค้นหาพารามิเตอร์ที่ลดค่าฟังก์ชันต้นทุน วิธีในการทำให้ฟังก์ชันต้นทุนรวมคือด้วยการคลี่ร์เดสเซนต์ โดยซึ่งจะตรวจสอบระดับผลกระทบของการเปลี่ยนแปลงพารามิเตอร์แต่ละตัวต่อค่าทุน/สูญเสีย และจากนั้นจะปรับปรุงพารามิเตอร์ตามระดับผลกระทบนั้น
กระบวนการคำนวณค่าเกรเดียนทำให้มีการถอยกลับหรือการถอยกลับซึ่งวิ่งผ่านเครือข่ายจากเลเยอร์เอาต์พุทไปยังเลเยอร์อินพุทในลำดับกลับตามกฎเชน อัลกอริทึมยังต้องการการจัดเก็บตัวแปรกลาง (อนุพันธ์บางส่วน) ที่จำเป็นสำหรับการคำนวณเกรเดียน
มีปัจจัยหลัก 3 ปัจจัยที่มีผลต่อประสิทธิภาพของโมเดลขนาดใหญ่ที่ใช้ในการฝึก AI ระบบภาษา คือ จำนวนพารามิเตอร์ของโมเดล ขนาดของชุดข้อมูล และปริมาณการคำนวณ
แหล่งที่มา: รายงาน OpenAI, กฎหมายสำหรับโมเดลภาษาประสาน神經
นี่สอดคล้องกับการพัฒนาข้อมูลและคอมพิวเตอร์ (กำลังคำนวณ) ในโลกของความเป็นจริง แต่ก็สามารถเห็นได้จากตารางด้านล่างว่า กำลังคำนวณกำลังเติบโตเร็วกว่าข้อมูลที่มีอยู่ ในขณะที่หน่วยความจำเป็นจะเติบโตช้าที่สุด
การพัฒนาของชุดข้อมูล ความจำ และกำลังคำนวณ แหล่งที่มา: https://github.com/d2l-ai
เมื่อต้องเผชิญกับโมเดลขนาดใหญ่ overfitting มีแนวโน้มที่จะเกิดขึ้นเมื่อข้อมูลการฝึกอบรมมีขนาดเล็กเกินไปและโดยทั่วไปความแม่นยําของแบบจําลองที่ซับซ้อนมากขึ้นจะดีขึ้นเมื่อปริมาณข้อมูลเพิ่มขึ้น เกี่ยวกับข้อกําหนดข้อมูลที่จําเป็นสําหรับโมเดลขนาดใหญ่สามารถตัดสินใจได้ตามกฎ 10 ซึ่งชี้ให้เห็นว่าปริมาณข้อมูลควรเป็น 10 เท่าของพารามิเตอร์ แต่อัลกอริธึมการเรียนรู้เชิงลึกบางอย่างใช้ 1: 1
การเรียนรู้ภายใต้การควบคุม ต้องใช้ชุดข้อมูลที่มีป้ายชื่อและคุณลักษณะเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง
Source: Fashion-MNIST ชุดข้อมูลการจำแนกประเภทเสื้อผ้า
ถึงกระแสการเพิ่มขึ้นอย่างรวดเร็วของข้อมูลในรอบ 1-2 ทศวรรษที่ผ่านมาและชุดข้อมูลแบบโอเพนซอร์สที่มีให้ใช้งานรวมถึง Kaggle, Azure, AWS, Google database ฯลฯ ข้อมูลที่จำกัด น้อย และมีราคาแพงกำลังกลายเป็นข้อจำกัดสำคัญสำหรับการพัฒนา AI เนื่องจากปัญหาเรื่องความเป็นส่วนตัว เพิ่มพารามิเตอร์โมเดล และการทำให้ข้อมูลสามารถทำซ้ำได้ มีการนำเสนอวิธีการแก้ปัญหาด้านข้อมูลต่าง ๆ เพื่อลดปัญหานี้
เทคนิคการขยายข้อมูลอาจเป็นวิธีการที่มีประสิทธิภาพโดยการให้ข้อมูลไม่เพียงพอให้กับโมเดลโดยไม่ต้องเก็บตัวอย่างใหม่ เช่นการปรับขนาด การหมุน การสะท้อน การตัด การแปลง การเพิ่มเสียงรบกวน Gaussian การผสมเข้าด้วยกัน เป็นต้น
ข้อมูลสังเคราะห์เป็นตัวเลือกอีกอย่าง ข้อมูลสังเคราะห์คือข้อมูลที่สามารถสร้างขึ้นได้ด้วยการจำลองคอมพิวเตอร์หรืออัลกอริทึมโดยมีหรือไม่มีชุดข้อมูลอ้างอิงก่อนหน้า ในเชิงพัฒนาเครื่องมือสำหรับสร้างข้อมูลสังเคราะห์ Ian J. Goodfellow ประดิษฐ์ Generative Adversarial Network (GAN) ซึ่งเป็นสถาปัตยกรรมการเรียนรู้เชิงลึก
มีการฝึกสอนระบบประสาทสองระบบให้แข่งขันกัน ซึ่งสามารถสร้างข้อมูลใหม่ที่สมจริงมากขึ้นจากชุดข้อมูลการฝึกที่กำหนดให้ โครงสร้างรองรับการสร้างภาพ เติมข้อมูลที่ขาดหายไป สร้างข้อมูลฝึกสำหรับโมเดลอื่น ๆ สร้างโมเดล 3 มิติจากข้อมูล 2 มิติ และอื่น ๆ
ยังเร็วไปในการพัฒนาด้านนี้ โดยบริษัทที่มีอยู่ส่วนใหญ่ที่ทำข้อมูลสังเคราะห์ถูกสร้างขึ้นในปี 2021 หรือ 2022 และบางส่วนในปี 2023
สถานะการจัดหาเงินทุนสำหรับบริษัทข้อมูลสังเคราะห์ ที่มา : https://frontline.vc/blog/synthetic-data/
กระบวนการฝึก AI เกี่ยวข้องกับการดำเนินการเมทริกซ์จำนวนมาก ตั้งแต่การฝังคำ, การเปลี่ยนวงจร QKV ของ transformer, ไปจนถึงการดำเนินการ softmax, และอื่น ๆ ผ่านการดำเนินการเมทริกซ์ พารามิเตอร์โมเดลทั้งหมดก็ถูกพกพาในเมทริกซ์ด้วย
ตัวอย่างฐานข้อมูลเวกเตอร์, Source : https://x.com/ProfTomYeh/status/1795076707386360227
โมเดลขนาดใหญ่นำมาซึ่งความต้องการที่มีขนาดใหญ่ของฮาร์ดแวร์คอมพิวเตอร์ ซึ่งส่วนใหญ่จะถูกจำแนกเป็นการฝึกและการสรุป
การฝึกก่อนและปรับปรุงสามารถแบ่งออกเป็นส่วนย่อยได้อีก ดังที่กล่าวไว้ก่อนหน้า การสร้างโมเดลเครือข่ายต้องเริ่มต้นด้วยการกำหนดค่าพารามิเตอร์ให้สุ่มก่อน จากนั้นค่อยทำการฝึกเครือข่ายและปรับค่าพารามิเตอร์อย่างต่อเนื่องจนกระทั่งค่าสูญเสียของเครือข่ายอยู่ในช่วงที่ยอมรับได้ ความแตกต่างระหว่างการฝึกก่อนและปรับปรุงคือ
การฝึกก่อนการฝึกที่เริ่มต้นด้วยพารามิเตอร์ของแต่ละเลเยอร์จากการเริ่มต้นแบบสุ่ม ในขณะที่บางเลเยอร์ของการปรับปรุงเสร็จสิ้นสามารถใช้พารามิเตอร์ของโมเดลที่เทรนไว้ก่อนหน้าเป็นพารามิเตอร์เริ่มต้นสำหรับงานนี้ได้โดยตรง (การตรึงพารามิเตอร์ของเลเยอร์ก่อนหน้าและมีผลกับชุดข้อมูลที่เฉพาะเจาะจง)
Source: https://d2l.ai/chapter_computer-vision/fine-tuning.html
การฝึกอบรมล่วงหน้าและการปรับแต่งทั้งสองอย่างเกี่ยวข้องกับการเปลี่ยนแปลงพารามิเตอร์แบบจําลองซึ่งในที่สุดก็ส่งผลให้เกิดการเพิ่มประสิทธิภาพแบบจําลองหรือพารามิเตอร์ในขณะที่การอนุมานคือการคํานวณการอนุมานโดยการโหลดแบบจําลองหลังจากอินพุตของผู้ใช้และในที่สุดก็ได้รับข้อเสนอแนะและผลลัพธ์
การฝึกก่อน, ปรับปรุง, และการตัดสินให้เรียงลำดับจากขนาดใหญ่ไปยังเล็กที่สุดตามความต้องการของคอมพิวเตอร์ ตารางต่อไปนี้เปรียบเทียบความต้องการฮาร์ดแวร์ของคอมพิวเตอร์ในการฝึกและการตัดสินให้ ความต้องการฮาร์ดแวร์ของคอมพิวเตอร์สองอย่างนั้นแตกต่างกันอย่างมีนัยสำคัญในด้านพลังการคำนวณ, หน่วยความจำ, และ การสื่อสาร/แบนด์วิดที่เกิดจากความแตกต่างในกระบวนการคำนวณและความต้องการในความแม่นยำ, ในเวลาเดียวกันยังมี Impossible Trilemma ในการพลังการคำนวณ, หน่วยความจำ, และ การสื่อสาร/แบนด์วิด
การวัดค่าสถิติในตารางนี้ ขึ้นอยู่กับการประมวลผลโดยโมเดลเดียว ใช้โทเค็นเดียว พารามิเตอร์เดียวFLOPs: การดำเนินงานทศนิยมต่อวินาที จำนวนของการคำนวณเมทริกซ์
*DP, TP, PP: การแบ่งข้อมูล, การแบ่งเซนเซอร์, การแบ่งท่อทาง
การเปรียบเทียบฮาร์ดแวร์คอมพิวเตอร์ระหว่างการฝึกฝนและการอินเฟอร์เรนซิ่ง ที่มา: จัดทำโดยแฮชคีย์แคปิตัล
กระบวนการฝึกโครงข่ายประสาทต้องทำการสลับระหว่างการกระจายข้างหน้าและการกระจายถอดกลับ โดยใช้ค่าได้เดินทางที่ได้จากการกระจายถอดกลับเพื่อปรับปรุงพารามิเตอร์ของโมเดล ในขณะเดียวกัน การบ่งบอกใช้การกระจายข้างหน้าเท่านั้น ความแตกต่างนี้กลายเป็นปัจจัยที่มีผลต่อความต้องการของทรัพยากรฮาร์ดแวร์คอมพิวเตอร์ที่แตกต่างกันสำหรับการฝึกและการบ่งบอก
ในเชิงพลวัตของความสามารถในการคำนวณ ตามที่แสดงในตารางมีความสัมพันธ์แบบเชิงคูณระหว่างจำนวนพารามิเตอร์ของโมเดลและการบริโภคพลังงานในการคำนวณอย่างง่าย ๆ โดยการฝึกอบรมต้องการ 6-8 การดำเนินการทศนิยมและการอ้างอิงต้องการ 2 นั่นเป็นเพราะการย้อนกลับที่มีการฝึกอบรม ซึ่งต้องการพลวัตคอมพิวเตอร์เท่ากับการส่งผ่านไปและจึงการบริโภคพลังงานในการคำนวณของการฝึกอบรมสูงกว่าการอ้างอิงมาก
ในเชิงหน่วยความจำ การใช้ backpropagation สำหรับการฝึกอบรมจะใช้ค่ากลางที่เก็บไว้ในการส่งเสริมไปยังการป้องกันละเว้นการคำนวณซ้ำซ้อน ดังนั้น กระบวนการฝึกอบรมจำเป็นต้องเก็บค่ากลางไว้จนกว่า backpropagation จะเสร็จสิ้น การใช้งานหน่วยความจำที่เกิดขึ้นในระหว่างการฝึกอบรมประกอบด้วยพารามิเตอร์ของโมเดล ค่ากลางกิจกรรมระหว่างการคำนวณไปข้างหน้า ค่าชันที่สร้างขึ้นโดยตัวคำนวณการถอดกลับ และสถานะของตัวปรับปรุง ช่วงการโต้ตอบไม่ต้องการ backpropagation และไม่ต้องการสถานะตัวปรับปรุงและค่าชัน ฯลฯ และการใช้งานหน่วยความจำของมันจะเล็กกว่ามากเมื่อเปรียบเทียบกับการฝึกอบรม
ในเชิงการสื่อสาร/แบนด์วิดท์ เพื่อปรับปรุงประสิทธิภาพในการฝึกอบรม AI แบบหลักปกติมักใช้กลยุทธ์สามวิธีคือ การแบ่งข้อมูลตามพาราเลล การแบ่งเธนเซอร์และการแบ่งพายล์น์
แหล่งที่มา: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
สำหรับกลยุทธ์สามส่วนนี้ คาดว่าความถี่ในการสื่อสาร TP มีความใหญ่ที่สุด ปริมาณการสื่อสารมีค่าสูงสุด และเกี่ยวข้องกับจำนวนโทเค็น ความกว้างของโมเดล และจำนวนเลเยอร์ ปริมาณการสื่อสารและความถี่ของ PP เล็กกว่าของ TP และเกี่ยวข้องกับจำนวนโทเค็น และความกว้างของโมเดล ปริมาณการสื่อสารและความถี่ของ DP เล็กที่สุดและไม่เกี่ยวข้องกับโทเค็นขาเข้า
ปัญหาขีดจำกัดของทรัพยากรฮาร์ดแวร์คอมพิวเตอร์ในโมเดลขนาดใหญ่มีข้อจำกัดหลักๆ โดยมีการคำนวณพลังงาน แบนด์วิดธ์/การสื่อสาร และหน่วยความจำ และมีการตรวจสอบและคงสมดุลระหว่างทั้งสามอย่าง ทำใให้เกิดปัญหา Impossible Trilemma เช่นเดียวกับ จากข้อจำกัดในการสื่อสาร ประสิทธิภาพของคลัสเตอร์ไม่สามารถปรับปรุงได้โดยการปรับปรุงพลังงานของคอมพิวเตอร์เพียงเครื่องเดียว
ดังนั้น แม้ว่าโครงสร้างพร้อมกันจะถูกใช้ในการเร่งความเร็วในการทำงานของคลัสเตอร์ โครงสร้างพร้อมกันส่วนมากนั้นจริงๆ แล้วเสียสารสนเพื่อการคำนวณ
เสียสื่อสารและพื้นที่จัดเก็บเพื่อพลังการคำนวณ:
ใน PP หากมี GPU ถูกกำหนดให้กับแต่ละเลเยอร์ของตัวแปรทรานส์ฟอร์มเมอร์ ถึงแม้จะมีการเพิ่มพลังการคำนวณในหน่วยเวลา ความต้องการในการสื่อสารระหว่างเลเยอร์ก็เพิ่มขึ้นเช่นกัน ทำให้มีปริมาณข้อมูลและความล่าช้าเพิ่มขึ้น นอกจากนี้ ความต้องการในการจัดเก็บสถานะกลางของการส่งเสริมไปข้างหน้าเพิ่มขึ้นอย่างรวดเร็วที่สุด
เสียสื่อสารเพื่อพลังคำนวณ:
ใน TP ทุกตัวแปรถูกแยกออกสำหรับการคำนวณแบบขนานกัน โดยเนื่องจากตัวแปรประกอบด้วยสองส่วน (หัวใจความสนใจและเครือข่ายกำลังส่ง) งานสามารถแบ่งในชั้นเพื่อหัวใจความสนใจหรือเครือข่ายประสาทเชิงบวก วิธีการ TP นี้สามารถบรรเทาปัญหาของโครงสร้างหลายระดับของ PP มาจาก GPU ไม่สามารถพอดีกับโมเดล อย่างไรก็ตามวิธีการนี้ยังมีการสื่อสารเฉพาะอย่างร้ายแรง
ในเอกสารนี้ เราเชื่อว่าในปัจจุบันมีประเภทหลักๆ ของ AI ในสนามคริปโต ดังนี้:
แหล่งที่มา: จัดโดย HashKey Capital
เช่นที่กล่าวไว้แล้ว สามส่วนประกอบที่สำคัญที่สุดใน AI คือ ข้อมูล แบบจำลอง และพลังการคำนวณ ซึ่งทำหน้าที่เป็นโครงสร้างพื้นฐานเพื่อเสริมความสามารถของคริปโต AI
การผสมผสานของพวกเขาจริง ๆ ก็เป็นการสร้างเครือข่ายคอมพิวเตอร์ ด้วยจำนวนมากของ middleware ที่ปรากฏขึ้นในกระบวนการคำนวณเพื่อเป็นอย่างมีประสิทธิภาพและสอดคล้องกับวิญญาณคริปโตมากขึ้น ทางล่างคือตัวแทนที่ขึ้นอยู่กับผลลัพธ์ที่สามารถทำให้เห็นได้ว่าถูกต้อง ซึ่งสามารถให้บริการบทบาทต่าง ๆ สำหรับกลุ่มผู้ใช้ที่แตกต่างกันได้อีก
สามารถใช้แผนภูมิกระแสอีกอย่างสำหรับแสดงนิเวศวิธีพื้นฐานของ AI คริปโตได้ดังนี้:
แผนภูมินิเวศวิธี ที่มา: จัดทำโดย HashKey Capital
แน่นอนว่าการสร้างกลไกทางการเงินที่จำเป็นในพื้นที่คริปโตเพื่อสร้างสติมูลค่าให้กับการประสานงานกับผู้เล่นที่แตกต่างกัน
สำหรับชุดข้อมูล คุณสามารถเลือกระหว่างแหล่งข้อมูลสาธารณะหรือแหล่งข้อมูลส่วนตัวที่เฉพาะเจาะจงของตนเอง
แหล่งข้อมูล:
แพลตฟอร์มข้อมูลสังเคราะห์:
อื่นๆ:
แพลตฟอร์มบริการติดป้ายข้อมูลโดยการมอบหมายงานการติดป้ายให้กับคนงานที่แตกต่างกัน พวกเขาจะได้รับสิทธิ์ในการขอรางวัลตรงกันข้ามหลังจากทำงานเช่นคริปโต ไพ่จำลอง และอื่น ๆ อย่างไรก็ตามปัญหาปัจจุบันคือมีคนทำการติดป้ายข้อมูลมากกว่าข้อมูล ในขณะที่บริษัท AI มีผู้ผลิตข้อมูลการติดป้ายที่มั่นคงสำหรับความต้องการข้อมูลที่ติดป้ายเนื่องจากการมีอยู่ของความหดหู่ทำให้ความประสงค์ของพวกเขาที่จะสลับแพลตฟอร์มซึ่งอยู่ในลักษณะกระจายตัวอ่อนแอ แพลตฟอร์มเหล่านี้อาจเพียงสามารถได้รับการจัดสรรของส่วนที่เหลือของคำสั่งจากผู้ผลิตข้อมูลที่ติดป้าย
เครือข่ายการคำนวณทั่วไป หมายถึงเครือข่ายที่รวบรวมทรัพยากรเช่น GPUs และ CPUs เพื่อให้บริการการคำนวณทั่วไปซึ่งหมายความว่าไม่มีความแตกต่างระหว่างการฝึกสอนและการอ้างอิง
ในพื้นที่คริปโต, Gensyn, ที่ถูกลงทุนโดย a16z, предлагает ระบบคอมพิวเตอร์สำหรับการฝึกอบรมแบบกระจาย
กระบวนการคือหลังจากผู้ใช้ส่งงานความต้องการการฝึกอบรมแพลตฟอร์มจะวิเคราะห์และประเมินพลังการคำนวณที่จำเป็นรวมถึงแยกออกเป็นจำนวนขั้นต่ำของงาน ML ซึ่งตรงนี้ผู้ตรวจสอบจะเก็บงานที่วิเคราะห์อย่างสม่ำเสมอเพื่อสร้างค่าเกณฑ์สำหรับการเปรียบเทียบพิสูจน์การเรียนรู้ล่างๆ
เมื่องานเข้าสู่ขั้นตอนการฝึกอบรม มันจะถูกดำเนินการโดย Solver ซึ่งเก็บน้ำหนักโมเดลและดัชนีการตอบสนองจากชุดข้อมูลการฝึกอบรมเป็นระยะ ๆ พร้อมทั้งสร้างการพิสูจน์การเรียนรู้ และผู้ตรวจสอบทำงานคำนวณให้เกิดการทำงานซ้ำเพื่อทำการคำนวณระยะทางเพื่อยืนยันว่ามันตรงกับการพิสูจน์ นอกจากนี้ Whistleblowers ทำงานความถูกต้องโดยใช้โปรแกรมท้าทายบนกราฟเพื่อตรวจสอบว่างานการตรวจสอบถูกต้องหรือไม่
การปรับแต่งคือง่ายและมีค่าใช้จ่ายน้อยกว่าการฝึกฝนโดยตรงบนโมเดลขนาดใหญ่โดยการปรับแต่งโมเดลที่ถูกฝึกไว้ก่อนด้วยชุดข้อมูลที่เฉพาะเจาะจงและการปรับโมเดลให้เข้ากับงานที่เฉพาะเจาะจงในขณะที่ยังคงรักษาโมเดลเดิม
Hugging Face สามารถเข้าถึงได้เป็นผู้ให้บริการทรัพยากรโมเดลภาษาที่ถูกเตรียมไว้ล่วงหน้าสำหรับแพลตฟอร์มกระจาย ผู้ใช้เลือกโมเดลที่จะทำการปรับปรุงตามความต้องการของงานและใช้ GPU และทรัพยากรอื่นที่ให้บริการโดยเครือข่ายคอมพิวเตอร์สำหรับการปรับปรุงตามงาน ซึ่งจำเป็นต้องขึ้นอยู่กับความซับซ้อนของงานเพื่อกำหนดขนาดของชุดข้อมูล ความซับซ้อนของโมเดล และเพื่อกำหนดความต้องการในทรัพยากรระดับสูงเช่น A100
นอกจาก Gensyn แพลตฟอร์มที่สามารถรองรับการฝึกฝนล่วงหน้า แพลตฟอร์มคำนวณสามารถรองรับการปรับแต่งได้ด้วย
เมื่อเปรียบเทียบกับการฝึกอบรม (การฝึกก่อนและการปรับแต่ง), ซึ่งต้องการการปรับตั้งค่ารุ่นโมเดล กระบวนการคำนวณของการอ้างอิงเกี่ยวข้องกับการส่งต่อไปข้างหน้าเท่านั้น และต้องการพลังการคำนวณน้อยกว่า ระบบเครือข่ายการคำนวณที่มีการกระจายอย่างมากในปัจจุบันมุ่งเน้นบริการการอ้างอิง
เมื่อการสรุปถึงการดำเนินการที่อยู่ในขั้นตอนนี้เป็นขั้นตอนของการใช้โมเดลแล้ว จึงสามารถนำมิดเดิลแวร์เข้ามาในเวลาที่เหมาะสม:
On-chain smart contract เพื่อดึงข้อมูลผลลัพธ์จากการคำนวณ AI นอกเครือข่าย:
สามารถเพิ่มชั้นความเป็นส่วนตัวอีกชั้นหนึ่งในเครือข่ายคอมพิวเตอร์ได้ ซึ่งประกอบด้วยความเป็นส่วนตัวของข้อมูลและความเป็นส่วนตัวของโมเดล โดยที่ความเป็นส่วนตัวของข้อมูลมีความสำคัญมากกว่าความเป็นส่วนตัวของโมเดล
เครือข่ายคอมพิวเตอร์ของส่วนใหญ่สร้างระบบการตรวจสอบที่แตกต่างกันเพื่อให้ระบบเดินไปอย่างถูกต้องในขณะที่ลิงค์เป็นส่วนหนึ่งที่ยังไม่เคยถูกนำเสนอในฟิลด์ AI เดิม
บทบาทหลักของการพิสูจน์ ZK คือ 2 จุดต่อไปนี้:
Modulus Labs แสดงให้เห็นว่าเป็นไปได้ที่จะสร้างพิสูจน์สำหรับโมเดลที่มีพารามิเตอร์ 18 ล้านตัวใน 60–70 วินาทีโดยใช้ระบบพิสูจน์ Plonky ของ Polygon สำหรับโมเดลขนาดเล็ก เป็นไปได้ที่จะใช้ ZKML ในขั้นตอนนี้ แต่ค่าใช้จ่ายยังคงมีนัยสำคัญ
Source: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
ด้วยข้อ จํากัด ของ ZKML ที่อธิบายไว้ข้างต้น OPML จึงเป็นทางเลือก แม้ว่าจะอ่อนแอกว่า ZKML ในแง่ของความปลอดภัย แต่การใช้หน่วยความจําและเวลาในการคํานวณหลักฐานนั้นดีกว่า ZKML อย่างมาก ตามรายงาน ORA แสดงให้เห็นว่าสําหรับรุ่น 7B-LLaMA เดียวกัน (มีขนาดรุ่นประมาณ 26GB) opML สามารถประมวลผลได้ภายใน 32GB ของหน่วยความจําในขณะที่การใช้หน่วยความจําของวงจรใน zkML สามารถอยู่ในลําดับของเทราไบต์หรือแม้แต่เพตะไบต์
Trusted Execution Environment ให้ความปลอดภัยในระดับฮาร์ดแวร์และสามารถเป็นทางเลือกต่อ ZKML และ OPML ได้ TEE-proof ถูกสร้างขึ้นเป็นผลจากการคำนวณภายใน TEE และต้นทุนการคำนวณของมันมีราคาที่ต่ำมากกว่า zk-proof อีกด้วย ขนาดของ proof ของ TEE โดยปกติจะเป็นค่าคงที่ (ความยาวของลายเซ็น) และจึงมีข้อได้เปรียบในรูปทรงของพื้นที่ที่เล็กกว่าและต้นทุนการตรวจสอบ on-chain ที่ต่ำลง
นอกจากการตรวจสอบแล้ว TEE ยังมีข้อดีที่สามารถเก็บข้อมูลที่ละเอียดอ่อนรักษาไว้ในที่ๆ แยกออกมา ทำให้กระบวนการหรือการคำนวณภายนอกไม่สามารถเข้าถึงหรือเปลี่ยนแปลงข้อมูลภายในได้
โครงการที่ใช้ TEE ได้รวมถึง:
แหล่งที่มา: https://arxiv.org/pdf/2401.17555,โปรโตคอลมาร์ลิน
นอกจากนี้ โปรโตคอล ORA ได้พัฒนา opp/ai (Optimistic Privacy-Preserving AI on Blockchain) นอกจาก ZKML และการตรวจสอบ OPML ของตนเอง และไม่รวมอยู่ในตารางเปรียบเทียบด้านบน
เอเจนท์มีความสามารถในการวิเคราะห์ข้อมูลที่เข้ามา ประเมินเงื่อนไขสภาพแวดล้อมปัจจุบันและตัดสินใจ เอเจนท์ประกอบด้วยส่วนประกอบตามภาพด้านล่าง ซึ่ง LLM เป็นส่วนประกอบหลัก นอกจากนี้จำเป็นต้องเลี้ยงคำแนะนำที่เหมาะสมให้กับ LLM และผ่านหน่วยความจำเพื่อเก็บข้อมูลระยะสั้นและข้อมูลประวัติยาวนาน (ข้อมูลภายนอก)
เนื่องจากงานที่ซับซ้อนไม่สามารถทำเสร็จในคราวเดียวได้ จึงต้องแบ่งเป็นงานย่อยๆ โดย Plan นอกจากนี้ Agent ยังสามารถเรียกใช้ API ภายนอกเพื่อรับข้อมูลเพิ่มเติม รวมถึงข้อมูลปัจจุบัน ความสามารถในการดำเนินการโค้ด การเข้าถึงแหล่งข้อมูลที่เป็นเอกสิทธิ์ และอื่นๆ อีกมากมาย
แหล่งที่มา: การสำรวจเกี่ยวกับตัวแทนอัตโนมัสที่ใช้รูปแบบภาษาขนาดใหญ่
ความสามารถในการตัดสินใจของตัวแทนไม่มีการพัฒนาที่แน่ชัดจนกระชักมาถึงการเกิดของโมเดลภาษาขนาดใหญ่ LLM ในปีสุดท้าย เอกสารรายงานได้รวบรวมจำนวนของเอกสารที่เผยแพร่เกี่ยวกับตัวแทนตั้งแต่ปี 2021 ถึงปี 2023 ดังแสดงในภาพด้านล่าง ในความเป็นจริงมีเพียงประมาณหนึ่งโครงการวิจัยในปี 2021 แต่มีร้อยเอกสารที่เผยแพร่เกี่ยวกับพวกเขาในปี 2023 หนังสือฉบับนี้จะจัดหมวดหมู่ตัวแทนเป็น 7 ประเภท
แหล่งที่มา: การสำรวจเกี่ยวกับตัวแทนอัตโนมัสที่ใช้โมเดลภาษาขนาดใหญ่
ใน web3 ฉากที่เอเจ้นต์มีอยู่ยังมีข้อจำกัดเมื่อเปรียบเทียบกับโลก web2 และประกอบด้วยการล้างอัตโนมัติ การสร้างส่วนประกอบของโค้ด (เขียนสัญญาอัจฉริยะ เขียนวงจร zk) การควบคุมความเสี่ยงแบบเรียลไทม์ และการดำเนินกลยุทธ์เช่น อาร์บิเทรจ และการเกษียณเพาะเสียด
โดยอิงจากตัวแทนที่แตกต่างกัน สามารถรวม/รวมร่าย/สร้างแอปพลิเคชั่นเฉพาะได้ในเวลาเดียวกัน ในเวลาเดียวกัน มีแพลตฟอร์มประสานงานบางรายที่สามารถเลือกตัวแทนที่จะใช้สร้างประเภทแอปพลิเคชั่นที่เฉพาะเจาะจง แต่ส่วนใหญ่ของพวกเขาถูก จำกัด ในการพัฒนาตัวแทน
นักพัฒนาบางคนจะใช้ปัญญาประดิษฐ์บางส่วนเพื่อช่วยให้แพลตฟอร์มของพวกเขาฉลาดขึ้น เช่นในโครงการด้านความปลอดภัย การเรียนรู้ของเครื่องถูกใช้ในการแยกแยะช่องโหว่การโจมตี โปรโตคอล DeFi ใช้ปัญญาประดิษฐ์ในการสร้างเครื่องมือตรวจสอบแบบเรียลไทม์ และแพลตฟอร์มการวิเคราะห์ข้อมูลยังใช้ปัญญาประดิษฐ์เพื่อช่วยในการทำความสะอาดข้อมูลและการวิเคราะห์
ในบทความนี้เราอยากจะเน้น 3 ประเด็นต่อไปนี้:
ใน crypto เครือข่ายคอมพิวเตอร์จํานวนหนึ่งเกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ทําให้ผู้ใช้รู้สึกว่า GPU เป็น AI แต่ตามที่วิเคราะห์ในส่วนก่อนหน้ามี trilemma ที่เป็นไปไม่ได้ของเครือข่ายคอมพิวเตอร์เช่นพลังการประมวลผลแบนด์วิดท์ / การสื่อสารและหน่วยความจํารวมถึงกลยุทธ์แบบขนานสามประเภทที่ใช้ในการฝึกอบรมแบบจําลองเช่นข้อมูลขนานเทนเซอร์ขนาน และไปป์ไลน์ขนานทั้งหมดชี้ไปที่การตรวจสอบและยอดคงเหลือที่กําหนดไว้ในการตั้งค่ากรอบของเครือข่ายคอมพิวเตอร์
เหตุผลที่เหมือนกันและข้อมูลเดียวกันไม่จำเป็นต้องให้ผลลัพธ์เดียวกันคือการใช้การคำนวณทศนิยม ความแตกต่างในการคำนวณนี้ยังมีผลต่อการสร้างเครือข่ายคอมพิวเตอร์
เอไอ เอเจนต์เพียงเริ่มแสดงความมีประโยชน์มากขึ้นในปีหลังสุด และเราคาดหวังว่าเอเจนต์จะปรากฏขึ้นในตลาดมากขึ้น แต่ว่าเอเจนต์ทำงานในคริปโตหรือวิธีการหาสิ่งสนับสนุนโทเค็นที่เหมาะสมยังเป็นความท้าทาย
บทความนี้ถูกคัดลอกมาจาก[กลาง],ชื่อเรื่องเดิม "AI into Crypto" เป็นสิทธิ์ในการเขียนของผู้เขียนเดิม[HashKey Capital ],หากมีข้อผิดพลาดในการโพสต์กรุณาติดต่อทีม Gate Learnทีมจะดำเนินการตามกระบวนการที่เกี่ยวข้องเร็วที่สุด
คำปฏิเสธความรับผิด: มุมมองและความเห็นที่แสดงในบทความนี้เป็นเพียงมุมมองส่วนตัวของผู้เขียนเท่านั้น ไม่เป็นที่สร้างสรรค์ข้อเสนอแนะในการลงทุนใด ๆ
บทความเวอร์ชันอื่น ๆ ถูกแปลโดยทีม Gate Learn ในกรณีที่ไม่ได้กล่าวถึงGate.ioในกรณีที่ไม่ได้คัดลอก ส่งผ่าน หรือลอกเลียนแบบบทความที่ถูกแปล