AI สามารถอยู่รอดในโลก Crypto ได้หรือไม่: 18 การทดลอง Crypto รุ่นใหญ่

ขั้นสูง9/26/2024, 3:17:02 AM
AI ทํางานได้ดีกับอัลกอริธึมการเข้ารหัสและความรู้เกี่ยวกับบล็อกเชน แต่ทํางานได้ไม่ดีในการคํานวณทางคณิตศาสตร์และการวิเคราะห์เชิงตรรกะที่ซับซ้อน การพัฒนาเกณฑ์มาตรฐาน AI เฉพาะการเข้ารหัสเป็นสิ่งสําคัญมาก ซึ่งจะเป็นข้อมูลอ้างอิงที่สําคัญสําหรับการประยุกต์ใช้ AI ในฟิลด์การเข้ารหัส

ในพงศาวดารของความก้าวหน้าทางเทคโนโลยีเทคโนโลยีการปฏิวัติมักจะปรากฏอย่างอิสระแต่ละการเปลี่ยนแปลงชั้นนําในยุค และเมื่อเทคโนโลยีการปฏิวัติสองอย่างมาบรรจบกันการปะทะกันของพวกเขามักจะมีผลกระทบแบบทวีคูณ วันนี้เรากําลังยืนอยู่ในช่วงเวลาประวัติศาสตร์เช่นนี้: ปัญญาประดิษฐ์และเทคโนโลยีการเข้ารหัสซึ่งเป็นเทคโนโลยีใหม่ที่ก่อกวนอย่างเท่าเทียมกันกําลังเข้าสู่ใจกลางเวทีจับมือกัน

เราจินตนาการว่าความท้าทายมากมายในด้าน AI สามารถแก้ไขได้ด้วยเทคโนโลยีการเข้ารหัส เราหวังว่า AI Agent จะสร้างเครือข่ายเศรษฐกิจอิสระและส่งเสริมการนําเทคโนโลยีการเข้ารหัสมาใช้ในวงกว้าง นอกจากนี้เรายังหวังว่า AI จะสามารถเร่งการพัฒนาสถานการณ์ที่มีอยู่ในฟิลด์การเข้ารหัส สายตานับไม่ถ้วนมุ่งเน้นไปที่เรื่องนี้และเงินทุนจํานวนมหาศาลกําลังหลั่งไหลเข้ามา เช่นเดียวกับคําศัพท์ใด ๆ มันรวบรวมความปรารถนาของผู้คนสําหรับนวัตกรรมวิสัยทัศน์สําหรับอนาคตและยังมีความทะเยอทะยานและความโลภที่ไม่สามารถควบคุมได้

แต่ในทุกความวุ่นวายนี้ เรารู้มาน้อยมากเกี่ยวกับประเด็นพื้นฐานที่สุด ๆ นี้ ว่า AI ทราบเกี่ยวกับการเข้ารหัสอย่างไรบ้าง? ตัวแทนที่มีโมเดลภาษาขนาดใหญ่จริง ๆ มีความสามารถจริงในการใช้เครื่องมือเข้ารหัสหรือไม่? โมเดลที่แตกต่างกันมีผลต่างกันมากน้อยเท่าใดในงานเข้ารหัส?

คำตอบของคำถามเหล่านี้จะกำหนดผลกระทบที่เป็นกันเองระหว่าง AI และเทคโนโลยีการเข้ารหัส และยังเป็นสิ่งสำคัญสำหรับทิศทางผลิตภัณฑ์และการเลือกเส้นทางเทคโนโลยีในส่วนนี้ ในการสำรวจคำถามเหล่านี้ ฉันได้ดำเนินการทดลองประเมินบางสิ่งบางอย่างในแบบจำลองภาษาใหญ่ โดยการประเมินความรู้และความสามารถของพวกเขาในสนามระบบการเข้ารหัส เราจะวัดระดับการประยุกต์ใช้การเข้ารหัสของ AI และกำหนดศักยภาพและความท้าทายในการรวมกันของ AI และเทคโนโลยีการเข้ารหัส

เรามาพูดถึงสรุปผลกันก่อน

โมเดลภาษาขนาดใหญ่ทํางานได้ดีในความรู้พื้นฐานเกี่ยวกับการเข้ารหัสและบล็อกเชน และมีความเข้าใจที่ดีเกี่ยวกับระบบนิเวศการเข้ารหัส แต่ทํางานได้ไม่ดีในการคํานวณทางคณิตศาสตร์และการวิเคราะห์ตรรกะทางธุรกิจที่ซับซ้อน ในแง่ของคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินขั้นพื้นฐานโมเดลนี้มีรากฐานที่น่าพอใจ แต่ต้องเผชิญกับความท้าทายที่ร้ายแรงในการเก็บคีย์ส่วนตัวไว้ในระบบคลาวด์ หลายรุ่นสามารถสร้างรหัสสัญญาอัจฉริยะที่มีประสิทธิภาพสําหรับสถานการณ์ง่ายๆ แต่ไม่สามารถทํางานที่ยากลําบากได้อย่างอิสระ เช่น การตรวจสอบสัญญาและการสร้างสัญญาที่ซับซ้อน

โมเดลแบบปิดเชิงพาณิชย์โดยทั่วไปมีผู้นํารายใหญ่ ในค่ายโอเพ่นซอร์สมีเพียง Llama 3.1-405B เท่านั้นที่ทํางานได้ดีในขณะที่โมเดลโอเพ่นซอร์สทั้งหมดที่มีขนาดพารามิเตอร์ที่เล็กกว่าล้มเหลว อย่างไรก็ดี ด้วยคําแนะนําคําที่รวดเร็วการให้เหตุผลห่วงโซ่ความคิดและเทคโนโลยีการเรียนรู้ไม่กี่ช็อตประสิทธิภาพของทุกรุ่นได้รับการปรับปรุงอย่างมาก โมเดลชั้นนํามีความเป็นไปได้ทางเทคนิคที่แข็งแกร่งในบางสถานการณ์การใช้งานแนวตั้ง

รายละเอียดการทดลอง

เลือกแบบจำลองภาษาตัวแทน 18 ราย เป็นวัตถุประสงค์ในการประเมิน รวมถึง:

  • โมเดลแบบปิด: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (ปิดรหัสชั่วคราว)
  • Open source models: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • โมเดลการจัดการทางคณิตศาสตร์: Qwen2-math-72B, MathΣtral

โมเดลเหล่านี้ครอบคลุมโมเดลเชิงพาณิชย์และโอเพ่นซอร์สยอดนิยมโดยมีจํานวนพารามิเตอร์มากกว่าร้อยเท่าจาก 3.8B ถึง 405B เมื่อพิจารณาถึงความสัมพันธ์ที่ใกล้ชิดระหว่างเทคโนโลยีการเข้ารหัสและคณิตศาสตร์แบบจําลองการเพิ่มประสิทธิภาพทางคณิตศาสตร์สองแบบได้รับการคัดเลือกเป็นพิเศษสําหรับการทดลอง

พื้นที่ความรู้ที่ครอบคลุมโดยการทดลอง ได้แก่ การเข้ารหัสพื้นฐานบล็อกเชนคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินสัญญาอัจฉริยะ DAO และการกํากับดูแลฉันทามติและแบบจําลองทางเศรษฐกิจ Dapp / DeFi / NFT การวิเคราะห์ข้อมูลแบบ on-chain เป็นต้น แต่ละสาขาประกอบด้วยชุดคําถามและงานตั้งแต่ง่ายไปจนถึงยากซึ่งไม่เพียง แต่ทดสอบความรู้สํารองของแบบจําลอง แต่ยังทดสอบประสิทธิภาพในสถานการณ์การใช้งานผ่านงานจําลอง

การออกแบบงานมาจากแหล่งที่หลากหลาย บางส่วนมาจากการป้อนข้อมูลของผู้เชี่ยวชาญหลายคนในสาขาการเข้ารหัสและอีกส่วนหนึ่งถูกสร้างขึ้นด้วยความช่วยเหลือของ AI และการพิสูจน์อักษรด้วยตนเองเพื่อให้แน่ใจว่างานมีความถูกต้องและท้าทาย งานบางอย่างใช้คําถามแบบปรนัยในรูปแบบที่ค่อนข้างง่ายเพื่ออํานวยความสะดวกในการทดสอบและการให้คะแนนอัตโนมัติที่เป็นมาตรฐานแยกต่างหาก อีกส่วนหนึ่งของการทดสอบใช้รูปแบบคําถามที่ซับซ้อนมากขึ้นและกระบวนการทดสอบดําเนินการโดยการรวมกันของระบบอัตโนมัติของโปรแกรม + คู่มือ + AI งานทดสอบทั้งหมดได้รับการประเมินโดยใช้วิธีการให้เหตุผลแบบศูนย์ตัวอย่างโดยไม่ต้องให้ตัวอย่างคําแนะนําทางความคิดหรือคําแนะนําใด ๆ

เนื่องจากการออกแบบการทดลองนั้นค่อนข้างหยาบและไม่มีความเข้มงวดทางวิชาการเพียงพอคําถามและงานที่ใช้สําหรับการทดสอบจึงยังห่างไกลจากการครอบคลุมฟิลด์การเข้ารหัสอย่างเต็มที่และกรอบการทดสอบก็ยังไม่บรรลุนิติภาวะ ดังนั้นบทความนี้ไม่ได้แสดงรายการข้อมูลการทดลองที่เฉพาะเจาะจง แต่มุ่งเน้นไปที่การแบ่งปันข้อมูลเชิงลึกบางอย่างจากการทดลอง

ความรู้/แนวคิด

ในระหว่างกระบวนการประเมินแบบจําลองภาษาขนาดใหญ่ทํางานได้ดีในการทดสอบความรู้พื้นฐานในด้านต่างๆเช่นอัลกอริธึมการเข้ารหัสพื้นฐานบล็อกเชนและแอปพลิเคชัน DeFi ตัวอย่างเช่นทุกรุ่นให้คําตอบที่ถูกต้องสําหรับคําถามที่ทดสอบความเข้าใจในแนวคิดของความพร้อมใช้งานของข้อมูล สําหรับคําถามที่ประเมินความเข้าใจของแบบจําลองเกี่ยวกับโครงสร้างธุรกรรม Ethereum แม้ว่าแต่ละรุ่นจะมีคําตอบที่แตกต่างกันเล็กน้อยในรายละเอียด แต่โดยทั่วไปจะมีข้อมูลสําคัญที่ถูกต้อง คําถามแบบปรนัยที่ตรวจสอบแนวคิดนั้นยากน้อยกว่าและความแม่นยําของเกือบทุกรุ่นนั้นสูงกว่า 95%

คำถามและคำตอบในเชิงแนวความคิดเป็นสิ่งที่ยากมากสำหรับโมเดลขนาดใหญ่

ตรรกะธุรกิจ/ตรรกะธุรกิจ

อย่างไรก็ตามสถานการณ์จะกลับกันเมื่อพูดถึงปัญหาที่ต้องมีการคํานวณเฉพาะ ปัญหาการคํานวณอัลกอริทึม RSA อย่างง่ายทําให้โมเดลส่วนใหญ่มีปัญหา เข้าใจง่าย: แบบจําลองภาษาขนาดใหญ่ทํางานเป็นหลักโดยการระบุและจําลองรูปแบบในข้อมูลการฝึกอบรมแทนที่จะเข้าใจธรรมชาติของแนวคิดทางคณิตศาสตร์อย่างลึกซึ้ง ข้อ จํากัด นี้ชัดเจนโดยเฉพาะอย่างยิ่งเมื่อจัดการกับแนวคิดทางคณิตศาสตร์ที่เป็นนามธรรมเช่นการดําเนินการแบบแยกส่วนและการดําเนินการแบบเอ็กซ์โพเนนเชียล เนื่องจากสาขาการเข้ารหัสมีความสัมพันธ์อย่างใกล้ชิดกับคณิตศาสตร์ซึ่งหมายความว่าการพึ่งพาแบบจําลองโดยตรงสําหรับการคํานวณทางคณิตศาสตร์ที่เกี่ยวข้องกับการเข้ารหัสนั้นไม่น่าเชื่อถือ。

ในปัญหาคอมพิวเตอร์อื่น ๆ ประสิทธิภาพของโมเดลภาษาขนาดใหญ่ก็ไม่เป็นที่น่าพอใจเช่นกัน ตัวอย่างเช่นสําหรับคําถามง่ายๆในการคํานวณการสูญเสีย AMM ที่ไม่แน่นอนแม้ว่าจะไม่เกี่ยวข้องกับการดําเนินการทางคณิตศาสตร์ที่ซับซ้อน แต่มีเพียง 4 จาก 18 รุ่นเท่านั้นที่ให้คําตอบที่ถูกต้อง สําหรับคําถามพื้นฐานเพิ่มเติมเกี่ยวกับการคํานวณความน่าจะเป็นของบล็อกทุกรุ่นได้รับคําตอบผิด มันทําให้ทุกรุ่นสะดุดและไม่มีใครถูกต้อง สิ่งนี้ไม่เพียง แต่เปิดเผยข้อบกพร่องของแบบจําลองภาษาขนาดใหญ่ในการคํานวณที่แม่นยํา แต่ยังสะท้อนถึงปัญหาสําคัญในการวิเคราะห์ตรรกะทางธุรกิจ เป็นที่น่าสังเกตว่าแม้แต่แบบจําลองการเพิ่มประสิทธิภาพทางคณิตศาสตร์ก็ไม่สามารถแสดงข้อได้เปรียบที่ชัดเจนในคําถามการคํานวณและประสิทธิภาพของมันก็น่าผิดหวัง

อย่างไรก็ตามปัญหาของการคํานวณทางคณิตศาสตร์ไม่สามารถแก้ไขได้ หากเราทําการปรับเปลี่ยนเล็กน้อยและต้องใช้ LLM เพื่อให้โค้ด Python ที่สอดคล้องกันแทนที่จะคํานวณผลลัพธ์โดยตรงอัตราความแม่นยําจะดีขึ้นอย่างมาก ยกตัวอย่างปัญหาการคํานวณ RSA ดังกล่าวข้างต้นรหัส Python ที่กําหนดโดยโมเดลส่วนใหญ่สามารถดําเนินการได้อย่างราบรื่นและให้ผลลัพธ์ที่ถูกต้อง ในสภาพแวดล้อมการผลิตจริงสามารถให้รหัสอัลกอริทึมที่ตั้งไว้ล่วงหน้าเพื่อหลีกเลี่ยงการคํานวณ LLM ด้วยตนเองซึ่งคล้ายกับวิธีที่มนุษย์จัดการกับงานดังกล่าว ในระดับตรรกะทางธุรกิจประสิทธิภาพของแบบจําลองยังสามารถปรับปรุงได้อย่างมีประสิทธิภาพผ่านคําแนะนําคําที่รวดเร็วที่ออกแบบมาอย่างพิถีพิถัน

การจัดการกุญแจส่วนตัวและการดำเนินการกระเป๋าเงิน

หากคุณถามว่าสถานการณ์แรกสําหรับ Agent ในการใช้สกุลเงินดิจิทัลคืออะไรคําตอบของฉันคือการชําระเงิน Cryptocurrency ถือได้ว่าเป็นรูปแบบสกุลเงินดั้งเดิมของ AI เมื่อเทียบกับอุปสรรคมากมายที่ตัวแทนต้องเผชิญในระบบการเงินแบบดั้งเดิมเป็นทางเลือกที่เป็นธรรมชาติในการใช้เทคโนโลยีการเข้ารหัสเพื่อจัดเตรียมข้อมูลประจําตัวดิจิทัลและจัดการเงินผ่านกระเป๋าเงินที่เข้ารหัส ดังนั้นการสร้างและการจัดการคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินต่างๆจึงเป็นข้อกําหนดทักษะพื้นฐานที่สุดสําหรับตัวแทนเพื่อให้สามารถใช้เครือข่ายการเข้ารหัสได้อย่างอิสระ

หัวใจของการสร้างกุญแจส่วนตัวอย่างปลอดภัยอยู่ในตัวเลขสุ่มคุณภาพสูงที่เป็นความสามารถที่โมเดลภาษาขนาดใหญ่ไม่มี อย่างไรก็ตาม โมเดลมีความเข้าใจเพียงพอเกี่ยวกับความปลอดภัยของกุญแจส่วนตัว เมื่อถามให้สร้างกุญแจส่วนตัว โมเดลส่วนใหญ่เลือกใช้โค้ด (เช่น ไลบรารีที่เกี่ยวข้องกับ Python) เพื่อนำทางผู้ใช้ในการสร้างกุญแจส่วนตัวอิสระ แม้แต่ถ้าโมเดลให้กุญแจส่วนตัวโดยตรง ก็ได้ระบุอย่างชัดเจนว่านี้เพียงเพื่อการสาธิตและไม่ใช่กุญแจส่วนตัวที่ปลอดภัยที่สามารถใช้ได้โดยตรง ในที่นี้ โมเดลทั้งหมดแสดงประสิทธิภาพที่น่าพอใจ

การจัดการคีย์ส่วนตัวต้องเผชิญกับความท้าทายบางอย่างซึ่งส่วนใหญ่เกิดจากข้อ จํากัด โดยธรรมชาติของสถาปัตยกรรมทางเทคนิคมากกว่าการขาดความสามารถของโมเดล เมื่อใช้โมเดลที่ปรับใช้ภายในคีย์ส่วนตัวที่สร้างขึ้นจะถือว่าค่อนข้างปลอดภัย อย่างไรก็ตามหากใช้โมเดลคลาวด์เชิงพาณิชย์เราต้องสันนิษฐานว่าคีย์ส่วนตัวสัมผัสกับตัวดําเนินการโมเดลในขณะที่สร้าง แต่สําหรับตัวแทนที่มีจุดมุ่งหมายในการทํางานอย่างอิสระจําเป็นต้องมีสิทธิ์คีย์ส่วนตัวซึ่งหมายความว่าคีย์ส่วนตัวไม่สามารถอยู่ในเครื่องของผู้ใช้เท่านั้น ในกรณีนี้การพึ่งพาโมเดลเพียงอย่างเดียวนั้นไม่เพียงพอที่จะรับรองความปลอดภัยของคีย์ส่วนตัวอีกต่อไปและจําเป็นต้องแนะนําบริการรักษาความปลอดภัยเพิ่มเติมเช่นสภาพแวดล้อมการดําเนินการที่เชื่อถือได้หรือ HSM

หากสันนิษฐานว่าตัวแทนถือคีย์ส่วนตัวไว้อย่างปลอดภัยและดําเนินการพื้นฐานต่างๆบนพื้นฐานนี้โมเดลต่างๆในการทดสอบได้แสดงความสามารถที่ดี แม้ว่าจะมีข้อผิดพลาดในขั้นตอนและรหัสที่สร้างขึ้นบ่อยครั้ง แต่ปัญหาเหล่านี้สามารถแก้ไขได้ในระดับใหญ่ด้วยโครงสร้างทางวิศวกรรมที่เหมาะสม อาจกล่าวได้ว่าจากมุมมองทางเทคนิคไม่มีอุปสรรคมากมายสําหรับ Agent ในการดําเนินการกระเป๋าเงินขั้นพื้นฐานอย่างอิสระอีกต่อไป

สมาร์ทคอนแทรกต์

ความสามารถในการทําความเข้าใจใช้เขียนและระบุความเสี่ยงของสัญญาอัจฉริยะเป็นกุญแจสําคัญสําหรับตัวแทน AI ในการทํางานที่ซับซ้อนในโลกแบบ on-chain ดังนั้นจึงเป็นพื้นที่ทดสอบที่สําคัญสําหรับการทดลอง แบบจําลองภาษาขนาดใหญ่ได้แสดงศักยภาพที่สําคัญในพื้นที่นี้ แต่พวกเขายังประสบปัญหาที่ชัดเจนบางอย่าง

เกือบทุกรุ่นในการทดสอบตอบแนวคิดสัญญาพื้นฐานอย่างถูกต้องระบุข้อบกพร่องง่ายๆ ในแง่ของการเพิ่มประสิทธิภาพก๊าซตามสัญญาโมเดลส่วนใหญ่สามารถระบุจุดเพิ่มประสิทธิภาพที่สําคัญและวิเคราะห์ความขัดแย้งที่อาจเกิดจากการเพิ่มประสิทธิภาพ อย่างไรก็ตามเมื่อเกี่ยวข้องกับตรรกะทางธุรกิจที่ลึกซึ้งข้อ จํากัด ของโมเดลขนาดใหญ่จะเริ่มแสดง

ในตัวอย่างสัญญาการสะสมโทเค็น: โมเดลทั้งหมดเข้าใจฟังก์ชันของสัญญาได้อย่างถูกต้องและโมเดลส่วนใหญ่พบช่องโหว่ระดับกลางและระดับต่ำหลายอย่าง อย่างไรก็ตามไม่มีโมเดลใดสามารถค้นพบช่องโหว่ระดับสูงที่ซ่อนอยู่ในตรรกะธุรกิจซึ่งอาจทำให้มีเงินถูกล็อคไว้ในกรณีพิเศษ ผ่านการทดสอบหลายครั้งโดยใช้สัญญาจริงๆ โมเดลประพฤติการณ์เช่นเดียวกันประมาณเท่ากัน

สิ่งนี้แสดงให้เห็นว่าความเข้าใจในสัญญาของโมเดลขนาดใหญ่ยังคงอยู่ในระดับที่เป็นทางการและขาดความเข้าใจในตรรกะทางธุรกิจที่ลึกซึ้ง อย่างไรก็ตามหลังจากได้รับคําแนะนําเพิ่มเติมในที่สุดบางรุ่นก็สามารถระบุช่องโหว่ที่ซ่อนอยู่อย่างลึกซึ้งในสัญญาที่กล่าวถึงข้างต้นได้อย่างอิสระ จากการตัดสินประสิทธิภาพนี้ด้วยการสนับสนุนการออกแบบทางวิศวกรรมที่ดีโมเดลขนาดใหญ่มีความสามารถในการทําหน้าที่เป็นนักบินร่วมในด้านสัญญาอัจฉริยะ อย่างไรก็ตามยังมีหนทางอีกยาวไกลก่อนที่เราจะสามารถดําเนินงานที่สําคัญได้อย่างอิสระเช่นการตรวจสอบสัญญา

สิ่งหนึ่งที่ควรทราบคืองานที่เกี่ยวข้องกับโค้ดในการทดลองส่วนใหญ่มีไว้สําหรับสัญญาที่มีตรรกะอย่างง่ายและโค้ดน้อยกว่า 2,000 บรรทัด สําหรับโครงการที่ซับซ้อนขนาดใหญ่โดยไม่ต้องปรับแต่งหรือวิศวกรรมคําที่ซับซ้อนฉันคิดว่ามันเกินความสามารถในการประมวลผลที่มีประสิทธิภาพของรุ่นปัจจุบันอย่างชัดเจนและไม่รวมอยู่ในการทดสอบ นอกจากนี้การทดสอบนี้เกี่ยวข้องกับ Solidity เท่านั้นและไม่รวมถึงภาษาสัญญาอัจฉริยะอื่น ๆ เช่น Rust และ Move

นอกเหนือจากเนื้อหาการทดสอบด้านบน การทดลองนี้ยังครอบคลุมด้านหลายด้านรวมถึงสถานการณ์ DeFi, DAO และการบริหารระบบของมัน, การวิเคราะห์ข้อมูลบนเชื่อมต่อ, การออกแบบกลไกของตรงต่อเสียง และ Tokenomics รุ่นใหญ่ จะเสด็จสิ้นความสามารถบางอย่างในด้านเหล่านี้ โดยที่การทดสอบหลายรายการยังคงอยู่ในระหว่างดำเนินการและขั้นตอนการทดสอบและกรอบการทดสอบก็ยังคงถูกปรับปรุงอยู่อย่างต่อเนื่อง บทความนี้จะไม่ลึกลงไปในด้านเหล่านี้ในขณะนี้

ความแตกต่างของโมเดล

ในหมดังนั้น โมเดลภาษาขนาดใหญ่ทุกตัวที่เข้าร่วมการประเมิน GPT-4o และ Claude 3.5 Sonnet ได้รัดเร็วการประperformครงองดีในสาขาอื่น ๆ และเป็นผู้นำที่ไม่มีเท่าเทียมเมื่อเผชื่อระดับพื้นฐาน โมเดลสองตัวสามารถให้คำตอบที่แม่นยำเกือลัมสามถถถถจภายในข้อความขั้นพื้นฐาน; ในการวิเคราะห์ฉว้ันาระดับซับซ้อน พวดสามารถให้ข้อเสื้ยยงและข้อเสื้ยยงที่มีความลึกลับได้ มันแสดงอัตราชนะชนะสูงในงานคำนวณที่โมเดลขนาดใหญ่ไม่เก่าดี แน่นอน อัตราสำเร็จที่”สูง” นี่้มีความสัมพัน์์และยังไม่ได้ถึงระดับผลลัพธ์ที่มั่นคงในสภาพแว้งการผลิต

ในแคมป์โมเดลโอเพนซอร์ส Llama 3.1-405B ได้ล้ำหน้ากว่าคู่แข่งด้วยมาตราส่วนพารามิเตอร์ขนาดใหญ่และอัลกอริทึมโมเดลที่ขั้นสูง ในโมเดลโอเพนซอร์สอื่นที่มีขนาดพารามิเตอร์เล็กกว่าจะไม่มีความแตกต่างทางประสิทธิภาพที่สำคัญระหว่างโมเดล แม้ว่าคะแนนจะแตกต่างเล็กน้อย โดยรวมแล้วพวกเขาอยู่ห่างจากเส้นผ่านไปไกล

ดังนั้นหากคุณต้องการสร้างแอปพลิเคชัน AI ที่เกี่ยวข้องกับการเข้ารหัสในปัจจุบัน โมเดลเหล่านี้ที่มีพารามิเตอร์ขนาดเล็กและขนาดกลางไม่ใช่ตัวเลือกที่เหมาะสม

สองรุ่นโดดเด่นเป็นพิเศษในการตรวจสอบของเรา รุ่นแรกคือรุ่น Phi-3 3.8B ที่เปิดตัวโดย Microsoft มันเป็นรุ่นที่เล็กที่สุดที่เข้าร่วมในการทดลองนี้ อย่างไรก็ตามมันถึงระดับประสิทธิภาพเทียบเท่ากับรุ่น 8B-12B ที่มีจํานวนพารามิเตอร์น้อยกว่าครึ่งหนึ่ง ในบางหมวดหมู่, ดียิ่งขึ้นในประเด็น. ผลลัพธ์นี้เน้นย้ําถึงความสําคัญของการเพิ่มประสิทธิภาพสถาปัตยกรรมโมเดลและกลยุทธ์การฝึกอบรมที่ไม่ต้องพึ่งพาการเพิ่มขนาดพารามิเตอร์เพียงอย่างเดียว

และโมเดล Command-R ของ Cohere กลายเป็น "ม้ามืด" ที่น่าแปลกใจ - แตกต่างกันอย่างกลับกัน โมเดล Command-R ไม่เป็นที่รู้จักดีเท่ากับโมเดลอื่น ๆ แต่ Cohere เป็นบริษัทโมเดลขนาดใหญ่ที่เน้นตลาด 2B ฉันคิดว่ายังมีจุดศูนย์สูตรกับพื้นที่ต่าง ๆ เช่นการพัฒนาเอเย็นต์ดังนั้นจึงรวมไปอยู่ในขอบเขตการทดสอบเฉพาะ อย่างไรก็ตาม Command-R ที่มีพารามิเตอร์ 35B จัดอันดับสุดท้ายในส่วนใหญ่ของการทดสอบ แพ้กับโมเดลหลายรายการที่มีน้อยกว่า 10B

ผลลัพธ์นี้ทําให้เกิดการคิด: เมื่อ Command-R ถูกปล่อยออกมาจะมุ่งเน้นไปที่การปรับปรุงการดึงข้อมูลและความสามารถในการสร้างและไม่ได้เผยแพร่ผลการทดสอบมาตรฐานปกติ นี่หมายความว่าเป็น "คีย์ส่วนตัว" ที่ปลดล็อกศักยภาพสูงสุดเฉพาะในบางสถานการณ์หรือไม่?

ข้อ จำกัด ในการทดลอง

ในชุดทดสอบซีรีส์นี้ เราได้เข้าใจเบื้องต้นถึงความสามารถของ AI ในด้านการเข้ารหัสลับ แน่นอนว่าการทดสอบเหล่านี้อยู่ห่างไกลจากมาตรฐานอาชีพ ความครอบคลุมของชุดข้อมูลยังไม่เพียงพอ มาตรฐานปริมาณสำหรับคำตอบเป็นรูปแบบที่ไม่ค่อยละเอียด และยังขาดการเจริญและกลไกการให้คะแนนที่แม่นยำมากขึ้น สิ่งเหล่านี้จะส่งผลต่อความแม่นยำของผลการประเมินและอาจส่งผลให้เกิดการประเมินสมรรถนะที่ต่ำลงของบางแบบจำลอง

ในแง่ของวิธีการทดสอบการทดลองใช้วิธีการเรียนรู้แบบ zero-shot เพียงวิธีเดียวและไม่ได้สํารวจวิธีการต่างๆเช่นห่วงโซ่การคิดและการเรียนรู้แบบ few-shot ที่สามารถสร้างแรงบันดาลใจให้กับโมเดลได้มากขึ้น ในแง่ของพารามิเตอร์แบบจําลองพารามิเตอร์แบบจําลองมาตรฐานถูกนํามาใช้ในการทดลองและผลกระทบของการตั้งค่าพารามิเตอร์ที่แตกต่างกันต่อประสิทธิภาพของแบบจําลองไม่ได้ถูกตรวจสอบ วิธีการทดสอบเดี่ยวโดยรวมเหล่านี้จํากัดการประเมินศักยภาพของโมเดลอย่างครอบคลุมและไม่สามารถสํารวจความแตกต่างในประสิทธิภาพของโมเดลได้อย่างเต็มที่ภายใต้เงื่อนไขเฉพาะ

แม้ว่าเงื่อนไขการทดสอบจะเป็นเงื่อนไขที่เรียบง่าย การทดลองเหล่านี้ก็ยังผลิตข้อมูลที่มีคุณค่ามากมายและให้ข้อมูลอ้างอิงให้แก่นักพัฒนาในการสร้างแอปพลิเคชัน

พื้นที่คริปโตต้องการเกณฑ์มาตรฐานของตัวเอง

ในด้าน AI มาตรฐานเป็นปัจจัยที่สำคัญ การพัฒนาอย่างรวดเร็วของเทคโนโลยีการเรียนรู้ลึกลับยุคใหม่เกิดจาก ImageNET ที่ Prof. Li Feifei ได้ทำเสร็จในปี 2012 ซึ่งเป็นมาตรฐานและชุดข้อมูลที่สามารถใช้ในด้านการมองเห็นของคอมพิวเตอร์

ด้วยการให้มาตรฐานที่เป็นหนึ่งเดียวสําหรับการประเมินเกณฑ์มาตรฐานไม่เพียง แต่ช่วยให้นักพัฒนามีเป้าหมายที่ชัดเจนและจุดอ้างอิง แต่ยังขับเคลื่อนความก้าวหน้าทางเทคโนโลยีทั่วทั้งอุตสาหกรรม สิ่งนี้อธิบายได้ว่าทําไมโมเดลภาษาขนาดใหญ่ที่เพิ่งเปิดตัวใหม่ทุกรุ่นจะมุ่งเน้นไปที่การประกาศผลลัพธ์ในเกณฑ์มาตรฐานต่างๆ ผลลัพธ์เหล่านี้กลายเป็น "ภาษาสากล" ของความสามารถของแบบจําลองทําให้นักวิจัยสามารถค้นหาความก้าวหน้านักพัฒนาสามารถเลือกโมเดลที่เหมาะสมที่สุดสําหรับงานเฉพาะและผู้ใช้ตัดสินใจเลือกอย่างชาญฉลาดตามข้อมูลวัตถุประสงค์ ที่สําคัญกว่านั้นการทดสอบเกณฑ์มาตรฐานมักจะประกาศทิศทางในอนาคตของแอปพลิเคชัน AI ซึ่งเป็นแนวทางในการลงทุนทรัพยากรและการมุ่งเน้นการวิจัย

หากเราเชื่อว่ามีศักยภาพใหญ่ที่สุดที่จะทำให้ AI และการเข้ารหัสเชื่อมต่อกัน เราจึงต้องสร้างเกณฑ์การเข้ารหัสที่กำหนดเองเป็นงานที่เร่งด่วน การสร้างเกณฑ์เป็นสะพานสำคัญที่เชื่อมโยงระหว่างสองสาขาของ AI และการเข้ารหัส กระตุ้นนวัตกรรม และให้คำแนะนำชัดเจนสำหรับการใช้งานในอนาคต

อย่างไรก็ตามเมื่อเทียบกับเกณฑ์มาตรฐานที่เป็นผู้ใหญ่ในสาขาอื่น ๆ การสร้างเกณฑ์มาตรฐานในด้านการเข้ารหัสต้องเผชิญกับความท้าทายที่ไม่เหมือนใคร: เทคโนโลยีการเข้ารหัสกําลังพัฒนาอย่างรวดเร็วระบบความรู้ในอุตสาหกรรมยังไม่แข็งตัวและขาดฉันทามติในหลายทิศทางหลัก ในฐานะที่เป็นสาขาสหวิทยาการการเข้ารหัสครอบคลุมการเข้ารหัสระบบกระจายเศรษฐศาสตร์ ฯลฯ และความซับซ้อนของมันอยู่ไกลเกินกว่าสาขาเดียว สิ่งที่ท้าทายยิ่งกว่าคือเกณฑ์มาตรฐานการเข้ารหัสไม่เพียง แต่ต้องประเมินความรู้ แต่ยังตรวจสอบความสามารถในทางปฏิบัติของ AI ในการใช้เทคโนโลยีการเข้ารหัสซึ่งต้องมีการออกแบบสถาปัตยกรรมการประเมินใหม่ การขาดชุดข้อมูลที่เกี่ยวข้องยิ่งเพิ่มความยากลําบาก

ความซับซ้อนและความสำคัญของงานนี้กำหนดให้ไม่สามารถทำได้โดยบุคคลเดียวหรือทีมเดียว จะต้องนำมาประกอบด้วยปัจจัยจากผู้ใช้งาน นักพัฒนา ผู้เชี่ยวชาญด้านการเข้ารหัส นักวิจัยด้านการเข้ารหัส และผู้คนในสาขาวิชาต่างๆ และต้องพึ่งพาการมีส่วนร่วมของชุมชนและความเห็นชอบจากชุมชนอย่างแพร่หลาย ดังนั้น มาตรวัดการเข้ารหัสจำเป็นต้องมีการพูดคุยกันอย่างกว้างขวาง เพราะมันไม่ใช่งานทางเทคนิคเท่านั้น แต่ยังเป็นการสะท้อนความคิดลึกๆ เกี่ยวกับวิธีการเข้าใจเทคโนโลยีที่เกิดขึ้นใหม่นี้อีกด้วย

คำประกันความ

  1. บทความนี้ถูกพิมพ์ใหม่จาก [ Empower Labs]. ลิขสิทธิ์ทั้งหมดเป็นของผู้เขียนต้นฉบับ [วังเจ้า]. หากมีการท้าทานในการพิมพ์นี้ โปรดติดต่อเกต เรียนทีม และพวกเขาจะดำเนินการต่อไปโดยpromptly
  2. คำประกาศความรับผิดส่วนใหญ่: มุมมองและความคิดเห็นที่แสดงในบทความนี้เป็นเพียงเพียงผู้เขียนเท่านั้นและไม่เป็นที่เป็นที่ปรึกษาการลงทุนใด ๆ
  3. การแปลบทความเป็นภาษาอื่น ๆ ทำโดยทีม Gate Learn หากไม่ได้กล่าวถึง การคัดลอก การกระจาย หรือการลอกเลียนบทความที่ถูกแปล ถือเป็นการละเมิดสิทธิ์

AI สามารถอยู่รอดในโลก Crypto ได้หรือไม่: 18 การทดลอง Crypto รุ่นใหญ่

ขั้นสูง9/26/2024, 3:17:02 AM
AI ทํางานได้ดีกับอัลกอริธึมการเข้ารหัสและความรู้เกี่ยวกับบล็อกเชน แต่ทํางานได้ไม่ดีในการคํานวณทางคณิตศาสตร์และการวิเคราะห์เชิงตรรกะที่ซับซ้อน การพัฒนาเกณฑ์มาตรฐาน AI เฉพาะการเข้ารหัสเป็นสิ่งสําคัญมาก ซึ่งจะเป็นข้อมูลอ้างอิงที่สําคัญสําหรับการประยุกต์ใช้ AI ในฟิลด์การเข้ารหัส

ในพงศาวดารของความก้าวหน้าทางเทคโนโลยีเทคโนโลยีการปฏิวัติมักจะปรากฏอย่างอิสระแต่ละการเปลี่ยนแปลงชั้นนําในยุค และเมื่อเทคโนโลยีการปฏิวัติสองอย่างมาบรรจบกันการปะทะกันของพวกเขามักจะมีผลกระทบแบบทวีคูณ วันนี้เรากําลังยืนอยู่ในช่วงเวลาประวัติศาสตร์เช่นนี้: ปัญญาประดิษฐ์และเทคโนโลยีการเข้ารหัสซึ่งเป็นเทคโนโลยีใหม่ที่ก่อกวนอย่างเท่าเทียมกันกําลังเข้าสู่ใจกลางเวทีจับมือกัน

เราจินตนาการว่าความท้าทายมากมายในด้าน AI สามารถแก้ไขได้ด้วยเทคโนโลยีการเข้ารหัส เราหวังว่า AI Agent จะสร้างเครือข่ายเศรษฐกิจอิสระและส่งเสริมการนําเทคโนโลยีการเข้ารหัสมาใช้ในวงกว้าง นอกจากนี้เรายังหวังว่า AI จะสามารถเร่งการพัฒนาสถานการณ์ที่มีอยู่ในฟิลด์การเข้ารหัส สายตานับไม่ถ้วนมุ่งเน้นไปที่เรื่องนี้และเงินทุนจํานวนมหาศาลกําลังหลั่งไหลเข้ามา เช่นเดียวกับคําศัพท์ใด ๆ มันรวบรวมความปรารถนาของผู้คนสําหรับนวัตกรรมวิสัยทัศน์สําหรับอนาคตและยังมีความทะเยอทะยานและความโลภที่ไม่สามารถควบคุมได้

แต่ในทุกความวุ่นวายนี้ เรารู้มาน้อยมากเกี่ยวกับประเด็นพื้นฐานที่สุด ๆ นี้ ว่า AI ทราบเกี่ยวกับการเข้ารหัสอย่างไรบ้าง? ตัวแทนที่มีโมเดลภาษาขนาดใหญ่จริง ๆ มีความสามารถจริงในการใช้เครื่องมือเข้ารหัสหรือไม่? โมเดลที่แตกต่างกันมีผลต่างกันมากน้อยเท่าใดในงานเข้ารหัส?

คำตอบของคำถามเหล่านี้จะกำหนดผลกระทบที่เป็นกันเองระหว่าง AI และเทคโนโลยีการเข้ารหัส และยังเป็นสิ่งสำคัญสำหรับทิศทางผลิตภัณฑ์และการเลือกเส้นทางเทคโนโลยีในส่วนนี้ ในการสำรวจคำถามเหล่านี้ ฉันได้ดำเนินการทดลองประเมินบางสิ่งบางอย่างในแบบจำลองภาษาใหญ่ โดยการประเมินความรู้และความสามารถของพวกเขาในสนามระบบการเข้ารหัส เราจะวัดระดับการประยุกต์ใช้การเข้ารหัสของ AI และกำหนดศักยภาพและความท้าทายในการรวมกันของ AI และเทคโนโลยีการเข้ารหัส

เรามาพูดถึงสรุปผลกันก่อน

โมเดลภาษาขนาดใหญ่ทํางานได้ดีในความรู้พื้นฐานเกี่ยวกับการเข้ารหัสและบล็อกเชน และมีความเข้าใจที่ดีเกี่ยวกับระบบนิเวศการเข้ารหัส แต่ทํางานได้ไม่ดีในการคํานวณทางคณิตศาสตร์และการวิเคราะห์ตรรกะทางธุรกิจที่ซับซ้อน ในแง่ของคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินขั้นพื้นฐานโมเดลนี้มีรากฐานที่น่าพอใจ แต่ต้องเผชิญกับความท้าทายที่ร้ายแรงในการเก็บคีย์ส่วนตัวไว้ในระบบคลาวด์ หลายรุ่นสามารถสร้างรหัสสัญญาอัจฉริยะที่มีประสิทธิภาพสําหรับสถานการณ์ง่ายๆ แต่ไม่สามารถทํางานที่ยากลําบากได้อย่างอิสระ เช่น การตรวจสอบสัญญาและการสร้างสัญญาที่ซับซ้อน

โมเดลแบบปิดเชิงพาณิชย์โดยทั่วไปมีผู้นํารายใหญ่ ในค่ายโอเพ่นซอร์สมีเพียง Llama 3.1-405B เท่านั้นที่ทํางานได้ดีในขณะที่โมเดลโอเพ่นซอร์สทั้งหมดที่มีขนาดพารามิเตอร์ที่เล็กกว่าล้มเหลว อย่างไรก็ดี ด้วยคําแนะนําคําที่รวดเร็วการให้เหตุผลห่วงโซ่ความคิดและเทคโนโลยีการเรียนรู้ไม่กี่ช็อตประสิทธิภาพของทุกรุ่นได้รับการปรับปรุงอย่างมาก โมเดลชั้นนํามีความเป็นไปได้ทางเทคนิคที่แข็งแกร่งในบางสถานการณ์การใช้งานแนวตั้ง

รายละเอียดการทดลอง

เลือกแบบจำลองภาษาตัวแทน 18 ราย เป็นวัตถุประสงค์ในการประเมิน รวมถึง:

  • โมเดลแบบปิด: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (ปิดรหัสชั่วคราว)
  • Open source models: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • โมเดลการจัดการทางคณิตศาสตร์: Qwen2-math-72B, MathΣtral

โมเดลเหล่านี้ครอบคลุมโมเดลเชิงพาณิชย์และโอเพ่นซอร์สยอดนิยมโดยมีจํานวนพารามิเตอร์มากกว่าร้อยเท่าจาก 3.8B ถึง 405B เมื่อพิจารณาถึงความสัมพันธ์ที่ใกล้ชิดระหว่างเทคโนโลยีการเข้ารหัสและคณิตศาสตร์แบบจําลองการเพิ่มประสิทธิภาพทางคณิตศาสตร์สองแบบได้รับการคัดเลือกเป็นพิเศษสําหรับการทดลอง

พื้นที่ความรู้ที่ครอบคลุมโดยการทดลอง ได้แก่ การเข้ารหัสพื้นฐานบล็อกเชนคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินสัญญาอัจฉริยะ DAO และการกํากับดูแลฉันทามติและแบบจําลองทางเศรษฐกิจ Dapp / DeFi / NFT การวิเคราะห์ข้อมูลแบบ on-chain เป็นต้น แต่ละสาขาประกอบด้วยชุดคําถามและงานตั้งแต่ง่ายไปจนถึงยากซึ่งไม่เพียง แต่ทดสอบความรู้สํารองของแบบจําลอง แต่ยังทดสอบประสิทธิภาพในสถานการณ์การใช้งานผ่านงานจําลอง

การออกแบบงานมาจากแหล่งที่หลากหลาย บางส่วนมาจากการป้อนข้อมูลของผู้เชี่ยวชาญหลายคนในสาขาการเข้ารหัสและอีกส่วนหนึ่งถูกสร้างขึ้นด้วยความช่วยเหลือของ AI และการพิสูจน์อักษรด้วยตนเองเพื่อให้แน่ใจว่างานมีความถูกต้องและท้าทาย งานบางอย่างใช้คําถามแบบปรนัยในรูปแบบที่ค่อนข้างง่ายเพื่ออํานวยความสะดวกในการทดสอบและการให้คะแนนอัตโนมัติที่เป็นมาตรฐานแยกต่างหาก อีกส่วนหนึ่งของการทดสอบใช้รูปแบบคําถามที่ซับซ้อนมากขึ้นและกระบวนการทดสอบดําเนินการโดยการรวมกันของระบบอัตโนมัติของโปรแกรม + คู่มือ + AI งานทดสอบทั้งหมดได้รับการประเมินโดยใช้วิธีการให้เหตุผลแบบศูนย์ตัวอย่างโดยไม่ต้องให้ตัวอย่างคําแนะนําทางความคิดหรือคําแนะนําใด ๆ

เนื่องจากการออกแบบการทดลองนั้นค่อนข้างหยาบและไม่มีความเข้มงวดทางวิชาการเพียงพอคําถามและงานที่ใช้สําหรับการทดสอบจึงยังห่างไกลจากการครอบคลุมฟิลด์การเข้ารหัสอย่างเต็มที่และกรอบการทดสอบก็ยังไม่บรรลุนิติภาวะ ดังนั้นบทความนี้ไม่ได้แสดงรายการข้อมูลการทดลองที่เฉพาะเจาะจง แต่มุ่งเน้นไปที่การแบ่งปันข้อมูลเชิงลึกบางอย่างจากการทดลอง

ความรู้/แนวคิด

ในระหว่างกระบวนการประเมินแบบจําลองภาษาขนาดใหญ่ทํางานได้ดีในการทดสอบความรู้พื้นฐานในด้านต่างๆเช่นอัลกอริธึมการเข้ารหัสพื้นฐานบล็อกเชนและแอปพลิเคชัน DeFi ตัวอย่างเช่นทุกรุ่นให้คําตอบที่ถูกต้องสําหรับคําถามที่ทดสอบความเข้าใจในแนวคิดของความพร้อมใช้งานของข้อมูล สําหรับคําถามที่ประเมินความเข้าใจของแบบจําลองเกี่ยวกับโครงสร้างธุรกรรม Ethereum แม้ว่าแต่ละรุ่นจะมีคําตอบที่แตกต่างกันเล็กน้อยในรายละเอียด แต่โดยทั่วไปจะมีข้อมูลสําคัญที่ถูกต้อง คําถามแบบปรนัยที่ตรวจสอบแนวคิดนั้นยากน้อยกว่าและความแม่นยําของเกือบทุกรุ่นนั้นสูงกว่า 95%

คำถามและคำตอบในเชิงแนวความคิดเป็นสิ่งที่ยากมากสำหรับโมเดลขนาดใหญ่

ตรรกะธุรกิจ/ตรรกะธุรกิจ

อย่างไรก็ตามสถานการณ์จะกลับกันเมื่อพูดถึงปัญหาที่ต้องมีการคํานวณเฉพาะ ปัญหาการคํานวณอัลกอริทึม RSA อย่างง่ายทําให้โมเดลส่วนใหญ่มีปัญหา เข้าใจง่าย: แบบจําลองภาษาขนาดใหญ่ทํางานเป็นหลักโดยการระบุและจําลองรูปแบบในข้อมูลการฝึกอบรมแทนที่จะเข้าใจธรรมชาติของแนวคิดทางคณิตศาสตร์อย่างลึกซึ้ง ข้อ จํากัด นี้ชัดเจนโดยเฉพาะอย่างยิ่งเมื่อจัดการกับแนวคิดทางคณิตศาสตร์ที่เป็นนามธรรมเช่นการดําเนินการแบบแยกส่วนและการดําเนินการแบบเอ็กซ์โพเนนเชียล เนื่องจากสาขาการเข้ารหัสมีความสัมพันธ์อย่างใกล้ชิดกับคณิตศาสตร์ซึ่งหมายความว่าการพึ่งพาแบบจําลองโดยตรงสําหรับการคํานวณทางคณิตศาสตร์ที่เกี่ยวข้องกับการเข้ารหัสนั้นไม่น่าเชื่อถือ。

ในปัญหาคอมพิวเตอร์อื่น ๆ ประสิทธิภาพของโมเดลภาษาขนาดใหญ่ก็ไม่เป็นที่น่าพอใจเช่นกัน ตัวอย่างเช่นสําหรับคําถามง่ายๆในการคํานวณการสูญเสีย AMM ที่ไม่แน่นอนแม้ว่าจะไม่เกี่ยวข้องกับการดําเนินการทางคณิตศาสตร์ที่ซับซ้อน แต่มีเพียง 4 จาก 18 รุ่นเท่านั้นที่ให้คําตอบที่ถูกต้อง สําหรับคําถามพื้นฐานเพิ่มเติมเกี่ยวกับการคํานวณความน่าจะเป็นของบล็อกทุกรุ่นได้รับคําตอบผิด มันทําให้ทุกรุ่นสะดุดและไม่มีใครถูกต้อง สิ่งนี้ไม่เพียง แต่เปิดเผยข้อบกพร่องของแบบจําลองภาษาขนาดใหญ่ในการคํานวณที่แม่นยํา แต่ยังสะท้อนถึงปัญหาสําคัญในการวิเคราะห์ตรรกะทางธุรกิจ เป็นที่น่าสังเกตว่าแม้แต่แบบจําลองการเพิ่มประสิทธิภาพทางคณิตศาสตร์ก็ไม่สามารถแสดงข้อได้เปรียบที่ชัดเจนในคําถามการคํานวณและประสิทธิภาพของมันก็น่าผิดหวัง

อย่างไรก็ตามปัญหาของการคํานวณทางคณิตศาสตร์ไม่สามารถแก้ไขได้ หากเราทําการปรับเปลี่ยนเล็กน้อยและต้องใช้ LLM เพื่อให้โค้ด Python ที่สอดคล้องกันแทนที่จะคํานวณผลลัพธ์โดยตรงอัตราความแม่นยําจะดีขึ้นอย่างมาก ยกตัวอย่างปัญหาการคํานวณ RSA ดังกล่าวข้างต้นรหัส Python ที่กําหนดโดยโมเดลส่วนใหญ่สามารถดําเนินการได้อย่างราบรื่นและให้ผลลัพธ์ที่ถูกต้อง ในสภาพแวดล้อมการผลิตจริงสามารถให้รหัสอัลกอริทึมที่ตั้งไว้ล่วงหน้าเพื่อหลีกเลี่ยงการคํานวณ LLM ด้วยตนเองซึ่งคล้ายกับวิธีที่มนุษย์จัดการกับงานดังกล่าว ในระดับตรรกะทางธุรกิจประสิทธิภาพของแบบจําลองยังสามารถปรับปรุงได้อย่างมีประสิทธิภาพผ่านคําแนะนําคําที่รวดเร็วที่ออกแบบมาอย่างพิถีพิถัน

การจัดการกุญแจส่วนตัวและการดำเนินการกระเป๋าเงิน

หากคุณถามว่าสถานการณ์แรกสําหรับ Agent ในการใช้สกุลเงินดิจิทัลคืออะไรคําตอบของฉันคือการชําระเงิน Cryptocurrency ถือได้ว่าเป็นรูปแบบสกุลเงินดั้งเดิมของ AI เมื่อเทียบกับอุปสรรคมากมายที่ตัวแทนต้องเผชิญในระบบการเงินแบบดั้งเดิมเป็นทางเลือกที่เป็นธรรมชาติในการใช้เทคโนโลยีการเข้ารหัสเพื่อจัดเตรียมข้อมูลประจําตัวดิจิทัลและจัดการเงินผ่านกระเป๋าเงินที่เข้ารหัส ดังนั้นการสร้างและการจัดการคีย์ส่วนตัวและการดําเนินการกระเป๋าเงินต่างๆจึงเป็นข้อกําหนดทักษะพื้นฐานที่สุดสําหรับตัวแทนเพื่อให้สามารถใช้เครือข่ายการเข้ารหัสได้อย่างอิสระ

หัวใจของการสร้างกุญแจส่วนตัวอย่างปลอดภัยอยู่ในตัวเลขสุ่มคุณภาพสูงที่เป็นความสามารถที่โมเดลภาษาขนาดใหญ่ไม่มี อย่างไรก็ตาม โมเดลมีความเข้าใจเพียงพอเกี่ยวกับความปลอดภัยของกุญแจส่วนตัว เมื่อถามให้สร้างกุญแจส่วนตัว โมเดลส่วนใหญ่เลือกใช้โค้ด (เช่น ไลบรารีที่เกี่ยวข้องกับ Python) เพื่อนำทางผู้ใช้ในการสร้างกุญแจส่วนตัวอิสระ แม้แต่ถ้าโมเดลให้กุญแจส่วนตัวโดยตรง ก็ได้ระบุอย่างชัดเจนว่านี้เพียงเพื่อการสาธิตและไม่ใช่กุญแจส่วนตัวที่ปลอดภัยที่สามารถใช้ได้โดยตรง ในที่นี้ โมเดลทั้งหมดแสดงประสิทธิภาพที่น่าพอใจ

การจัดการคีย์ส่วนตัวต้องเผชิญกับความท้าทายบางอย่างซึ่งส่วนใหญ่เกิดจากข้อ จํากัด โดยธรรมชาติของสถาปัตยกรรมทางเทคนิคมากกว่าการขาดความสามารถของโมเดล เมื่อใช้โมเดลที่ปรับใช้ภายในคีย์ส่วนตัวที่สร้างขึ้นจะถือว่าค่อนข้างปลอดภัย อย่างไรก็ตามหากใช้โมเดลคลาวด์เชิงพาณิชย์เราต้องสันนิษฐานว่าคีย์ส่วนตัวสัมผัสกับตัวดําเนินการโมเดลในขณะที่สร้าง แต่สําหรับตัวแทนที่มีจุดมุ่งหมายในการทํางานอย่างอิสระจําเป็นต้องมีสิทธิ์คีย์ส่วนตัวซึ่งหมายความว่าคีย์ส่วนตัวไม่สามารถอยู่ในเครื่องของผู้ใช้เท่านั้น ในกรณีนี้การพึ่งพาโมเดลเพียงอย่างเดียวนั้นไม่เพียงพอที่จะรับรองความปลอดภัยของคีย์ส่วนตัวอีกต่อไปและจําเป็นต้องแนะนําบริการรักษาความปลอดภัยเพิ่มเติมเช่นสภาพแวดล้อมการดําเนินการที่เชื่อถือได้หรือ HSM

หากสันนิษฐานว่าตัวแทนถือคีย์ส่วนตัวไว้อย่างปลอดภัยและดําเนินการพื้นฐานต่างๆบนพื้นฐานนี้โมเดลต่างๆในการทดสอบได้แสดงความสามารถที่ดี แม้ว่าจะมีข้อผิดพลาดในขั้นตอนและรหัสที่สร้างขึ้นบ่อยครั้ง แต่ปัญหาเหล่านี้สามารถแก้ไขได้ในระดับใหญ่ด้วยโครงสร้างทางวิศวกรรมที่เหมาะสม อาจกล่าวได้ว่าจากมุมมองทางเทคนิคไม่มีอุปสรรคมากมายสําหรับ Agent ในการดําเนินการกระเป๋าเงินขั้นพื้นฐานอย่างอิสระอีกต่อไป

สมาร์ทคอนแทรกต์

ความสามารถในการทําความเข้าใจใช้เขียนและระบุความเสี่ยงของสัญญาอัจฉริยะเป็นกุญแจสําคัญสําหรับตัวแทน AI ในการทํางานที่ซับซ้อนในโลกแบบ on-chain ดังนั้นจึงเป็นพื้นที่ทดสอบที่สําคัญสําหรับการทดลอง แบบจําลองภาษาขนาดใหญ่ได้แสดงศักยภาพที่สําคัญในพื้นที่นี้ แต่พวกเขายังประสบปัญหาที่ชัดเจนบางอย่าง

เกือบทุกรุ่นในการทดสอบตอบแนวคิดสัญญาพื้นฐานอย่างถูกต้องระบุข้อบกพร่องง่ายๆ ในแง่ของการเพิ่มประสิทธิภาพก๊าซตามสัญญาโมเดลส่วนใหญ่สามารถระบุจุดเพิ่มประสิทธิภาพที่สําคัญและวิเคราะห์ความขัดแย้งที่อาจเกิดจากการเพิ่มประสิทธิภาพ อย่างไรก็ตามเมื่อเกี่ยวข้องกับตรรกะทางธุรกิจที่ลึกซึ้งข้อ จํากัด ของโมเดลขนาดใหญ่จะเริ่มแสดง

ในตัวอย่างสัญญาการสะสมโทเค็น: โมเดลทั้งหมดเข้าใจฟังก์ชันของสัญญาได้อย่างถูกต้องและโมเดลส่วนใหญ่พบช่องโหว่ระดับกลางและระดับต่ำหลายอย่าง อย่างไรก็ตามไม่มีโมเดลใดสามารถค้นพบช่องโหว่ระดับสูงที่ซ่อนอยู่ในตรรกะธุรกิจซึ่งอาจทำให้มีเงินถูกล็อคไว้ในกรณีพิเศษ ผ่านการทดสอบหลายครั้งโดยใช้สัญญาจริงๆ โมเดลประพฤติการณ์เช่นเดียวกันประมาณเท่ากัน

สิ่งนี้แสดงให้เห็นว่าความเข้าใจในสัญญาของโมเดลขนาดใหญ่ยังคงอยู่ในระดับที่เป็นทางการและขาดความเข้าใจในตรรกะทางธุรกิจที่ลึกซึ้ง อย่างไรก็ตามหลังจากได้รับคําแนะนําเพิ่มเติมในที่สุดบางรุ่นก็สามารถระบุช่องโหว่ที่ซ่อนอยู่อย่างลึกซึ้งในสัญญาที่กล่าวถึงข้างต้นได้อย่างอิสระ จากการตัดสินประสิทธิภาพนี้ด้วยการสนับสนุนการออกแบบทางวิศวกรรมที่ดีโมเดลขนาดใหญ่มีความสามารถในการทําหน้าที่เป็นนักบินร่วมในด้านสัญญาอัจฉริยะ อย่างไรก็ตามยังมีหนทางอีกยาวไกลก่อนที่เราจะสามารถดําเนินงานที่สําคัญได้อย่างอิสระเช่นการตรวจสอบสัญญา

สิ่งหนึ่งที่ควรทราบคืองานที่เกี่ยวข้องกับโค้ดในการทดลองส่วนใหญ่มีไว้สําหรับสัญญาที่มีตรรกะอย่างง่ายและโค้ดน้อยกว่า 2,000 บรรทัด สําหรับโครงการที่ซับซ้อนขนาดใหญ่โดยไม่ต้องปรับแต่งหรือวิศวกรรมคําที่ซับซ้อนฉันคิดว่ามันเกินความสามารถในการประมวลผลที่มีประสิทธิภาพของรุ่นปัจจุบันอย่างชัดเจนและไม่รวมอยู่ในการทดสอบ นอกจากนี้การทดสอบนี้เกี่ยวข้องกับ Solidity เท่านั้นและไม่รวมถึงภาษาสัญญาอัจฉริยะอื่น ๆ เช่น Rust และ Move

นอกเหนือจากเนื้อหาการทดสอบด้านบน การทดลองนี้ยังครอบคลุมด้านหลายด้านรวมถึงสถานการณ์ DeFi, DAO และการบริหารระบบของมัน, การวิเคราะห์ข้อมูลบนเชื่อมต่อ, การออกแบบกลไกของตรงต่อเสียง และ Tokenomics รุ่นใหญ่ จะเสด็จสิ้นความสามารถบางอย่างในด้านเหล่านี้ โดยที่การทดสอบหลายรายการยังคงอยู่ในระหว่างดำเนินการและขั้นตอนการทดสอบและกรอบการทดสอบก็ยังคงถูกปรับปรุงอยู่อย่างต่อเนื่อง บทความนี้จะไม่ลึกลงไปในด้านเหล่านี้ในขณะนี้

ความแตกต่างของโมเดล

ในหมดังนั้น โมเดลภาษาขนาดใหญ่ทุกตัวที่เข้าร่วมการประเมิน GPT-4o และ Claude 3.5 Sonnet ได้รัดเร็วการประperformครงองดีในสาขาอื่น ๆ และเป็นผู้นำที่ไม่มีเท่าเทียมเมื่อเผชื่อระดับพื้นฐาน โมเดลสองตัวสามารถให้คำตอบที่แม่นยำเกือลัมสามถถถถจภายในข้อความขั้นพื้นฐาน; ในการวิเคราะห์ฉว้ันาระดับซับซ้อน พวดสามารถให้ข้อเสื้ยยงและข้อเสื้ยยงที่มีความลึกลับได้ มันแสดงอัตราชนะชนะสูงในงานคำนวณที่โมเดลขนาดใหญ่ไม่เก่าดี แน่นอน อัตราสำเร็จที่”สูง” นี่้มีความสัมพัน์์และยังไม่ได้ถึงระดับผลลัพธ์ที่มั่นคงในสภาพแว้งการผลิต

ในแคมป์โมเดลโอเพนซอร์ส Llama 3.1-405B ได้ล้ำหน้ากว่าคู่แข่งด้วยมาตราส่วนพารามิเตอร์ขนาดใหญ่และอัลกอริทึมโมเดลที่ขั้นสูง ในโมเดลโอเพนซอร์สอื่นที่มีขนาดพารามิเตอร์เล็กกว่าจะไม่มีความแตกต่างทางประสิทธิภาพที่สำคัญระหว่างโมเดล แม้ว่าคะแนนจะแตกต่างเล็กน้อย โดยรวมแล้วพวกเขาอยู่ห่างจากเส้นผ่านไปไกล

ดังนั้นหากคุณต้องการสร้างแอปพลิเคชัน AI ที่เกี่ยวข้องกับการเข้ารหัสในปัจจุบัน โมเดลเหล่านี้ที่มีพารามิเตอร์ขนาดเล็กและขนาดกลางไม่ใช่ตัวเลือกที่เหมาะสม

สองรุ่นโดดเด่นเป็นพิเศษในการตรวจสอบของเรา รุ่นแรกคือรุ่น Phi-3 3.8B ที่เปิดตัวโดย Microsoft มันเป็นรุ่นที่เล็กที่สุดที่เข้าร่วมในการทดลองนี้ อย่างไรก็ตามมันถึงระดับประสิทธิภาพเทียบเท่ากับรุ่น 8B-12B ที่มีจํานวนพารามิเตอร์น้อยกว่าครึ่งหนึ่ง ในบางหมวดหมู่, ดียิ่งขึ้นในประเด็น. ผลลัพธ์นี้เน้นย้ําถึงความสําคัญของการเพิ่มประสิทธิภาพสถาปัตยกรรมโมเดลและกลยุทธ์การฝึกอบรมที่ไม่ต้องพึ่งพาการเพิ่มขนาดพารามิเตอร์เพียงอย่างเดียว

และโมเดล Command-R ของ Cohere กลายเป็น "ม้ามืด" ที่น่าแปลกใจ - แตกต่างกันอย่างกลับกัน โมเดล Command-R ไม่เป็นที่รู้จักดีเท่ากับโมเดลอื่น ๆ แต่ Cohere เป็นบริษัทโมเดลขนาดใหญ่ที่เน้นตลาด 2B ฉันคิดว่ายังมีจุดศูนย์สูตรกับพื้นที่ต่าง ๆ เช่นการพัฒนาเอเย็นต์ดังนั้นจึงรวมไปอยู่ในขอบเขตการทดสอบเฉพาะ อย่างไรก็ตาม Command-R ที่มีพารามิเตอร์ 35B จัดอันดับสุดท้ายในส่วนใหญ่ของการทดสอบ แพ้กับโมเดลหลายรายการที่มีน้อยกว่า 10B

ผลลัพธ์นี้ทําให้เกิดการคิด: เมื่อ Command-R ถูกปล่อยออกมาจะมุ่งเน้นไปที่การปรับปรุงการดึงข้อมูลและความสามารถในการสร้างและไม่ได้เผยแพร่ผลการทดสอบมาตรฐานปกติ นี่หมายความว่าเป็น "คีย์ส่วนตัว" ที่ปลดล็อกศักยภาพสูงสุดเฉพาะในบางสถานการณ์หรือไม่?

ข้อ จำกัด ในการทดลอง

ในชุดทดสอบซีรีส์นี้ เราได้เข้าใจเบื้องต้นถึงความสามารถของ AI ในด้านการเข้ารหัสลับ แน่นอนว่าการทดสอบเหล่านี้อยู่ห่างไกลจากมาตรฐานอาชีพ ความครอบคลุมของชุดข้อมูลยังไม่เพียงพอ มาตรฐานปริมาณสำหรับคำตอบเป็นรูปแบบที่ไม่ค่อยละเอียด และยังขาดการเจริญและกลไกการให้คะแนนที่แม่นยำมากขึ้น สิ่งเหล่านี้จะส่งผลต่อความแม่นยำของผลการประเมินและอาจส่งผลให้เกิดการประเมินสมรรถนะที่ต่ำลงของบางแบบจำลอง

ในแง่ของวิธีการทดสอบการทดลองใช้วิธีการเรียนรู้แบบ zero-shot เพียงวิธีเดียวและไม่ได้สํารวจวิธีการต่างๆเช่นห่วงโซ่การคิดและการเรียนรู้แบบ few-shot ที่สามารถสร้างแรงบันดาลใจให้กับโมเดลได้มากขึ้น ในแง่ของพารามิเตอร์แบบจําลองพารามิเตอร์แบบจําลองมาตรฐานถูกนํามาใช้ในการทดลองและผลกระทบของการตั้งค่าพารามิเตอร์ที่แตกต่างกันต่อประสิทธิภาพของแบบจําลองไม่ได้ถูกตรวจสอบ วิธีการทดสอบเดี่ยวโดยรวมเหล่านี้จํากัดการประเมินศักยภาพของโมเดลอย่างครอบคลุมและไม่สามารถสํารวจความแตกต่างในประสิทธิภาพของโมเดลได้อย่างเต็มที่ภายใต้เงื่อนไขเฉพาะ

แม้ว่าเงื่อนไขการทดสอบจะเป็นเงื่อนไขที่เรียบง่าย การทดลองเหล่านี้ก็ยังผลิตข้อมูลที่มีคุณค่ามากมายและให้ข้อมูลอ้างอิงให้แก่นักพัฒนาในการสร้างแอปพลิเคชัน

พื้นที่คริปโตต้องการเกณฑ์มาตรฐานของตัวเอง

ในด้าน AI มาตรฐานเป็นปัจจัยที่สำคัญ การพัฒนาอย่างรวดเร็วของเทคโนโลยีการเรียนรู้ลึกลับยุคใหม่เกิดจาก ImageNET ที่ Prof. Li Feifei ได้ทำเสร็จในปี 2012 ซึ่งเป็นมาตรฐานและชุดข้อมูลที่สามารถใช้ในด้านการมองเห็นของคอมพิวเตอร์

ด้วยการให้มาตรฐานที่เป็นหนึ่งเดียวสําหรับการประเมินเกณฑ์มาตรฐานไม่เพียง แต่ช่วยให้นักพัฒนามีเป้าหมายที่ชัดเจนและจุดอ้างอิง แต่ยังขับเคลื่อนความก้าวหน้าทางเทคโนโลยีทั่วทั้งอุตสาหกรรม สิ่งนี้อธิบายได้ว่าทําไมโมเดลภาษาขนาดใหญ่ที่เพิ่งเปิดตัวใหม่ทุกรุ่นจะมุ่งเน้นไปที่การประกาศผลลัพธ์ในเกณฑ์มาตรฐานต่างๆ ผลลัพธ์เหล่านี้กลายเป็น "ภาษาสากล" ของความสามารถของแบบจําลองทําให้นักวิจัยสามารถค้นหาความก้าวหน้านักพัฒนาสามารถเลือกโมเดลที่เหมาะสมที่สุดสําหรับงานเฉพาะและผู้ใช้ตัดสินใจเลือกอย่างชาญฉลาดตามข้อมูลวัตถุประสงค์ ที่สําคัญกว่านั้นการทดสอบเกณฑ์มาตรฐานมักจะประกาศทิศทางในอนาคตของแอปพลิเคชัน AI ซึ่งเป็นแนวทางในการลงทุนทรัพยากรและการมุ่งเน้นการวิจัย

หากเราเชื่อว่ามีศักยภาพใหญ่ที่สุดที่จะทำให้ AI และการเข้ารหัสเชื่อมต่อกัน เราจึงต้องสร้างเกณฑ์การเข้ารหัสที่กำหนดเองเป็นงานที่เร่งด่วน การสร้างเกณฑ์เป็นสะพานสำคัญที่เชื่อมโยงระหว่างสองสาขาของ AI และการเข้ารหัส กระตุ้นนวัตกรรม และให้คำแนะนำชัดเจนสำหรับการใช้งานในอนาคต

อย่างไรก็ตามเมื่อเทียบกับเกณฑ์มาตรฐานที่เป็นผู้ใหญ่ในสาขาอื่น ๆ การสร้างเกณฑ์มาตรฐานในด้านการเข้ารหัสต้องเผชิญกับความท้าทายที่ไม่เหมือนใคร: เทคโนโลยีการเข้ารหัสกําลังพัฒนาอย่างรวดเร็วระบบความรู้ในอุตสาหกรรมยังไม่แข็งตัวและขาดฉันทามติในหลายทิศทางหลัก ในฐานะที่เป็นสาขาสหวิทยาการการเข้ารหัสครอบคลุมการเข้ารหัสระบบกระจายเศรษฐศาสตร์ ฯลฯ และความซับซ้อนของมันอยู่ไกลเกินกว่าสาขาเดียว สิ่งที่ท้าทายยิ่งกว่าคือเกณฑ์มาตรฐานการเข้ารหัสไม่เพียง แต่ต้องประเมินความรู้ แต่ยังตรวจสอบความสามารถในทางปฏิบัติของ AI ในการใช้เทคโนโลยีการเข้ารหัสซึ่งต้องมีการออกแบบสถาปัตยกรรมการประเมินใหม่ การขาดชุดข้อมูลที่เกี่ยวข้องยิ่งเพิ่มความยากลําบาก

ความซับซ้อนและความสำคัญของงานนี้กำหนดให้ไม่สามารถทำได้โดยบุคคลเดียวหรือทีมเดียว จะต้องนำมาประกอบด้วยปัจจัยจากผู้ใช้งาน นักพัฒนา ผู้เชี่ยวชาญด้านการเข้ารหัส นักวิจัยด้านการเข้ารหัส และผู้คนในสาขาวิชาต่างๆ และต้องพึ่งพาการมีส่วนร่วมของชุมชนและความเห็นชอบจากชุมชนอย่างแพร่หลาย ดังนั้น มาตรวัดการเข้ารหัสจำเป็นต้องมีการพูดคุยกันอย่างกว้างขวาง เพราะมันไม่ใช่งานทางเทคนิคเท่านั้น แต่ยังเป็นการสะท้อนความคิดลึกๆ เกี่ยวกับวิธีการเข้าใจเทคโนโลยีที่เกิดขึ้นใหม่นี้อีกด้วย

คำประกันความ

  1. บทความนี้ถูกพิมพ์ใหม่จาก [ Empower Labs]. ลิขสิทธิ์ทั้งหมดเป็นของผู้เขียนต้นฉบับ [วังเจ้า]. หากมีการท้าทานในการพิมพ์นี้ โปรดติดต่อเกต เรียนทีม และพวกเขาจะดำเนินการต่อไปโดยpromptly
  2. คำประกาศความรับผิดส่วนใหญ่: มุมมองและความคิดเห็นที่แสดงในบทความนี้เป็นเพียงเพียงผู้เขียนเท่านั้นและไม่เป็นที่เป็นที่ปรึกษาการลงทุนใด ๆ
  3. การแปลบทความเป็นภาษาอื่น ๆ ทำโดยทีม Gate Learn หากไม่ได้กล่าวถึง การคัดลอก การกระจาย หรือการลอกเลียนบทความที่ถูกแปล ถือเป็นการละเมิดสิทธิ์
Start Now
Sign up and get a
$100
Voucher!
It seems that you are attempting to access our services from a Restricted Location where Gate.io is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.