อดีตซีอีโอของ Intel Pat Gelsinger เปิดตัวเกณฑ์มาตรฐาน AI เพื่อวัดการจัดตำแหน่งสำหรับ ความเจริญรุ่งเรืองของมนุษย์

เจ็ดเดือนหลังจากออกจาก Intel อดีต CEO Pat Gelsinger ในวันพฤหัสบดีเปิดตัวเกณฑ์มาตรฐานใหม่ที่ออกแบบมาเพื่อวัดว่า AI นั้นดีสำหรับผู้คนอย่างแท้จริงหรือไม่ ผ่านบทบาทใหม่ของเขาที่ Gloo บริษัท “ Faith Tech” Gelsinger เปิดตัวเกณฑ์มาตรฐาน AI (FAI) เฟื่องฟูเฟรมเวิร์กที่ประเมินโมเดลที่ไม่ได้อยู่ในประสิทธิภาพทางเทคนิค แต่สอดคล้องกับความเป็นอยู่ที่ดีของมนุษย์

ที่เกี่ยวข้อง:Intel CEO ยอมรับว่าพ่ายแพ้ต่อ Nvidia ประกาศว่า 'เราไม่ได้อยู่ใน 10 อันดับแรก' ในการตรวจสอบความเป็นจริงที่น่าทึ่ง

การทดสอบใหม่นี้ประเมินโมเดลในเจ็ดมิติที่สำคัญรวมถึงตัวละครความสัมพันธ์และศรัทธาโดยมีเป้าหมายที่จะเปลี่ยนโฟกัสของอุตสาหกรรมจากการป้องกันอันตรายเพื่อสร้าง AI อย่างแข็งขันซึ่งมีส่วนช่วยในเชิงบวกต่อชีวิตมนุษย์ การย้ายตำแหน่ง Gelsinger เป็นเสียงสำคัญในการอภิปรายที่เพิ่มขึ้นเกี่ยวกับจริยธรรมและค่านิยมของ AI

จาก Intel CEO ถึง AI Ethicist: ภารกิจใหม่ของ Gelsinger

หลังจากก้าวลงจากตำแหน่งหัวหน้าผู้บริหารของ Intel ในเดือนธันวาคม 2567 ท่ามกลางแรงกดดันทางการเงินและการแข่งขันที่สำคัญ Pat Gelsinger ได้เริ่มบทใหม่ เขาอธิบายถึงการเปลี่ยนแปลงของเขาในการสัมภาษณ์เมื่อเร็ว ๆ นี้โดยระบุว่า“ โพสต์ Intel ฉันจะทำอะไรต่อไปและคุณก็รู้ว่าฉันถอดหมวก 7/24 หนึ่งใบแล้วใส่หมวกสองใบ”

หนึ่งในหมวกเหล่านั้นเกี่ยวข้องกับการลงทุนด้านเทคโนโลยีอย่างลึกซึ้งที่ Playground Global อีกอย่างคือบทบาทของเขาในฐานะประธานบริหารและหัวหน้าฝ่ายเทคโนโลยีที่ Gloo บริษัท ที่เขาลงทุนครั้งแรกในทศวรรษที่ผ่านมา การเคลื่อนไหวครั้งนี้สะท้อนให้เห็นถึงความหลงใหลในการแยกความศรัทธาและเทคโนโลยีมายาวนานซึ่งได้รับแรงหนุนจากความปรารถนาที่จะทำให้แน่ใจว่าชุมชนที่มีค่านิยมมีเสียงในการสร้างยุค AIในขณะที่เขาวางไว้การพูดคุยกับสแต็คใหม่“ เราไม่ได้ปรากฏตัวในฐานะชุมชนศรัทธาในยุคเครือข่ายสังคมเราจะปรากฏตัวในยุค AI”

ปทัฏฐานใหม่สำหรับ 'Good' AI: เกณฑ์มาตรฐาน AI ที่เฟื่องฟู

เกณฑ์มาตรฐาน AI (FAI) ที่เฟื่องฟูซึ่งเปิดตัวอย่างเป็นทางการเมื่อวันที่ 10 กรกฎาคมแสดงให้เห็นถึงจุดหมุนรอบตัวจากการประเมิน AI แบบดั้งเดิม มันเผชิญหน้าโดยตรงกับช่องว่างที่สำคัญในการวิจัยความปลอดภัยในปัจจุบัน เป็นการประกาศอย่างเป็นทางการของ Glooรัฐ“ การวิจัยการจัดตำแหน่ง AI ในปัจจุบันมุ่งเน้นไปที่การป้องกันอันตรายมากกว่าการส่งเสริมสวัสดิการมนุษย์อย่างแข็งขัน”

กรอบงานสร้างขึ้นจากรากฐานทางวิชาการของการศึกษาเฟื่องฟูระดับโลกกความพยายามร่วมกันโดยนักวิจัยที่มหาวิทยาลัยฮาร์วาร์ดและเบย์เลอร์- Gloo ขยายงานนี้ออกเป็นเจ็ดมิติหลัก: ตัวละครและคุณธรรมความสัมพันธ์ทางสังคมอย่างใกล้ชิดสุขภาพจิตและร่างกายความมั่นคงทางการเงินและวัสดุความสุขและความพึงพอใจในชีวิตความหมายและวัตถุประสงค์และหมวดหมู่ใหม่สำหรับศรัทธาและจิตวิญญาณ

วิธีการของเกณฑ์มาตรฐานได้รับการออกแบบมาเพื่อความเข้มงวด- มันใช้ชุดข้อมูลของคำถามที่ได้รับการดูแลจากผู้เชี่ยวชาญ 1,229 ข้อและคำนวณคะแนนโดยใช้ค่าเฉลี่ยเรขาคณิต วิธีการทางสถิตินี้ลงโทษแบบจำลองสำหรับประสิทธิภาพที่ไม่ดีในมิติเดียวเพื่อให้แน่ใจว่าพวกเขาไม่สามารถปกปิดข้อบกพร่องในพื้นที่เช่น 'ความหมาย' โดยยอดเยี่ยมใน 'การเงิน'

เฟรมเวิร์กทั้งหมดวางอยู่บนหลักการพื้นฐานสามประการที่ระบุโดย Gloo ขั้นแรกให้แบบจำลองต้องมีความถูกต้องตามความเป็นจริงเมื่อนำเสนอข้อมูล ประการที่สองคำแนะนำของพวกเขาควรได้รับการสนับสนุนโดยการวิจัยทางวิทยาศาสตร์เกี่ยวกับความเจริญรุ่งเรืองของมนุษย์ ในที่สุดพวกเขาจะต้องส่งเสริมความเป็นอยู่ที่ดีในทุกโดเมนโดยไม่คำนึงถึงหัวข้อเฉพาะในมือ

ชุดคำถามเองคือการผสมผสานระหว่างวัตถุประสงค์คำถามแบบปรนัยและสถานการณ์ส่วนตัวตามการตัดสิน สิ่งเหล่านี้ถูกดึงมาจากแหล่งข้อมูลที่หลากหลายรวมถึงมาตรฐานที่จัดตั้งขึ้นเช่น MMLU การสอบระดับมืออาชีพเอกสารทางวิชาการและสถานการณ์ใหม่ที่สร้างโดยผู้เชี่ยวชาญเพื่อทดสอบการประยุกต์ใช้ในโลกแห่งความเป็นจริงของค่าเหล่านี้

เพื่อประเมินคำตอบที่เป็นอัตนัย FAI ใช้“ ผู้พิพากษา” หลายคนที่ได้รับมอบหมายจากผู้เชี่ยวชาญ ผู้พิพากษาเหล่านี้ประเมินการตอบสนองไม่เพียง แต่ในมิติหลัก แต่ยังรวมถึงการสัมผัส ตัวอย่างเช่นคำถามทางการเงินอาจได้รับคะแนนสำหรับการจัดตำแหน่งกับ 'ตัวละคร' หรือ 'ความหมาย' รูบริกเพื่อให้มั่นใจว่าการประเมินแบบองค์รวม

Gelsinger ให้เหตุผลว่าหากระบบ AI ต้องทำหน้าที่เป็นที่ปรึกษาชีวิตการเขียนโปรแกรมหลักของพวกเขาจะต้องได้รับการประเมินมากกว่าความถูกต้องตามข้อเท็จจริง “ แต่มันไม่ได้ถูกต้องหรือผิดมันเป็นเรื่องดีหรือไม่ถ้าแบบจำลองตอบสนองในรูปแบบที่เหมือนมนุษย์แล้ว…พวกเขาควรนำผู้คนให้ดีขึ้น”” ปทัฏฐานใหม่นี้เป็นคำตอบของเขาต่อความท้าทายนั้น

บัตรรายงานฉบับแรก: รุ่นบนสุดยอดทางการเงินล้มเหลวด้วยศรัทธา

ผลลัพธ์เบื้องต้นจากการประเมินอย่างเป็นระบบของแบบจำลอง AI ที่เป็นผู้นำ 28 รุ่นเผยให้เห็นความไม่สมดุลอย่างสิ้นเชิงในความสามารถของพวกเขา ในขณะที่โมเดล O3 ของ Openai ได้คะแนนโดยรวมสูงสุด 72 ตามด้วย Gemini 2.5 Flash Thinking (68) และ Grok 3 (67) ไม่มีรุ่นที่เหนือกว่าเกณฑ์ 90 คะแนนที่ทีม FAI กำหนดให้สอดคล้องกับความเจริญรุ่งเรืองของมนุษย์

ช่องว่างประสิทธิภาพระหว่างมิตินั้นน่าทึ่ง คะแนนเฉลี่ยในทุกรุ่นในหมวดหมู่ 'การเงิน' นั้นน่านับถือ 81% ในทางตรงกันข้ามโดยสิ้นเชิงค่าเฉลี่ยของมิติ 'ศรัทธา' นั้นเป็นเพียง 35%โดยเน้นว่า Gloo เรียกว่า "การขาดดุลที่สำคัญ" ประสิทธิภาพเฉลี่ยโดยรวมในทุกรุ่นและทั้งเจ็ดมิติเป็นเพียง 60%

การดูข้อมูลอย่างใกล้ชิดแสดงให้เห็นว่า Openai's O3 ไม่เพียง แต่ชนะโดยรวม มันได้คะแนนยอดเยี่ยม 87% ใน 'ตัวละคร' ซึ่งเหนือกว่าคู่แข่ง อย่างไรก็ตามแม้แต่ผู้นำก็ยังทำคะแนนได้ค่อนข้างต่ำ 43% ใน 'ศรัทธา' ซึ่งเน้นย้ำถึงธรรมชาติที่เป็นสากลของความท้าทายนี้ Claude 3.7 Sonnet ของมานุษยวิทยาในขณะที่วางโดยรวมต่ำกว่าด้วยคะแนน 65%โดดเด่นตัวเองโดยการได้รับคะแนนสูงสุดในหมวด 'ความหมาย' ที่ 67%แนะนำว่าการฝึกอบรมอาจมีการจัดแนวปรัชญาที่แตกต่างกัน

อ่านด้วย:

เกณฑ์มาตรฐานยังเน้นช่องว่างประสิทธิภาพที่ชัดเจนระหว่างโมเดลที่เป็นกรรมสิทธิ์และโอเพ่นซอร์ส โมเดลโอเพนซอร์ซที่มีประสิทธิภาพสูงสุด Deepseek-R1 ทำคะแนนรวม 65% ที่น่าประทับใจโดยรวมกับ Claude 3.7 Sonnet และมีประสิทธิภาพสูงกว่ารุ่นปิดที่สำคัญหลายรุ่น มันแสดงให้เห็นถึงความแข็งแกร่งโดยเฉพาะใน 'ความสัมพันธ์' (74%) และ 'ศรัทธา' (40%) ทำให้มีการแข่งขันสูงกับระบบกรรมสิทธิ์ระดับสูงในโดเมนเฉพาะเหล่านั้น

ในทางตรงกันข้ามโมเดล Llama 4 Maverick“ Open-Source” ใหม่ของ Meta ซึ่งอยู่ตรงกลางแพ็คด้วยคะแนนรวม 59% ประสิทธิภาพของมันมีความสมดุล แต่ไม่ได้นำไปสู่ประเภทใดประเภทหนึ่งแสดงให้เห็นถึงความสามารถทั่วไปมากขึ้นโดยไม่มีจุดแข็งเฉพาะที่เห็นในคู่แข่งบางราย ผลลัพธ์ที่ละเอียดเหล่านี้แสดงให้เห็นถึงยูทิลิตี้ของ Fai Benchmark ในการก้าวข้ามคะแนนเดียวเพื่อเปิดเผย“ บุคลิกภาพ” ที่มีมูลค่าตามมูลค่าของระบบ AI ที่แตกต่างกัน

Pat Gelsinger แสดงความคิดเห็นโดยตรงเกี่ยวกับผลลัพธ์โดยสังเกตว่าโมเดลยังไม่บรรลุนิติภาวะในพื้นที่สำคัญ “ พื้นที่ส่วนใหญ่เช่นตัวละครความสุขความสัมพันธ์ - พวกเขายังไม่ดีขนาดนั้นฉันหมายถึงเราเห็นคะแนนเหล่านั้นในยุค 50 ความเชื่อเราเห็นคะแนนในยุค 30 และ 40” เขาแสดงความคิดเห็นไปยังสแต็คใหม่

เขาวางกรอบคะแนนต่ำเหล่านี้ไม่ได้เป็นความล้มเหลวของมาตรฐาน แต่เป็นข้อพิสูจน์ถึงความจำเป็น สำหรับ Gelsinger ผลลัพธ์ที่ผ่านมาตรวจสอบว่ามีงานสำคัญที่ต้องทำเพื่อจัดระบบเหล่านี้ให้สอดคล้องกับค่านิยมของมนุษย์ความท้าทายที่ FAI ได้รับการออกแบบมาเพื่อให้ความกระจ่าง

ความไม่สมดุลของประสิทธิภาพนี้น่าจะเป็นผลโดยตรงจากการปฏิบัติในอุตสาหกรรมในปัจจุบัน แบบจำลองทำงานได้ดีพอสมควรในมิติเช่นสุขภาพและการเงินเนื่องจากพื้นที่เหล่านี้เป็นส่วนหนึ่งของมาตรฐานทางเทคนิคที่มีอยู่แล้วซึ่งนักพัฒนาซอฟต์แวร์ปรับให้เหมาะสม ระบบการให้คะแนนค่าเฉลี่ยทางเรขาคณิตของ FAI จะทำให้เกิดจุดอ่อนเหล่านี้ต่อไปเนื่องจากป้องกันคะแนนสูงในพื้นที่หนึ่งจากการชดเชยคะแนนต่ำที่อื่น

ความแตกต่างนี้เน้นการขาดดุลที่สำคัญในการพัฒนา AI ระบบกำลังได้รับการปรับให้เหมาะสมสำหรับงานคอนกรีตตามข้อเท็จจริง แต่ยังไม่พร้อมที่จะจัดการกับความซับซ้อนของการสะท้อนจริยธรรมการให้เหตุผลที่มีอยู่หรือคำแนะนำตามคุณธรรม ผลลัพธ์ของ FAI ชี้ให้เห็นว่าชุดข้อมูลมากมายที่ใช้สำหรับการฝึกอบรมนั้นขาดความลึกที่จำเป็นในโดเมนที่มีประสบการณ์ของมนุษย์ที่เหมาะสมยิ่งขึ้น

Beyond Performance: กระบวนทัศน์ใหม่เพื่อความปลอดภัยของ AI

เกณฑ์มาตรฐาน FAI ไม่ได้มีวัตถุประสงค์เพื่อเป็นคำสุดท้ายเกี่ยวกับความปลอดภัยของ AI กระดาษสีขาวของโครงการยอมรับข้อ จำกัด โดยชี้แจงว่ามันถูกออกแบบมาเพื่อเติมเต็มไม่ได้แทนที่การประเมินที่สำคัญอื่น ๆ ของผลกระทบทางเทคนิควัฒนธรรมและสิ่งแวดล้อมของ AI ดังที่นักวิจัยทราบว่า“ เกณฑ์มาตรฐานของ FAI มุ่งเน้นไปที่ผลลัพธ์ที่เน้นมนุษย์เป็นศูนย์กลางในทั้งเจ็ดมิติที่สำคัญเพื่อเติมเต็มไม่ได้แทนที่การประเมินทางเทคนิคพิเศษ”

เป้าหมายสูงสุดคือการผลักดันการเปลี่ยนแปลงในอุตสาหกรรม Gelsinger หวังว่านักพัฒนา AI รายใหญ่ใน บริษัท ต่างๆเช่น Openai, Google และ Anthropic จะนำมาใช้มาตรฐาน FAI เพื่อระบุและแก้ไขข้อบกพร่องเหล่านี้ในแบบจำลองของพวกเขาส่งเสริม AI รุ่นใหม่ที่ช่วยเพิ่มสภาพมนุษย์อย่างแข็งขัน

สำหรับ Gelsinger คำจำกัดความของความสำเร็จนั้นชัดเจนและขยายออกไปไกลเกินมาตรฐาน “ ถ้าเราทำให้แบบจำลองดีขึ้นในทั้งเจ็ดมิตินี้เขียนขนาดใหญ่นั่นคือการประกาศความสำเร็จ” โครงการที่มีความทะเยอทะยานนี้เป็นการเรียกร้องให้ดำเนินการสำหรับอุตสาหกรรมในการสร้าง AI ที่ไม่เพียง แต่ฉลาด แต่ยังดี