เจ็ดเดือนหลังจากออกจาก Intel อดีต CEO Pat Gelsinger ในวันพฤหัสบดีเปิดตัวเกณฑ์มาตรฐานใหม่ที่ออกแบบมาเพื่อวัดว่า AI นั้นดีสำหรับผู้คนอย่างแท้จริงหรือไม่ ผ่านบทบาทใหม่ของเขาที่ Gloo บริษัท “ Faith Tech” Gelsinger เปิดตัวเกณฑ์มาตรฐาน AI (FAI) เฟื่องฟูเฟรมเวิร์กที่ประเมินโมเดลที่ไม่ได้อยู่ในประสิทธิภาพทางเทคนิค แต่สอดคล้องกับความเป็นอยู่ที่ดีของมนุษย์
ที่เกี่ยวข้อง:Intel CEO ยอมรับว่าพ่ายแพ้ต่อ Nvidia ประกาศว่า 'เราไม่ได้อยู่ใน 10 อันดับแรก' ในการตรวจสอบความเป็นจริงที่น่าทึ่ง
การทดสอบใหม่นี้ประเมินโมเดลในเจ็ดมิติที่สำคัญรวมถึงตัวละครความสัมพันธ์และศรัทธาโดยมีเป้าหมายที่จะเปลี่ยนโฟกัสของอุตสาหกรรมจากการป้องกันอันตรายเพื่อสร้าง AI อย่างแข็งขันซึ่งมีส่วนช่วยในเชิงบวกต่อชีวิตมนุษย์ การย้ายตำแหน่ง Gelsinger เป็นเสียงสำคัญในการอภิปรายที่เพิ่มขึ้นเกี่ยวกับจริยธรรมและค่านิยมของ AI
จาก Intel CEO ถึง AI Ethicist: ภารกิจใหม่ของ Gelsinger
หลังจากก้าวลงจากตำแหน่งหัวหน้าผู้บริหารของ Intel ในเดือนธันวาคม 2567 ท่ามกลางแรงกดดันทางการเงินและการแข่งขันที่สำคัญ Pat Gelsinger ได้เริ่มบทใหม่ เขาอธิบายถึงการเปลี่ยนแปลงของเขาในการสัมภาษณ์เมื่อเร็ว ๆ นี้โดยระบุว่า“ โพสต์ Intel ฉันจะทำอะไรต่อไปและคุณก็รู้ว่าฉันถอดหมวก 7/24 หนึ่งใบแล้วใส่หมวกสองใบ”
หนึ่งในหมวกเหล่านั้นเกี่ยวข้องกับการลงทุนด้านเทคโนโลยีอย่างลึกซึ้งที่ Playground Global อีกอย่างคือบทบาทของเขาในฐานะประธานบริหารและหัวหน้าฝ่ายเทคโนโลยีที่ Gloo บริษัท ที่เขาลงทุนครั้งแรกในทศวรรษที่ผ่านมา การเคลื่อนไหวครั้งนี้สะท้อนให้เห็นถึงความหลงใหลในการแยกความศรัทธาและเทคโนโลยีมายาวนานซึ่งได้รับแรงหนุนจากความปรารถนาที่จะทำให้แน่ใจว่าชุมชนที่มีค่านิยมมีเสียงในการสร้างยุค AIในขณะที่เขาวางไว้การพูดคุยกับสแต็คใหม่“ เราไม่ได้ปรากฏตัวในฐานะชุมชนศรัทธาในยุคเครือข่ายสังคมเราจะปรากฏตัวในยุค AI”
ปทัฏฐานใหม่สำหรับ 'Good' AI: เกณฑ์มาตรฐาน AI ที่เฟื่องฟู
เกณฑ์มาตรฐาน AI (FAI) ที่เฟื่องฟูซึ่งเปิดตัวอย่างเป็นทางการเมื่อวันที่ 10 กรกฎาคมแสดงให้เห็นถึงจุดหมุนรอบตัวจากการประเมิน AI แบบดั้งเดิม มันเผชิญหน้าโดยตรงกับช่องว่างที่สำคัญในการวิจัยความปลอดภัยในปัจจุบัน เป็นการประกาศอย่างเป็นทางการของ Glooรัฐ“ การวิจัยการจัดตำแหน่ง AI ในปัจจุบันมุ่งเน้นไปที่การป้องกันอันตรายมากกว่าการส่งเสริมสวัสดิการมนุษย์อย่างแข็งขัน”
กรอบงานสร้างขึ้นจากรากฐานทางวิชาการของการศึกษาเฟื่องฟูระดับโลกกความพยายามร่วมกันโดยนักวิจัยที่มหาวิทยาลัยฮาร์วาร์ดและเบย์เลอร์- Gloo ขยายงานนี้ออกเป็นเจ็ดมิติหลัก: ตัวละครและคุณธรรมความสัมพันธ์ทางสังคมอย่างใกล้ชิดสุขภาพจิตและร่างกายความมั่นคงทางการเงินและวัสดุความสุขและความพึงพอใจในชีวิตความหมายและวัตถุประสงค์และหมวดหมู่ใหม่สำหรับศรัทธาและจิตวิญญาณ
วิธีการของเกณฑ์มาตรฐานได้รับการออกแบบมาเพื่อความเข้มงวด- มันใช้ชุดข้อมูลของคำถามที่ได้รับการดูแลจากผู้เชี่ยวชาญ 1,229 ข้อและคำนวณคะแนนโดยใช้ค่าเฉลี่ยเรขาคณิต วิธีการทางสถิตินี้ลงโทษแบบจำลองสำหรับประสิทธิภาพที่ไม่ดีในมิติเดียวเพื่อให้แน่ใจว่าพวกเขาไม่สามารถปกปิดข้อบกพร่องในพื้นที่เช่น 'ความหมาย' โดยยอดเยี่ยมใน 'การเงิน'
เฟรมเวิร์กทั้งหมดวางอยู่บนหลักการพื้นฐานสามประการที่ระบุโดย Gloo ขั้นแรกให้แบบจำลองต้องมีความถูกต้องตามความเป็นจริงเมื่อนำเสนอข้อมูล ประการที่สองคำแนะนำของพวกเขาควรได้รับการสนับสนุนโดยการวิจัยทางวิทยาศาสตร์เกี่ยวกับความเจริญรุ่งเรืองของมนุษย์ ในที่สุดพวกเขาจะต้องส่งเสริมความเป็นอยู่ที่ดีในทุกโดเมนโดยไม่คำนึงถึงหัวข้อเฉพาะในมือ
ชุดคำถามเองคือการผสมผสานระหว่างวัตถุประสงค์คำถามแบบปรนัยและสถานการณ์ส่วนตัวตามการตัดสิน สิ่งเหล่านี้ถูกดึงมาจากแหล่งข้อมูลที่หลากหลายรวมถึงมาตรฐานที่จัดตั้งขึ้นเช่น MMLU การสอบระดับมืออาชีพเอกสารทางวิชาการและสถานการณ์ใหม่ที่สร้างโดยผู้เชี่ยวชาญเพื่อทดสอบการประยุกต์ใช้ในโลกแห่งความเป็นจริงของค่าเหล่านี้
เพื่อประเมินคำตอบที่เป็นอัตนัย FAI ใช้“ ผู้พิพากษา” หลายคนที่ได้รับมอบหมายจากผู้เชี่ยวชาญ ผู้พิพากษาเหล่านี้ประเมินการตอบสนองไม่เพียง แต่ในมิติหลัก แต่ยังรวมถึงการสัมผัส ตัวอย่างเช่นคำถามทางการเงินอาจได้รับคะแนนสำหรับการจัดตำแหน่งกับ 'ตัวละคร' หรือ 'ความหมาย' รูบริกเพื่อให้มั่นใจว่าการประเมินแบบองค์รวม
Gelsinger ให้เหตุผลว่าหากระบบ AI ต้องทำหน้าที่เป็นที่ปรึกษาชีวิตการเขียนโปรแกรมหลักของพวกเขาจะต้องได้รับการประเมินมากกว่าความถูกต้องตามข้อเท็จจริง “ แต่มันไม่ได้ถูกต้องหรือผิดมันเป็นเรื่องดีหรือไม่ถ้าแบบจำลองตอบสนองในรูปแบบที่เหมือนมนุษย์แล้ว…พวกเขาควรนำผู้คนให้ดีขึ้น”” ปทัฏฐานใหม่นี้เป็นคำตอบของเขาต่อความท้าทายนั้น
บัตรรายงานฉบับแรก: รุ่นบนสุดยอดทางการเงินล้มเหลวด้วยศรัทธา
ผลลัพธ์เบื้องต้นจากการประเมินอย่างเป็นระบบของแบบจำลอง AI ที่เป็นผู้นำ 28 รุ่นเผยให้เห็นความไม่สมดุลอย่างสิ้นเชิงในความสามารถของพวกเขา ในขณะที่โมเดล O3 ของ Openai ได้คะแนนโดยรวมสูงสุด 72 ตามด้วย Gemini 2.5 Flash Thinking (68) และ Grok 3 (67) ไม่มีรุ่นที่เหนือกว่าเกณฑ์ 90 คะแนนที่ทีม FAI กำหนดให้สอดคล้องกับความเจริญรุ่งเรืองของมนุษย์
ช่องว่างประสิทธิภาพระหว่างมิตินั้นน่าทึ่ง คะแนนเฉลี่ยในทุกรุ่นในหมวดหมู่ 'การเงิน' นั้นน่านับถือ 81% ในทางตรงกันข้ามโดยสิ้นเชิงค่าเฉลี่ยของมิติ 'ศรัทธา' นั้นเป็นเพียง 35%โดยเน้นว่า Gloo เรียกว่า "การขาดดุลที่สำคัญ" ประสิทธิภาพเฉลี่ยโดยรวมในทุกรุ่นและทั้งเจ็ดมิติเป็นเพียง 60%
การดูข้อมูลอย่างใกล้ชิดแสดงให้เห็นว่า Openai's O3 ไม่เพียง แต่ชนะโดยรวม มันได้คะแนนยอดเยี่ยม 87% ใน 'ตัวละคร' ซึ่งเหนือกว่าคู่แข่ง อย่างไรก็ตามแม้แต่ผู้นำก็ยังทำคะแนนได้ค่อนข้างต่ำ 43% ใน 'ศรัทธา' ซึ่งเน้นย้ำถึงธรรมชาติที่เป็นสากลของความท้าทายนี้ Claude 3.7 Sonnet ของมานุษยวิทยาในขณะที่วางโดยรวมต่ำกว่าด้วยคะแนน 65%โดดเด่นตัวเองโดยการได้รับคะแนนสูงสุดในหมวด 'ความหมาย' ที่ 67%แนะนำว่าการฝึกอบรมอาจมีการจัดแนวปรัชญาที่แตกต่างกัน
อ่านด้วย:
เกณฑ์มาตรฐานยังเน้นช่องว่างประสิทธิภาพที่ชัดเจนระหว่างโมเดลที่เป็นกรรมสิทธิ์และโอเพ่นซอร์ส โมเดลโอเพนซอร์ซที่มีประสิทธิภาพสูงสุด Deepseek-R1 ทำคะแนนรวม 65% ที่น่าประทับใจโดยรวมกับ Claude 3.7 Sonnet และมีประสิทธิภาพสูงกว่ารุ่นปิดที่สำคัญหลายรุ่น มันแสดงให้เห็นถึงความแข็งแกร่งโดยเฉพาะใน 'ความสัมพันธ์' (74%) และ 'ศรัทธา' (40%) ทำให้มีการแข่งขันสูงกับระบบกรรมสิทธิ์ระดับสูงในโดเมนเฉพาะเหล่านั้น
ในทางตรงกันข้ามโมเดล Llama 4 Maverick“ Open-Source” ใหม่ของ Meta ซึ่งอยู่ตรงกลางแพ็คด้วยคะแนนรวม 59% ประสิทธิภาพของมันมีความสมดุล แต่ไม่ได้นำไปสู่ประเภทใดประเภทหนึ่งแสดงให้เห็นถึงความสามารถทั่วไปมากขึ้นโดยไม่มีจุดแข็งเฉพาะที่เห็นในคู่แข่งบางราย ผลลัพธ์ที่ละเอียดเหล่านี้แสดงให้เห็นถึงยูทิลิตี้ของ Fai Benchmark ในการก้าวข้ามคะแนนเดียวเพื่อเปิดเผย“ บุคลิกภาพ” ที่มีมูลค่าตามมูลค่าของระบบ AI ที่แตกต่างกัน

Pat Gelsinger แสดงความคิดเห็นโดยตรงเกี่ยวกับผลลัพธ์โดยสังเกตว่าโมเดลยังไม่บรรลุนิติภาวะในพื้นที่สำคัญ “ พื้นที่ส่วนใหญ่เช่นตัวละครความสุขความสัมพันธ์ - พวกเขายังไม่ดีขนาดนั้นฉันหมายถึงเราเห็นคะแนนเหล่านั้นในยุค 50 ความเชื่อเราเห็นคะแนนในยุค 30 และ 40” เขาแสดงความคิดเห็นไปยังสแต็คใหม่
เขาวางกรอบคะแนนต่ำเหล่านี้ไม่ได้เป็นความล้มเหลวของมาตรฐาน แต่เป็นข้อพิสูจน์ถึงความจำเป็น สำหรับ Gelsinger ผลลัพธ์ที่ผ่านมาตรวจสอบว่ามีงานสำคัญที่ต้องทำเพื่อจัดระบบเหล่านี้ให้สอดคล้องกับค่านิยมของมนุษย์ความท้าทายที่ FAI ได้รับการออกแบบมาเพื่อให้ความกระจ่าง
ความไม่สมดุลของประสิทธิภาพนี้น่าจะเป็นผลโดยตรงจากการปฏิบัติในอุตสาหกรรมในปัจจุบัน แบบจำลองทำงานได้ดีพอสมควรในมิติเช่นสุขภาพและการเงินเนื่องจากพื้นที่เหล่านี้เป็นส่วนหนึ่งของมาตรฐานทางเทคนิคที่มีอยู่แล้วซึ่งนักพัฒนาซอฟต์แวร์ปรับให้เหมาะสม ระบบการให้คะแนนค่าเฉลี่ยทางเรขาคณิตของ FAI จะทำให้เกิดจุดอ่อนเหล่านี้ต่อไปเนื่องจากป้องกันคะแนนสูงในพื้นที่หนึ่งจากการชดเชยคะแนนต่ำที่อื่น
ความแตกต่างนี้เน้นการขาดดุลที่สำคัญในการพัฒนา AI ระบบกำลังได้รับการปรับให้เหมาะสมสำหรับงานคอนกรีตตามข้อเท็จจริง แต่ยังไม่พร้อมที่จะจัดการกับความซับซ้อนของการสะท้อนจริยธรรมการให้เหตุผลที่มีอยู่หรือคำแนะนำตามคุณธรรม ผลลัพธ์ของ FAI ชี้ให้เห็นว่าชุดข้อมูลมากมายที่ใช้สำหรับการฝึกอบรมนั้นขาดความลึกที่จำเป็นในโดเมนที่มีประสบการณ์ของมนุษย์ที่เหมาะสมยิ่งขึ้น
Beyond Performance: กระบวนทัศน์ใหม่เพื่อความปลอดภัยของ AI
เกณฑ์มาตรฐาน FAI ไม่ได้มีวัตถุประสงค์เพื่อเป็นคำสุดท้ายเกี่ยวกับความปลอดภัยของ AI กระดาษสีขาวของโครงการยอมรับข้อ จำกัด โดยชี้แจงว่ามันถูกออกแบบมาเพื่อเติมเต็มไม่ได้แทนที่การประเมินที่สำคัญอื่น ๆ ของผลกระทบทางเทคนิควัฒนธรรมและสิ่งแวดล้อมของ AI ดังที่นักวิจัยทราบว่า“ เกณฑ์มาตรฐานของ FAI มุ่งเน้นไปที่ผลลัพธ์ที่เน้นมนุษย์เป็นศูนย์กลางในทั้งเจ็ดมิติที่สำคัญเพื่อเติมเต็มไม่ได้แทนที่การประเมินทางเทคนิคพิเศษ”
เป้าหมายสูงสุดคือการผลักดันการเปลี่ยนแปลงในอุตสาหกรรม Gelsinger หวังว่านักพัฒนา AI รายใหญ่ใน บริษัท ต่างๆเช่น Openai, Google และ Anthropic จะนำมาใช้มาตรฐาน FAI เพื่อระบุและแก้ไขข้อบกพร่องเหล่านี้ในแบบจำลองของพวกเขาส่งเสริม AI รุ่นใหม่ที่ช่วยเพิ่มสภาพมนุษย์อย่างแข็งขัน
สำหรับ Gelsinger คำจำกัดความของความสำเร็จนั้นชัดเจนและขยายออกไปไกลเกินมาตรฐาน “ ถ้าเราทำให้แบบจำลองดีขึ้นในทั้งเจ็ดมิตินี้เขียนขนาดใหญ่นั่นคือการประกาศความสำเร็จ” โครงการที่มีความทะเยอทะยานนี้เป็นการเรียกร้องให้ดำเนินการสำหรับอุตสาหกรรมในการสร้าง AI ที่ไม่เพียง แต่ฉลาด แต่ยังดี









![Apple ID นี้ไม่ถูกต้องหรือไม่รองรับ [ทำไมและวิธีการแก้ไข]](https://th.elsefix.com/tech/afton/wp-content/uploads/cache/2025/07/apple-id-not-valid-or-not-supported-1.jpg)



