Openai เงียบก่อน “สลิป” ของโมเดล O3: จุดมาตรฐานการโต้เถียงคืออะไร?
ประสิทธิภาพที่น่าผิดหวังของรูปแบบภาษา O3 ใหม่ที่เปิดตัวจาก OpenAI นั้นทำให้เกิดการอภิปรายอย่างรุนแรงในชุมชน AI ตัวเลขมาตรฐานที่แท้จริงนั้นต่ำกว่าคำแถลงเบื้องต้นของ “ชายร่างใหญ่” นี้ซึ่งทำให้เกิดข้อสงสัยเกี่ยวกับความโปร่งใสและความน่าเชื่อถือของผลการวิจัยที่ตีพิมพ์
บทความล่าสุดของ Openai เกี่ยวกับโมเดล O3 คาดว่าจะสร้างความก้าวหน้าในด้านการประมวลผลภาษาธรรมชาติดึงดูดความสนใจของผู้เชี่ยวชาญอย่างรวดเร็ว อย่างไรก็ตามความสุขดั้งเดิมถูกแทนที่ด้วยความสงสัยอย่างรวดเร็วเมื่อนักวิจัยอิสระทำการประเมินใหม่และค้นพบจุดที่ผิดปกติ ผลลัพธ์มาตรฐานที่พวกเขาได้รับต่ำกว่าตัวเลขที่น่าประทับใจที่ประกาศโดย OpenAI สร้างความแตกต่างอย่างมีนัยสำคัญและถามคำถามเกี่ยวกับวิธีการประเมินข้อมูลการฝึกอบรมรวมถึงความสมบูรณ์ของรายงานต้นฉบับ
ความแตกต่างนี้ไม่ได้เป็นเพียงปัญหา มันส่งผลโดยตรงต่อศักดิ์ศรีของ OpenAI ซึ่งเป็นองค์กรชั้นนำในด้านปัญญาประดิษฐ์ การขาดความโปร่งใสในการอธิบายสาเหตุของความแตกต่างนี้เพิ่มความสงสัย จนถึงตอนนี้ OpenAI ยังไม่ได้รับคำติชมอย่างเป็นทางการเพื่อชี้แจงปัญหา ความเงียบนี้ทำให้ชุมชน AI ถามคำถามเพิ่มเติมเกี่ยวกับความซื่อสัตย์และความรับผิดชอบของ บริษัท เทคโนโลยีขนาดใหญ่ในการเผยแพร่ผลการวิจัย
สิ่งนี้ยังเพิ่มเสียงระฆังเตือนเกี่ยวกับความสำคัญของการตรวจสอบความเป็นอิสระและการประเมินวัตถุประสงค์ในสาขาของ AI การพึ่งพาคำแถลงขององค์กรเดียวมากเกินไปสามารถนำไปสู่การประเมินที่ทำให้เข้าใจผิดและกระบวนการพัฒนาเทคโนโลยีที่ช้า ชุมชนจำเป็นต้องกำหนดมาตรฐานการทดสอบที่เข้มงวดมากขึ้นเพื่อให้แน่ใจว่าความโปร่งใสและความน่าเชื่อถือของสิ่งพิมพ์การวิจัยในอนาคต
เหตุการณ์ที่เกี่ยวข้องกับโมเดล O3 ของ Openai ไม่เพียง แต่เป็น “สลิป” ที่เรียบง่าย แต่ยังเป็นบทเรียนที่มีค่าเกี่ยวกับความสำคัญของการตรวจสอบความโปร่งใสและความรับผิดชอบในด้านการพัฒนาอย่างรวดเร็ว
#openai #o3 #ai #benchmark #painting #complags #tracking
  : โมเดล O3 ของ Openai นั้นเป็นที่ถกเถียงกันเพราะจุดมาตรฐานล่างประกาศเริ่มแรก
 
Openai กำลังเผชิญกับการวิพากษ์วิจารณ์หลังจากผลการศึกษาระดับที่สามแสดงให้เห็นว่าโมเดล O3 มีประสิทธิภาพต่ำกว่าที่ บริษัท ประกาศอย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งสถาบันวิจัย Epoch AI – ผู้พัฒนาหน่วยคณิตศาสตร์ FrontierMath – O3 กล่าวว่าเพียงประมาณ 10% เมื่อได้รับการจัดอันดับอย่างอิสระต่ำกว่า “มากกว่า 25%” ที่ Openai ประกาศเมื่อเดือนธันวาคมปีที่แล้ว

ในการเปิดตัว O3 Openai ยืนยันว่านี่เป็นขั้นตอนที่ยอดเยี่ยมในความสามารถในการให้เหตุผลคณิตศาสตร์ด้วยความสามารถในการแก้ปัญหามากกว่าส่วนหนึ่งของปัญหาใน FrontierMath – ในขณะที่คู่แข่งแก้ไขได้ประมาณ 2% อย่างไรก็ตามตาม Epoch คะแนนสูงสุดนั้นน่าจะถูกสร้างขึ้นจากเวอร์ชัน O3 ภายในที่มีความสามารถในการคำนวณที่เหนือกว่ารุ่นสาธารณะ
ในความเป็นจริงผลลัพธ์ที่ประกาศโดย OpenAI ยังรวมถึงสถานที่สำคัญที่ต่ำกว่าตามคะแนนยุคที่ได้รับ นอกจากนี้ Epoch กล่าวว่าเวอร์ชันที่ใช้คือ FrontierMath ที่ได้รับการปรับปรุงใหม่ซึ่งอาจแตกต่างจากปัญหา OpenAI ก่อนหน้านี้
ARC Prize Foundation ซึ่งเป็นองค์กรที่ผ่านการทดสอบ O3 ก่อนที่จะเปิดตัวก็ยืนยันว่าเวอร์ชัน O3 เชิงพาณิชย์ปัจจุบันเป็นเวอร์ชันที่ได้รับการปรับปรุงสำหรับสถานการณ์แอปพลิเคชันที่ใช้งานได้จริงไม่ใช่เกณฑ์มาตรฐานที่ดีที่สุด พวกเขากล่าวว่า: “การคำนวณทั้งหมดของเวอร์ชัน O3 นั้นเล็กกว่ารุ่นที่เราทดสอบแล้ว”
Wenda Zhou – วิศวกรของ Openai – ยังใช้ร่วมกันใน Livestream ว่ารุ่น O3 ปัจจุบันได้รับการออกแบบมาเพื่อสร้างสมดุลระหว่างต้นทุนความเร็วและการบังคับใช้แทนที่จะกำหนดเป้าหมายคะแนนมาตรฐาน “ เราได้รับการปรับให้เหมาะสมสำหรับผู้ใช้ที่ไม่ต้องรอนานเมื่อถามมันสำคัญกว่าในสถานการณ์จริง” เขากล่าว

แม้จะค่อนข้างหงุดหงิดในความถูกต้องของคำสั่งเริ่มต้น แต่ความจริงก็แสดงให้เห็นว่า Openai กำลังเตรียมที่จะเปิดตัว O3-Pro เวอร์ชันที่อัพเกรด นอกจากนี้ตัวแปรเช่น O3-Mini-High และ O4-Mini ในปัจจุบันมีผลลัพธ์ที่ดีกว่า O3 ในชุด FrontierMath
เหตุการณ์ที่เกิดขึ้นเป็นเครื่องเตือนใจว่าการทดสอบมาตรฐาน AI ไม่ควรได้รับอย่างแน่นอนโดยเฉพาะอย่างยิ่งเมื่อพวกเขามาจากผู้ให้บริการเอง อุตสาหกรรม AI กำลังเป็นพยานการโต้เถียงกันมากขึ้นเรื่อย ๆ โดยรอบความโปร่งใสของผลการประเมิน
ก่อนหน้านี้ยุคถูกวิพากษ์วิจารณ์ว่าไม่เปิดเผยผู้สนับสนุนจาก Openai ทันที นอกจากนี้ Elon Musk กับ Xai ก็ถูกกล่าวหาว่าใช้เกณฑ์มาตรฐานที่ทำให้เข้าใจผิดสำหรับ Grok 3 และ Meta เมื่อเร็ว ๆ นี้ยอมรับว่าจะแสดงคะแนนมาตรฐานของรุ่นที่แตกต่างจากรุ่นที่วางจำหน่ายจริง
Openai กำลังเผชิญกับการวิพากษ์วิจารณ์หลังจากผลการศึกษาระดับที่สามแสดงให้เห็นว่าโมเดล O3 มีประสิทธิภาพต่ำกว่าที่ บริษัท ประกาศอย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งสถาบันวิจัย Epoch AI – ผู้พัฒนาหน่วยคณิตศาสตร์ FrontierMath – O3 กล่าวว่าเพียงประมาณ 10% เมื่อได้รับการจัดอันดับอย่างอิสระต่ำกว่า “มากกว่า 25%” ที่ Openai ประกาศเมื่อเดือนธันวาคมปีที่แล้ว

ในการเปิดตัว O3 Openai ยืนยันว่านี่เป็นขั้นตอนที่ยอดเยี่ยมในความสามารถในการให้เหตุผลคณิตศาสตร์ด้วยความสามารถในการแก้ปัญหามากกว่าส่วนหนึ่งของปัญหาใน FrontierMath – ในขณะที่คู่แข่งแก้ไขได้ประมาณ 2% อย่างไรก็ตามตาม Epoch คะแนนสูงสุดนั้นน่าจะถูกสร้างขึ้นจากเวอร์ชัน O3 ภายในที่มีความสามารถในการคำนวณที่เหนือกว่ารุ่นสาธารณะ
ในความเป็นจริงผลลัพธ์ที่ประกาศโดย OpenAI ยังรวมถึงสถานที่สำคัญที่ต่ำกว่าตามคะแนนยุคที่ได้รับ นอกจากนี้ Epoch กล่าวว่าเวอร์ชันที่ใช้คือ FrontierMath ที่ได้รับการปรับปรุงใหม่ซึ่งอาจแตกต่างจากปัญหา OpenAI ก่อนหน้านี้
ARC Prize Foundation ซึ่งเป็นองค์กรที่ผ่านการทดสอบ O3 ก่อนที่จะเปิดตัวก็ยืนยันว่าเวอร์ชัน O3 เชิงพาณิชย์ปัจจุบันเป็นเวอร์ชันที่ได้รับการปรับปรุงสำหรับสถานการณ์แอปพลิเคชันที่ใช้งานได้จริงไม่ใช่เกณฑ์มาตรฐานที่ดีที่สุด พวกเขากล่าวว่า: “การคำนวณทั้งหมดของเวอร์ชัน O3 นั้นเล็กกว่ารุ่นที่เราทดสอบแล้ว”
Wenda Zhou – วิศวกรของ Openai – ยังใช้ร่วมกันใน Livestream ว่ารุ่น O3 ปัจจุบันได้รับการออกแบบมาเพื่อสร้างสมดุลระหว่างต้นทุนความเร็วและการบังคับใช้แทนที่จะกำหนดเป้าหมายคะแนนมาตรฐาน “ เราได้รับการปรับให้เหมาะสมสำหรับผู้ใช้ที่ไม่ต้องรอนานเมื่อถามมันสำคัญกว่าในสถานการณ์จริง” เขากล่าว

แม้จะค่อนข้างหงุดหงิดในความถูกต้องของคำสั่งเริ่มต้น แต่ความจริงก็แสดงให้เห็นว่า Openai กำลังเตรียมที่จะเปิดตัว O3-Pro เวอร์ชันที่อัพเกรด นอกจากนี้ตัวแปรเช่น O3-Mini-High และ O4-Mini ในปัจจุบันมีผลลัพธ์ที่ดีกว่า O3 ในชุด FrontierMath
เหตุการณ์ที่เกิดขึ้นเป็นเครื่องเตือนใจว่าการทดสอบมาตรฐาน AI ไม่ควรได้รับอย่างแน่นอนโดยเฉพาะอย่างยิ่งเมื่อพวกเขามาจากผู้ให้บริการเอง อุตสาหกรรม AI กำลังเป็นพยานการโต้เถียงกันมากขึ้นเรื่อย ๆ โดยรอบความโปร่งใสของผลการประเมิน
ก่อนหน้านี้ยุคถูกวิพากษ์วิจารณ์ว่าไม่เปิดเผยผู้สนับสนุนจาก Openai ทันที นอกจากนี้ Elon Musk กับ Xai ก็ถูกกล่าวหาว่าใช้เกณฑ์มาตรฐานที่ทำให้เข้าใจผิดสำหรับ Grok 3 และ Meta เมื่อเร็ว ๆ นี้ยอมรับว่าจะแสดงคะแนนมาตรฐานของรุ่นที่แตกต่างจากรุ่นที่วางจำหน่ายจริง
<
h1>บทสรุปแบบจำลอง O3 ของ OpenAI นั้นเป็นที่ถกเถียงกันเพราะคะแนนมาตรฐานต่ำกว่าการประกาศครั้งแรก
Openai กำลังเผชิญกับการวิพากษ์วิจารณ์หลังจากผลการศึกษาระดับที่สามแสดงให้เห็นว่าโมเดล O3 มีประสิทธิภาพต่ำกว่าที่ บริษัท ประกาศอย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งสถาบันวิจัย Epoch AI – ผู้พัฒนาหน่วยคณิตศาสตร์ FrontierMath – O3 กล่าวว่าเพียงประมาณ 10% เมื่อได้รับการจัดอันดับอย่างอิสระต่ำกว่า “มากกว่า 25%” ที่ Openai ประกาศเมื่อเดือนธันวาคมปีที่แล้ว

ในการเปิดตัว O3 Openai ยืนยันว่านี่เป็นขั้นตอนที่ยอดเยี่ยมในความสามารถในการให้เหตุผลคณิตศาสตร์ด้วยความสามารถในการแก้ปัญหามากกว่าส่วนหนึ่งของปัญหาใน FrontierMath – ในขณะที่คู่แข่งแก้ไขได้ประมาณ 2% อย่างไรก็ตามตาม Epoch คะแนนสูงสุดนั้นน่าจะถูกสร้างขึ้นจากเวอร์ชัน O3 ภายในที่มีความสามารถในการคำนวณที่เหนือกว่ารุ่นสาธารณะ
ในความเป็นจริงผลลัพธ์ที่ประกาศโดย OpenAI ยังรวมถึงสถานที่สำคัญที่ต่ำกว่าตามคะแนนยุคที่ได้รับ นอกจากนี้ Epoch กล่าวว่าเวอร์ชันที่ใช้คือ FrontierMath ที่ได้รับการปรับปรุงใหม่ซึ่งอาจแตกต่างจากปัญหา OpenAI ก่อนหน้านี้
ARC Prize Foundation ซึ่งเป็นองค์กรที่ผ่านการทดสอบ O3 ก่อนที่จะเปิดตัวก็ยืนยันว่าเวอร์ชัน O3 เชิงพาณิชย์ปัจจุบันเป็นเวอร์ชันที่ได้รับการปรับปรุงสำหรับสถานการณ์แอปพลิเคชันที่ใช้งานได้จริงไม่ใช่เกณฑ์มาตรฐานที่ดีที่สุด พวกเขากล่าวว่า: “การคำนวณทั้งหมดของเวอร์ชัน O3 นั้นเล็กกว่ารุ่นที่เราทดสอบแล้ว”
Wenda Zhou – วิศวกรของ Openai – ยังใช้ร่วมกันใน Livestream ว่ารุ่น O3 ปัจจุบันได้รับการออกแบบมาเพื่อสร้างสมดุลระหว่างต้นทุนความเร็วและการบังคับใช้แทนที่จะกำหนดเป้าหมายคะแนนมาตรฐาน “ เราได้รับการปรับให้เหมาะสมสำหรับผู้ใช้ที่ไม่ต้องรอนานเมื่อถามมันสำคัญกว่าในสถานการณ์จริง” เขากล่าว

แม้จะค่อนข้างหงุดหงิดในความถูกต้องของคำสั่งเริ่มต้น แต่ความจริงก็แสดงให้เห็นว่า Openai กำลังเตรียมที่จะเปิดตัว O3-Pro เวอร์ชันที่อัพเกรด นอกจากนี้ตัวแปรเช่น O3-Mini-High และ O4-Mini ในปัจจุบันมีผลลัพธ์ที่ดีกว่า O3 ในชุด FrontierMath
เหตุการณ์ที่เกิดขึ้นเป็นเครื่องเตือนใจว่าการทดสอบมาตรฐาน AI ไม่ควรได้รับอย่างแน่นอนโดยเฉพาะอย่างยิ่งเมื่อพวกเขามาจากผู้ให้บริการเอง อุตสาหกรรม AI กำลังเป็นพยานการโต้เถียงกันมากขึ้นเรื่อย ๆ โดยรอบความโปร่งใสของผลการประเมิน
ก่อนหน้านี้ยุคถูกวิพากษ์วิจารณ์ว่าไม่เปิดเผยผู้สนับสนุนจาก Openai ทันที นอกจากนี้ Elon Musk กับ Xai ก็ถูกกล่าวหาว่าใช้เกณฑ์มาตรฐานที่ทำให้เข้าใจผิดสำหรับ Grok 3 และ Meta เมื่อเร็ว ๆ นี้ยอมรับว่าจะแสดงคะแนนมาตรฐานของรุ่นที่แตกต่างจากรุ่นที่วางจำหน่ายจริง
 . WEADESOS {ตำแหน่ง: Absolute; ชายแดน: 2px Solid #990000; -MOZ-Border-Radius: 50%; -MS-Border-Radius: 50%; แนวชายแดน: 50%; แอนิเมชั่น: ตีกลับ 2s ไม่มีที่สิ้นสุด; -webkit-animation: ตีกลับ 2s ไม่มีที่สิ้นสุด; -moz-Animation: ตีกลับ 2s ไม่มีที่สิ้นสุด; -o-anime: ตีกลับ 2s ไม่มีที่สิ้นสุด; แสดง: Inline-Block; Padding: 3px 3px 3px; สี: #FFF; ความเป็นมา: #990000; ขนาดตัวอักษร: 20px; ความสูงบรรทัด: 1; -moz-Border-Radius: 5px; -webkit-Border-Radius: 5px; -moz-box-shadow: 0 1px 3px #999; -webkit-box-shadow: 0 1px 3px #999; ข้อความ -Shadow: 0 -1px 1px #222; ขอบด้านล่าง: 1px Solid #222; ตำแหน่ง: ญาติ; เคอร์เซอร์: ตัวชี้; –
โพสต์ openai เงียบก่อน “สลิป” ของโมเดล O3: จุดมาตรฐานการโต้เถียงคืออะไร? ปรากฏตัวครั้งแรกบน Queen Mobile
Discover more from 24 Gadget - Review Mobile Products
Subscribe to get the latest posts sent to your email.

