ประวัติ ของ แอลฟาโกะ

หมากล้อมได้รับการพิจารณาว่ายากมากสำหรับคอมพิวเตอร์ที่จะเป็นฝ่ายชนะกว่าเกมอื่น ๆ เช่นหมากรุก เนื่องจากจำนวนการแตกกิ่งก้านที่มีขนาดใหญ่มากจึงทำให้ยากที่จะใช้วิธีการดั้งเดิมของเอไอ เช่น การตัดออกแบบแอลฟา–เบตา, การท่องต้นไม้ และการค้นหาวิทยาการศึกษาสำนึก [3][12]

เกือบสองทศวรรษหลังจากที่ดีปบลูคอมพิวเตอร์ของไอบีเอ็มชนะแชมป์หมากรุกโลกอย่างแกรี คาสปารอฟ ในดีปบลูพบคาสปารอฟ โปรแกรมหมากล้อมที่แข็งแกร่งใช้เทคนิคปัญญาประดิษฐ์ถึงระดับ 5 ดั้งสมัครเล่นเท่านั้น[10] และยังไม่สามารถเอาชนะผู้เล่นหมากล้อมระดับอาชีพได้โดยไม่มีแต้มต่อ [3][4][13] ส่วนในปี ค.ศ. 2012 โปรแกรมซอฟต์แวร์เซน ได้ทำงานบนคอมพิวเตอร์สี่กลุ่ม และเป็นฝ่ายชนะมาซากิ ทาเกมิยะ (9 ดั้งอาชีพ) สองครั้งด้วยแต้มต่อห้าและสี่เม็ด[14] ครั้นในปี ค.ศ. 2013 ซอฟต์แวร์เครซีสโตน เป็นฝ่ายชนะโยชิโอะ อิชิดะ (9 ดั้งอาชีพ) ด้วยแต้มต่อสี่เม็ด[15]

อ้างอิงจากเดวิด ซิลเวอร์ ของดีปไมด์ โครงการวิจัยแอลฟาโกะก่อตั้งขึ้นประมาณปี ค.ศ. 2014 เพื่อทดสอบเครือข่ายประสาทเทียมที่ใช้การเรียนรู้เชิงลึกสามารถเข้าแข่งขันในหมากล้อมได้[16] แอลฟาโกะแสดงถึงการปรับปรุงที่สำคัญกว่าโปรแกรมหมากล้อมรุ่นก่อน โดยใน 500 เกมได้เผชิญกับโปรแกรมหมากล้อมอื่น ๆ ที่มีอยู่ รวมทั้งเครซีสโตนและเซน[17] แอลฟาโกะที่ทำงานบนคอมพิวเตอร์เครื่องเดียวได้เป็นฝ่ายชนะทุกเกมยกเว้นเพียงเกมเดียว[18] ในการจับคู่ที่คล้ายกัน แอลฟาโกะทำงานบนคอมพิวเตอร์หลายเครื่องได้ชนะเกมทั้งหมด 500 เกมที่เล่นกับโปรแกรมหมากล้อมอื่น ๆ และ 77 เปอร์เซนต์ของเกมที่เล่นกับแอลฟาโกะทำงานบนคอมพิวเตอร์เครื่องเดียว เวอร์ชันเผยแพร่ในเดือนตุลาคม ค.ศ. 2015 ใช้ 1,202 หน่วยประมวลผลกลาง และ 176 หน่วยประมวลผลกราฟิกส์[10]

แมตช์ปะทะฝาน ฮุย

ดูบทความหลักที่: แอลฟาโกะพบฝาน ฮุย

ในเดือนตุลาคม ค.ศ. 2015 รุ่นเผยแพร่ของแอลฟาโกะชนะแชมป์หมากล้อมของยุโรปอย่างฝาน ฮุย [19] ซึ่งเป็นนักหมากล้อมอาชีพระดับ 2 ดั้ง (จากที่มีทั้งหมด 9 ดั้ง) ห้าต่อศูนย์เกม[4][20] นี่เป็นครั้งแรกที่โปรแกรมหมากล้อมคอมพิวเตอร์เป็นฝ่ายชนะผู้เล่นระดับอาชีพบนกระดานขนาดเต็มโดยไม่มีแต้มต่อ[21] การประกาศข่าวดังกล่าวล่าช้าไปจนถึงวันที่ 27 มกราคม ค.ศ. 2016 เพื่อให้ตรงกับการตีพิมพ์บทความในวารสารเนเจอร์[10] โดยมีการอธิบายถึงการใช้อัลกอริทึม[4]

แมตช์ปะทะอี เซ-ดล

ดูบทความหลักที่: แอลฟาโกะพบอี เซ-ดล

แอลฟาโกะได้เล่นกับอี เซ-ดล ซึ่งเป็นนักหมากล้อมระดับอาชีพ 9 ดั้งชาวเกาหลีใต้ หนึ่งในผู้เล่นที่ดีที่สุดในหมากล้อม[13] กับห้าเกมที่จัดที่โรงแรมโฟร์ซีซันส์ในกรุงโซล ประเทศเกาหลีใต้เมื่อวันที่ 9, 10, 12, 13 และ 15 มีนาคม ค.ศ. 2016[22][23] ซึ่งมีวิดีโอสตรีมถ่ายทอดสด[24] ส่วนเอจา ฮวง ซึ่งเป็นสมาชิกทีมดีปไมด์ และนักเล่นหมากล้อม 6 ดั้งสมัครเล่น ได้วางเม็ดบนกระดานหมากล้อมให้แก่แอลฟาโกะ ซึ่งทำงานผ่านระบบคลาวด์ของกูเกิลพร้อมกับเซิร์ฟเวอร์ที่ตั้งอยู่ในสหรัฐ[25] การแข่งขันใช้กติกาแบบจีนกับโคมิ 7.5 แต้ม และแต่ละฝ่ายมีเวลาในการคิดสองชั่วโมงบวกกับระยะเวลาเบียวโยมิ 60 วินาที[26] เวอร์ชันของแอลฟาโกะที่เล่นกับอีใช้จำนวนกำลังประมวลผลเหมือนกับที่ใช้ในการแข่งขันกับฝาน ฮุย[27] นิตยสารดิอีโคโนมิสต์รายงานว่าใช้ 1,920 หน่วยประมวลผลกลาง และ 280 หน่วยประมวลผลกราฟิกส์[28]

ในขณะที่เล่น อี เซ-ดล มีชัยชนะหมากล้อมชิงแชมป์ระหว่างประเทศสูงสุดเป็นอันดับ 2 ของโลก[29] แม้ว่าจะไม่มีวิธีการอย่างเป็นทางการในการจัดอันดับหมากล้อมระดับนานาชาติ แต่แหล่งข่าวบางแห่งได้ให้อี เซ-ดล เป็นผู้เล่นที่ดีที่สุดอันดับที่สี่ในโลกในขณะนั้น[30][31] ส่วนแอลฟาโกะไม่ได้รับการฝึกโดยเฉพาะเพื่อเผชิญหน้ากับอี[32]

แอลฟาโกะเป็นฝ่ายชนะสามเกมแรกตามการยอมจำนนของอี[33][34] อย่างไรก็ตาม อีเป็นฝ่ายชนะแอลฟาโกะในเกมที่สี่ ที่ชนะจากฝ่ายตรงข้ามยอมจำนนในตาที่ 180 จากนั้น แอลฟาโกะยังคงชนะได้เป็นครั้งที่สี่ จากการชนะเกมที่ห้าโดยอีกฝ่ายยอมจำนน[35]

รางวัลนี้มีมูลค่า 1 ล้านดอลลาร์สหรัฐ เนื่องด้วยแอลฟาโกะเป็นฝ่ายชนะสี่ในห้าเกม และดังนั้น รางวัลจะนำไปมอบให้แก่องค์กรการกุศล รวมทั้งยูนิเซฟ ส่วนอี เซ-ดล ได้รับเงิน 150,000 ดอลลาร์สำหรับการเข้าร่วมในเกมทั้งหมดห้าเกมและเพิ่มอีก 20,000 ดอลลาร์สำหรับการชนะของเขา[26]

ในเดือนมิถุนายน ค.ศ. 2016 ในการนำเสนอที่จัดขึ้นที่มหาวิทยาลัยในประเทศเนเธอร์แลนด์ เอจา ฮวง หนึ่งในทีมดีปไมด์ เปิดเผยว่าได้แก้ไขปัญหาที่เกิดขึ้นในระหว่างเกมที่ 4 ระหว่างแอลฟาโกะกับอี และหลังจากตาเดินที่ 78 (ซึ่งได้รับการขนานนามว่า "การเคลื่อนย้ายของพระเจ้า" โดยระดับอาชีพหลายคน) มันจะเล่นได้อย่างแม่นยำและรักษาความได้เปรียบของหมากดำ ก่อนถึงตาเดินที่ 78 แอลฟาโกะเป็นผู้นำตลอดเกมและการเดินของอีไม่ได้รับการยกย่องว่าเป็นหนึ่งในเกมที่ชนะ แต่เกิดจากพลังการประมวลผลของโปรแกรมถูกเบี่ยงเบนและสับสน[36] ฮวงอธิบายว่าเครือข่ายวิถีทางของแอลฟาโกะของการหาคำสั่งเดินที่แม่นยำที่สุดและความต่อเนื่อง ไม่ได้นำแอลฟาโกะไปสู่ความต่อเนื่องที่ถูกต้องหลังจากตาเดินที่ 78 เนื่องจากเครือข่ายประเมินค่าไม่ได้ระบุว่าตาเดินที่ 78 ของอีจะเป็นไปได้มากที่สุด และดังนั้นเมื่อเดินตาดังกล่าว ทำให้แอลฟาโกะไม่สามารถปรับให้ถูกต้องเพื่อความต่อเนื่องทางตรรกะได้[37]

หกสิบเกมออนไลน์

ดูบทความหลักที่: มาสเตอร์ (ซอฟต์แวร์)

เมื่อวันที่ 29 ธันวาคม ค.ศ. 2016 บัญชีใหม่บนเซิร์ฟเวอร์ทาอีเจ็มชื่อ "มาจิสเตอร์" (Magister) (ซึ่งแสดงเป็น 'มาจิสต์' (Magist) ในเวอร์ชันภาษาจีนของเซิร์ฟเวอร์) จากประเทศเกาหลีใต้ได้เริ่มเล่นเกมกับนักกีฬามืออาชีพ จากนั้นได้เปลี่ยนชื่อบัญชีเป็น "มาสเตอร์" (Master) ในวันที่ 30 ธันวาคม แล้วย้ายไปที่เซิร์ฟเวอร์ฟอกซ์โกะในวันที่ 1 มกราคม ค.ศ. 2017 ครั้นเมื่อวันที่ 4 มกราคม ทางดีปไมด์ได้ยืนยันว่าทั้ง "มาจิสเตอร์" และ "มาสเตอร์" เป็นการเล่นโดยแอลฟาโกะในเวอร์ชันที่อัปเดตแล้ว[38][39] ณ วันที่ 5 มกราคม ค.ศ. 2017 สถิติออนไลน์ของแอลฟาโกะคือแพ้ 60 ครั้งและแพ้ 0 ครั้ง[40] รวมถึงสามชัยชนะเหนือผู้เล่นอันดับหนึ่งของหมากล้อมอย่างเคอ เจี๋ย [41] ที่ได้รับการบรรยายสรุปอย่างเงียบ ๆ ล่วงหน้าว่ามาสเตอร์เป็นเวอร์ชันหนึ่งของแอลฟาโกะ[40] หลังจากแพ้ต่อมาสเตอร์ กู่ ลี่ เสนอเงินรางวัล 100,000 หยวน (14,400 ดอลลาร์สหรัฐ) ให้แก่ผู้เล่นคนแรกที่สามารถเอาชนะมาสเตอร์ได้[39] มาสเตอร์เล่นที่ 10 เกมต่อวัน หลายคนสงสัยอย่างรวดเร็วว่าเป็นผู้เล่นเอไอเนื่องจากมีการพักระหว่างเกมน้อยหรือไม่มีเลย คู่ต่อสู้ของมันรวมถึงแชมป์โลกหลายราย เช่น เคอ เจี๋ย, พัก จ็อง-ฮวัน, ยูตะ อิยามะ, ตั้ว เจียซี, หมี่ ยวี่ถิง, สือ เยวี่ย, เฉิน เย่าเย่, หลี่ ชินเฉิง, กู่ ลี่, ฉาง เฮ่า, ถัง เหวยซิง, ฟั่น ถิงอี้ว์, โจว รุ่ยหยาง, เจียง เหวยเจี๋ย, โจว จุ้น-ซุน, คิม จี-ซ็อก, คัง ทง-ยุน, พัก ย็อง-ฮุน และว็อน ซ็อง-จิน; แชมป์ของประเทศหรือรองแชมป์โลก เช่น เหลียน เซี่ยว, ถัน เซี่ยว, เม่ง ไท่หลิง, ตั่ง อี้เฟย, หวง หยุนซง, หยาง ติ่งซิน, กู จื่อเหา, ชิน จินซอ, โช ฮัน-ซึง และอัน ซ็องจุน เกมทั้งหมด 60 เกมยกเว้นหนึ่งเกมเป็นเกมเร็ว กับสามเกมแบบเบียวโยมิ 20 หรือ 30 วินาที มาสเตอร์ได้เสนอให้ขยายเบียวโยมิไปหนึ่งนาทีเมื่อเล่นกับเนี่ย เว่ยผิง ในการพิจารณาจากอายุของเขา หลังจากชนะเกมที่ 59 มาสเตอร์ได้เปิดเผยตัวเองในแชทรูมที่ได้รับการควบคุมโดย ดร. เอจา ฮวง จากทีมดีปไมด์[42] แล้วเปลี่ยนสัญชาติของมันเป็นสหราชอาณาจักร หลังจากเกมเหล่านี้เสร็จสิ้น เดมิส ฮัสซาบิส ซึ่งเป็นผู้ร่วมก่อตั้งกูเกิล ดีปไมด์ ได้กล่าวในทวีตว่า "เรากำลังรอคอยที่จะเล่นเกมอย่างเป็นทางการและเต็มรูปแบบในเวลาต่อมา [ค.ศ. 2017] โดยร่วมมือกับองค์กรหมากล้อมและผู้เชี่ยวชาญ"[38][39]

ผู้เชี่ยวชาญด้านหมากล้อมรู้สึกประทับใจกับประสิทธิภาพการทำงานของแอลฟาโกะ และสไตล์การเล่นที่ไม่ได้เป็นมนุษย์ เคอ เจี๋ย กล่าวว่า "หลังจากที่มนุษยชาติใช้เวลาหลายพันปีในการปรับปรุงกลยุทธ์ของเรา คอมพิวเตอร์บอกเราว่ามนุษย์เป็นฝ่ายผิดอย่างสิ้นเชิง... ผมจะส่งเสียงเท่าที่จะบอกได้ว่าไม่ใช่มนุษย์คนเดียวที่ได้สัมผัสกับขอบแห่งความจริงของหมากล้อม"[40]

การประชุมสุดยอดหมากล้อมแห่งอนาคต

ดูบทความหลักที่: การประชุมสุดยอดหมากล้อมแห่งอนาคต

ดูสารนิเทศเพิ่มเติมที่: แอลฟาโกะปะทะเคอ เจี๋ย

ในการประชุมสุดยอดหมากล้อมแห่งอนาคต ซึ่งจัดขึ้นที่อูเจิ้นในเดือนพฤษภาคม ค.ศ. 2017 แอลฟาโกะได้เล่นสามเกมกับเคอ เจี๋ย ซึ่งเป็นนักหมากล้อมอันดับ 1 ของโลก รวมทั้งสองเกมกับมืออาชีพจีนชั้นนำหลายคน ได้แก่ เกมหมากล้อมแบบจับคู่หนึ่งเกม และที่พบกับทีมห้าผู้เล่นที่เป็นมนุษย์อีกหนึ่งเกม[43]

กูเกิล ดีปไมด์ มอบรางวัล 1.5 ล้านดอลลาร์เป็นรางวัลแก่ผู้ชนะสำหรับการจับคู่สามเกมระหว่างเคอ เจี๋ย และแอลฟาโกะ ขณะที่ฝ่ายแพ้ได้รับเงิน 300,000 ดอลลาร์[44][45][46] ซึ่งแอลฟาโกะชนะทั้งสามเกมกับเคอ เจี๋ย[47][48] รวมทั้งแอลฟาโกะได้รับรางวัล 9 ดั้งระดับมืออาชีพจากสมาคมหมากล้อมแห่งประเทศจีน[9]

หลังจากที่ชนะการแข่งขันสามเกมกับเคอ เจี๋ย ผู้เป็นนักหมากล้อมอันดับสูงสุด แอลฟาโกะก็ได้อำลาวงการ และทางดีปไมด์ยังยกเลิกการทำงานของทีมที่ทำงานเกี่ยวกับเกมเพื่อมุ่งเน้นไปที่การวิจัยเอไอในด้านอื่น ๆ ต่อไป[11] หลังจากการประชุมสุดยอด ดีปไมด์ได้เผยแพร่แมตช์แอลฟาโกะปะทะแอลฟาโกะ 50 เกมเต็มความยาว เป็นของขวัญให้แก่ชุมชนหมากล้อม[49]

แอลฟาโกะ ซีโร และแอลฟาซีโร

ดูบทความหลักที่: แอลฟาโกะ ซีโร และ แอลฟาซีโร

ทีมแอลฟาโกะเผยแพร่บทความในวารสารเนเจอร์ เมื่อวันที่ 19 ตุลาคม ค.ศ. 2017 โดยแนะนำแอลฟาโกะ ซีโร ซึ่งเป็นเวอร์ชันที่ไม่มีข้อมูลของมนุษย์และแข็งแกร่งกว่าเวอร์ชันก่อน ๆ ของมนุษย์ที่ชนะการแข่งขัน[50] โดยการเล่นเกมกับตัวเอง แอลฟาโกะ ซีโร เหนือกว่าจุดแข็งของแอลฟาโกะ อี ภายในสามวันด้วยการชนะ 100 เกมต่อ 0 อีกทั้งถึงระดับของแอลฟาโกะ มาสเตอร์ ภายใน 21 วัน และเหนือกว่ารุ่นเก่าทั้งหมดใน 40 วัน[51]

ในเอกสารที่เผยแพร่ในอาร์ซิฟเมื่อวันที่ 5 ธันวาคม ค.ศ. 2017 ดีปไมด์อ้างว่ามันใช้แนวทางแอลฟาโกะ ซีโร โดยทั่วไปจนกลายเป็นแอลฟาซีโรอัลกอริทึมเดียว ซึ่งประสบความสำเร็จภายใน 24 ชั่วโมงในระดับที่เหนือกว่าของการเล่นในเกมหมากรุกสากล, หมากรุกญี่ปุ่น และหมากล้อม โดยการเอาชนะโปรแกรมแชมป์โลก ทั้งสต็อกฟิช, เอลโม และแอลฟาโกะ ซีโร เวอร์ชัน 3 วัน[52]

แกรนด์มาสเตอร์ ฮิการุ นากามูระ รู้สึกประทับใจเล็กน้อยในการชนะหมากรุกสากลของแอลฟาซีโร โดยกล่าวว่า "ความเข้าใจของผมคือแอลฟาซีโรนั้นใช้ซูเปอร์คอมพิวเตอร์ของกูเกิล และสต็อกฟิชไม่ทำงานบนฮาร์ดแวร์นั่น สต็อกฟิชนั้นทำงานบนแล็ปท็อปของผม หากคุณต้องการมีการแข่งขันที่เทียบเคียงคุณต้องมีสต็อกฟิชทำงานบนซูเปอร์คอมพิวเตอร์เช่นกัน"[53] ผู้เล่นหมากรุกสากลระดับแถวหน้าของสหรัฐอย่างโวล์ฟ มอร์โรว์ ก็รู้สึกไม่ประทับใจเช่นกัน โดยอ้างว่าแอลฟาซีโรอาจจะไม่ทำให้รอบรองชนะเลิศของการแข่งขันที่เป็นธรรมเหมือนกับทีซีอีซีที่เอนจินทั้งหมดเล่นบนฮาร์ดแวร์ที่เท่าเทียมกัน มอร์โรว์กล่าวเพิ่มเติมว่าแม้ว่าเขาอาจจะไม่สามารถเอาชนะแอลฟาซีโรได้หากแอลฟาซีโรเล่นเปืดเกมเช่นการป้องกันของเปตรอฟ ซึ่งแอลฟาซีโรจะไม่สามารถเอาชนะเขาได้ในเกมหมากรุกทางจดหมายเช่นกัน[54]

เครื่องมือการสอน

เมื่อวันที่ 11 ธันวาคม ค.ศ. 2017 ดีปไมด์ได้เปิดตัวเครื่องมือการสอนแอลฟาโกะในเว็บไซต์ของตน[55] เพื่อวิเคราะห์อัตราการชนะของการเปิดหมากล้อมที่แตกต่างกันตามที่แอลฟาโกะ มาสเตอร์ คำนวณ[56] เครื่องมือการสอนรวบรวม 6,000 การเปิดหมากล้อมจาก 230,000 เกมของมนุษย์ในแต่ละเกมที่วิเคราะห์ด้วย 10,000,000 แบบจำลองโดยแอลฟาโกะ มาสเตอร์ หลายการเปิดประกอบด้วยการแนะนำการดำเนินเกมของมนุษย์[56]