ผลงานวิจัยทางจิตวิทยา ของ เหตุผลวิบัติโดยอัตราพื้นฐาน

งานทดลองต่าง ๆ พบว่า เราให้ความสำคัญกับข้อมูลเฉพาะมากกว่าข้อมูลทั่วไป ถ้ามีข้อมูลเฉพาะ[4][5][6]ในงานทดลองงานหนึ่งที่ให้นักศึกษาประเมินเกรดของนักศึกษาสมมุติพบว่า นักศึกษามักจะมองข้ามข้อมูลทางสถิติเกี่ยวกับการแจกแจงเกรด (grade distribution) ถ้ามีข้อมูลเฉพาะตัวเกี่ยวกับนักศึกษาสมมุติแม้ว่า ข้อมูลเฉพาะตัวนั้นอาจจะไม่มีความสำคัญอะไรเลยต่อการได้เกรดหนึ่ง ๆ[5] มีการใช้ผลงานวิจัยนี้ในการอ้างว่า การสัมภาษณ์ผู้สมัครเป็นนักศึกษา (ในมหาวิทยาลัยของสหรัฐอเมริกา) ไม่จำเป็นในกระบวนการสอบรับนักศึกษา เพราะว่า ผู้สัมภาษณ์ไม่สามารถที่จะคัดเลือกผู้สมัครได้ดีกว่าค่าสถิติพื้นฐาน

นักจิตวิทยาชาวอเมริกันยุคต้น ๆ ที่ทำการศึกษาเช่นนี้คือ แดเนียล คาฮ์นะมัน และอะมอส ทเวอร์สกี้ ได้อธิบายปรากฏการณ์นี้ว่าเป็นการคิดหาคำตอบโดยใช้ฮิวริสติกโดยความเป็นตัวแทนพวกเขาอ้างว่า มนุษย์ประเมินค่าความน่าจะเป็นหลายอย่าง หรือประเมินตัดสินเหตุและผล อาศัยว่าสิ่งหนึ่งมีความเป็นตัวแทน คือเหมือน กับอีกสิ่งหนึ่ง หรือกับประเภทหนึ่ง ๆ มากเท่าไร[5] ดร. คาฮ์นะมันพิจารณาว่า การละเลยอัตราพื้นฐานเช่นนี้ เป็นรูปแบบหนึ่งของ extension neglect[7][8] ส่วนนักจิตวิทยาริชาร์ด นิสเบ็ตต์ ที่มหาวิทยาลัยมิชิแกนเสนอว่า attribution bias เช่น fundamental attribution error เป็นรูปแบบอย่างหนึ่งของเหตุผลวิบัติโดยอัตราพื้นฐานคือ มนุษย์ไม่ใช้ข้อมูลที่ปรากฏโดยทั่วไป (คืออัตราพื้นฐาน) ว่าคนอื่น ๆ มีพฤติกรรมอย่างไรในสถานการณ์คล้าย ๆ กัน แต่กลับไปใช้ข้อมูลเฉพาะคือการแสดงเหตุโดยนิสัย (dispositional attribution) ซึ่งเป็นวิธีที่ง่ายกว่า[9]

มีการถกเถียงอย่างพอสมควรในสาขาจิตวิทยาเกี่ยวกับสถานการณ์ที่เราจะให้ความสำคัญต่อข้อมูลอัตราพื้นฐาน[10][11] นักวิจัยในเรื่องฮิวริสติกและความเอนเอียงได้เน้นหลักฐานการทดลองที่แสดงว่า เรามักจะละเลยอัตราพื้นฐานและทำการอนุมานที่คลาดเคลื่อนไปจากหลักเหตุผลของความน่าจะเป็นเช่น Bayes' theoremข้อสรุปจากแนวทางของงานวิจัยเหล่านี้ก็คือ กระบวนการความคิดเกี่ยวกับความน่าจะเป็นของมนุษย์มีข้อบกพร่องและเกิดความผิดพลาดได้ง่าย[12] แต่ว่าก็มีนักวิจัยพวกอื่นที่เน้นความสัมพันธ์กันระหว่างกระบวนการทางประชานและรูปแบบของข้อมูล และเสนอว่า ข้อสรุปทั่วไปเช่นนี้ยังไม่สมควร[13][14] เพราะว่าการแสดงปัญหาที่แสดงค่าทางสถิติเหล่านี้ โดยแสดงเป็นค่าอัตราส่วนตามธรรมชาติ แทนที่จะเป็นค่าเศษส่วนบรรทัดฐาน (เช่นค่าเปอร์เซ็นต์) หรือค่าความน่าจะเป็นมีเงื่อนไข จะทำให้มีโอกาสมากขึ้นที่จะแก้ปัญหาได้อย่างถูกต้อง

ลองมาพิจารณาปัญหาตัวอย่างที่ 2 อีกครั้งหนึ่ง สิ่งที่ต้องการจะอนุมานก็คือค่าความน่าจะเป็นที่คนขับรถที่หยุดโดยสุ่มจะเมาเหล้าถ้าเครื่องวิเคราะห์แสดงว่าเมา โดยรูปนัยแล้ว ค่าความน่าจะเป็นสามารถคำนวณได้โดยใช้ Bayes' theorem ดังที่แสดงไว้แล้ว แต่ว่า ก็ยังมีวิธีการแสดงข้อมูลที่เกี่ยวข้องกันในแบบอื่น ๆ ดังตัวอย่างดังต่อไปนี้ ซึ่งความจริงแล้วเป็นปัญหาเดียวกัน

คนขับรถ 1 ใน 1000 เมาแล้วขับ เครื่องวิเคราะห์ลมหายใจไม่เคยพลาดในการตรวจจับคนที่เมาจริง ๆ แต่ว่าในบรรดาคนขับที่ไม่เมา 999 คน จะมี 50 คนที่เครื่องวิเคราะห์จะแสดงว่าเมาอย่างผิด ๆ ถ้าเจ้าหน้าที่ตำรวจหยุดรถโดยสุ่ม แล้วบังคับใช้เครื่องวิเคราะห์กับคนขับ ซึ่งแสดงว่าคนขับเมา เมื่อสมมุติว่าคุณไม่รู้อะไรเลยเกี่ยวกับคนขับ ความน่าจะเป็นว่าคนขับเมาจริง ๆ มีค่าเท่าไร

ในรูปแบบการแสดงปัญหาเช่นนี้ ข้อมูลตัวเลขที่เกี่ยวข้องคือ p (เมา), p (เครื่องแสดงว่าเมา | เมา), และ p (เครื่องแสดงว่าเมา | ไม่เมา) เป็นการแสดงโดยอัตราส่วนที่มีตามธรรมชาติงานวิจัยโดยการทดลองพบว่า เราจะอนุมานใกล้เคียงกับกฎความน่าจะเป็นของ Bayes มากกว่าเมื่อแสดงปัญหาอย่างนี้ ซึ่งช่วยแก้ปัญหาการละเลยอัตราพื้นฐานทั้งในคนทั่วไป[14] และทั้งในผู้ชำนาญการและนักวิชาการ[15] และดังนั้น องค์กรต่าง ๆ รวมทั้งองค์กรความร่วมมือคอเครนแนะนำให้ใช้รูปแบบเช่นนี้ในการสื่อสารบทความสุขภาพที่มีการกล่าวถึงค่าสถิติ[16] และการสอนให้คนแปลปัญหาที่ต้องใช้เหตุผลโดยกฎความน่าจะเป็นของ Bayes ให้เป็นปัญหาที่แสดงรูปแบบอัตราส่วนโดยธรรมชาติ เป็นวิธีการสอนที่ได้ผลดีกว่าสอนให้ใส่ตัวเลขค่าความน่าจะเป็น (หรืออัตราร้อยละ) เข้าไปใน Bayes' theorem[17] นอกจากนั้นแล้ว ยังมีงานวิจัยที่แสดงด้วยว่า การแสดงอัตราส่วนโดยใช้ตัวแทนสัญลักษณ์ (เช่น แสดงรูปคนตามจำนวนประชากร) จะช่วยเราให้สามารถทำการอนุมานได้ดีขึ้น[17][18][19]ทำไมการแสดงปัญหาเป็นอัตราส่วนโดยธรรมชาติจึงช่วยแก้ปัญหา เหตุผลสำคัญอย่างหนึ่งก็คือเพราะช่วยทำการคำนวณให้ง่ายขึ้น ซึ่งสามารถเห็นได้ถ้าใช้วิธีการคำนวณค่าความน่าจะเป็นที่ต้องการคือ p (เมา|เมื่อเครื่องแสดงว่าเมา) หรือ p (drunk|D)

p ( d r u n k | D ) = N ( d r u n k ∩ D ) N ( D ) = 1 51 = 0.0196 {\displaystyle p(drunk|D)={\frac {N(drunk\cap D)}{N(D)}}={\frac {1}{51}}=0.0196}

โดยมี N (drunk ∩ D) หรือ N (เมา ∩ เครื่องแสดงว่าเมา) หมายถึงจำนวนคนขับที่เมาด้วยและเครื่องแสดงว่าเมาด้วยและ N (D) หรือ N (เครื่องแสดงว่าเมา) หมายถึงจำนวนคนขับทั้งหมดที่เครื่องจะแสดงว่าเมาสูตรนี้เท่าเทียมกับสูตรที่แสดงในตัวอย่างที่ผ่านมาแล้ว ซึ่งเป็นไปตามกฎของทฤษฎีความน่าจะเป็นว่า N (drunk ∩ D) = p (D | drunk) × p (drunk) คือ N (เมา ∩ เครื่องบอกว่าเมา) = p (เครื่องบอกว่าเมา | เมา) × p (เมา)ที่สำคัญก็คือว่า แม้ว่าจริง ๆ แล้วสูตรนี้จะเท่าเทียมกับสูตรที่เป็นไปตามกฎของ Bayes โดยรูปนัย แต่ว่า ตามความรู้สึกหรือตามความคิดแล้ว จะไม่เท่าเทียมกันการใช้อัตราส่วนโดยธรรมชาติทำการอนุมานให้ง่ายขึ้น เพราะว่า

การคำนวณสามารถทำโดยใช้จำนวนธรรมชาติ แทนที่จะใช้เศษส่วนบรรทัดฐาน (เช่นค่าความน่าจะเป็นหรือค่าเปอร์เซ็นต์)
ทำการแสดงผลบวกที่ผิดพลาด (false positive) ที่มีในระดับสูงให้ชัดขึ้น
อัตราส่วนธรรมชาติแสดงโครงสร้างที่มีเซตข้อมูลซ้อนอยู่ข้างใน[20][21]

ถึงกระนั้น อย่าเข้าใจว่า รูปแบบอัตราส่วนทุก ๆ แบบจะช่วยในการคิดหาค่าความน่าจะเป็น[21][22] คือ อัตราส่วน "โดยธรรมชาติ" จะหมายถึงข้อมูลที่มีรูปแบบเหมือนกับการชักข้อมูล/การหาข้อมูลโดยธรรมชาติจริง ๆ[23] (เช่นตัวอย่างที่สองในแบบปัญหาที่พึ่งแสดง) ไม่ใช่ค่าอัตราส่วนที่ได้มีการทำให้เป็นบรรทัดฐาน (normalized)