ที่มาของสมการเอนโทรปี ของ เอนโทรปีของข้อมูล

ลองนึกถึงตัวอย่างของการส่งข้อมูลจากแหล่งหนึ่งไปอีกแหล่งหนึ่ง โดยที่ข้อความที่เป็นไปได้มีทั้งหมด s แบบ ซึ่งก็คือ x 1 , x 2 , … , x s {\displaystyle x_{1},x_{2},\ldots ,x_{s}} ข้อมูลแต่ละแบบมีความถี่ในการเกิดเป็น k 1 , k 2 , … , k s {\displaystyle k_{1},k_{2},\ldots ,k_{s}} ตามลำดับ โดยที่จำนวนการเกิดของข้อมูลทั้งหมดเป็น k = k 1 + k 2 + … + k s {\displaystyle k=k_{1}+k_{2}+\ldots +k_{s}} หากเรามีข้อมูลเพียงเท่านี้ โดยหลักการนับเบื้องต้น ความเป็นไปได้ของข้อความที่เกิดขึ้นทั้งหมดคือ

( k k 1 , k 2 , … , k s ) = k ! k 1 ! k 2 ! … k s ! {\displaystyle {k \choose k_{1},k_{2},\ldots ,k_{s}}={\frac {k!}{k_{1}!k_{2}!\ldots k_{s}!}}}

ในการที่ฝ่ายส่งข้อมูลส่งข้อความไปให้ฝ่ายรับ ฝ่ายส่งสามารถเลือกใช้การเข้ารหัสแบบใดก็ได้ แต่สิ่งสำคัญที่สุดอย่างหนึ่งที่ต้องคำนึงคือ "ฝ่ายรับต้องสามารถสร้างข้อความที่ได้รับมาให้กลับไปอยู่ในรูปแบบเดิมได้" นั่นก็คือ เราจะไม่สนใจการเข้ารหัสแบบแปลกประหลาดทั้งหลายที่ฝ่ายรับนำข้อมูลมาใช้ไม่ได้ ยกตัวอย่างเช่น ส่งข้อมูลทุกอย่างไปในรูปแบบของ "111" ฝ่ายรับไม่สามารถนำข้อมูลที่ได้รับมาไปใช้ได้เลย

วิธีส่งที่ฝ่ายส่งจะสามารถทำได้แบบหนึ่งคือ ส่งข้อมูลดังต่อไปนี้ไปให้ฝ่ายรับ

  • ส่งค่าของ ( k 1 , k 2 , … , k s ) {\displaystyle (k_{1},k_{2},\ldots ,k_{s})} ใช้ปริมาณข้อมูลทั้งหมด s log ⁡ k {\displaystyle s\log k} บิต
  • ส่งลำดับของข้อความที่ต้องการใน total ordering ที่นิยามบนเซ็ตความเป็นไปได้ของข้อความทั้งหมด (ordering นั้นจำเป็นที่จะต้องเป็น computable ordering, หรือพูดอีกอย่างหนึ่งก็คือ ฝ่ายรับสามารถคำนวณหาข้อความได้เมื่อรู้ลำดับของข้อความในเซ็ตนั้น) ใช้ปริมาณข้อมูลเท่ากับค่าลอกการิธึมของขนาดของเซ็ต

(สังเกตอย่างหนึ่งว่าการส่งข้อมูลที่พิจารณากันในที่นี้ ไม่สนใจประสิทธิภาพของการถอดข้อมูลกลับไปเป็นรูปแบบเดิม นั่นก็คือ ผู้ส่งนั้นไม่สนใจว่าฝ่ายรับจะใช้เวลานานเพียงใดในการคำนวณหาข้อความที่ต้องการส่งจากสิ่งที่ส่งไป สิ่งที่ฝ่ายส่งสนใจมีเพียงว่า ถ้าฝ่ายรับมีชีวิตเป็นอนันต์ ซักวันคงถอดรหัสกลับมาได้)

ปริมาณข้อมูลที่ต้องการใช้ทั้งหมดก็คือ

log ⁡ ( k ! k 1 ! k 2 ! … k s ! ) ≤ H ( X ) ≤ log ⁡ ( k ! k 1 ! k 2 ! … k s ! ) + s log ⁡ k {\displaystyle \log({\frac {k!}{k_{1}!k_{2}!\ldots k_{s}!}})\leq H(X)\leq \log({\frac {k!}{k_{1}!k_{2}!\ldots k_{s}!}})+s\log k}

ถ้าเราใช้สูตรของ Stirling ในการประมาณค่าแฟกทอเรียล และหาลิมิตของ H (X) โดยที่ค่า k เข้าใกล้อนันต์ เราจะได้ผลลัพธ์คือ

H ( X ) = − K ∑ i = 1 n p ( i ) log ⁡ p ( i ) . {\displaystyle H(X)=-K\sum _{i=1}^{n}p(i)\log p(i).\,\!}

โดยที่ p i = k i / k {\displaystyle p_{i}=k_{i}/k} เป็นความถี่ของการเกิดข้อมูลชนิดที่ i

บทความเกี่ยวกับคอมพิวเตอร์ อุปกรณ์ต่าง ๆ หรือเครือข่ายนี้ยังเป็นโครง คุณสามารถช่วยวิกิพีเดียได้โดยเพิ่มข้อมูล ดูเพิ่มที่ สถานีย่อย:เทคโนโลยีสารสนเทศ