1, การออกแบบลำดับชั้นของอัลกอริทึม กล้อง IP H.264 สามารถแบ่งแนวคิดเป็นสองเลเยอร์: เลเยอร์การเข้ารหัสวิดีโอ (VCL: เลเยอร์การเข้ารหัสวิดีโอ) เป็นหน้าที่ของเนื้อหาวิดีโอที่มีประสิทธิภาพ เป็นผู้รับผิดชอบข้อกำหนดเครือข่ายของวิธีที่เหมาะสมในการบรรจุและถ่ายโอนข้อมูล ระหว่าง VCL และ NAL กำหนดอินเทอร์เฟซวิธีการที่ใช้แพ็กเก็ตบรรจุภัณฑ์และการส่งสัญญาณที่สอดคล้องกันของ NAL เป็นส่วนหนึ่งของ ดังนั้นประสิทธิภาพการเข้ารหัสที่สูงและงานที่เป็นมิตรกับเครือข่ายโดย VCL และ NAL ให้เสร็จสมบูรณ์ เลเยอร์ VCL รวมถึงการเข้ารหัสแบบไฮบริดการชดเชยการเคลื่อนไหวแบบบล็อกและคุณสมบัติใหม่บางอย่าง และเช่นเดียวกับมาตรฐานการเข้ารหัสวิดีโอก่อนหน้า H.264 ไม่ใช่ฟังก์ชั่นการรักษาล่วงหน้าและการโพสต์การประมวลผลที่รวมอยู่ในร่างซึ่งสามารถเพิ่มความยืดหยุ่นของมาตรฐาน NAL รับผิดชอบส่วนเครือข่ายโดยใช้รูปแบบพื้นฐานในการห่อหุ้มข้อมูลรวมถึงการกำหนดกรอบการส่งสัญญาณช่องทางตรรกะเวลาหรือลำดับของการใช้สัญญาณข้อมูล ตัวอย่างเช่น NAL รองรับช่องวิดีโอสลับวงจรในรูปแบบการส่งสัญญาณวิดีโอรองรับวิดีโอบนอินเทอร์เน็ตโดยใช้รูปแบบการส่งสัญญาณ RTP / UDP / IP ข้อมูลส่วนหัวของ NAL รวมถึงข้อมูลโครงสร้างเซ็กเมนต์และข้อมูลการโหลดจริงซึ่งเป็นข้อมูลด้านบนของข้อมูล VCL (หากคุณใช้การแบ่งพาร์ติชันข้อมูลข้อมูลอาจประกอบด้วยส่วนประกอบหลายอย่าง)
2, การประมาณค่าการเคลื่อนไหวหลายโหมดที่มีความแม่นยำสูง
H.264 รองรับ 1/4 หรือ 1/8 พิกเซลเวกเตอร์การเคลื่อนไหวที่แม่นยำ 1/4 พิกเซลความแม่นยำตัวกรอง 6-TAP สามารถใช้เพื่อลดเสียงรบกวนความถี่สูงสำหรับเวกเตอร์การเคลื่อนไหวที่แม่นยำ 1/8 พิกเซลสามารถใช้ตัวกรอง 8-TAP ที่ซับซ้อนมากขึ้น ในระหว่างการประมาณค่าการเคลื่อนไหวตัวเข้ารหัสยังสามารถเลือกที่จะ "ปรับปรุง" ตัวกรองการแก้ไขเพื่อปรับปรุงผลการทำนาย การประมาณค่าการเคลื่อนไหวใน H.264, macroblock (MB) 2 สามารถแบ่งออกเป็นบล็อกย่อยที่แตกต่างกันการก่อตัวของเจ็ดโหมดที่แตกต่างกันของขนาดบล็อก การแบ่งภาพที่มีความยืดหยุ่นและมีรายละเอียดหลายโหมดนี้สอดคล้องกับรูปร่างที่แท้จริงของวัตถุที่เคลื่อนที่ได้ดีขึ้นการปรับปรุงความแม่นยำของการประมาณค่าการเคลื่อนไหวอย่างมาก ด้วยวิธีนี้ในแต่ละบล็อกแมโครสามารถมีเวกเตอร์การเคลื่อนไหว 1,2,4,8 หรือ 16 ใน H.264 ซึ่งอนุญาตให้ตัวเข้ารหัสใช้เฟรมก่อนหน้ามากกว่าหนึ่งเฟรมสำหรับการประมาณค่าการเคลื่อนไหวซึ่งเรียกว่าเทคโนโลยีอ้างอิงหลายเฟรม ตัวอย่างเช่นการเข้ารหัสเฟรมอ้างอิงที่ดีสองหรือสามตัวตัวเข้ารหัสจะเลือกสำหรับแมโครบล็อกเป้าหมายแต่ละตัวสามารถให้กรอบการทำนายที่ดีขึ้นและคำแนะนำสำหรับแต่ละบล็อกแมโครเป็นเฟรมที่ใช้สำหรับการทำนาย
3, 4 × 4 จำนวนเต็มแปลงบล็อก
H.264 นั้นคล้ายกับมาตรฐานก่อนหน้านี้ขึ้นอยู่กับบล็อกที่เหลือของการเข้ารหัสการแปลง แต่การแปลงเป็นการดำเนินการจำนวนเต็มมากกว่าการดำเนินงานจริงคล้ายกับกระบวนการและ DCT ข้อดีของวิธีการนี้: ในตัวเข้ารหัสและตัวถอดรหัสเพื่อให้การแปลงความแม่นยำและการแปลงผกผันเหมือนกันใช้โหมดการทำงานแบบจุดคงที่อย่างง่าย กล่าวอีกนัยหนึ่งไม่มี "ข้อผิดพลาดต่อต้านการแปลง" หน่วยการแปลงคือ 4 × 4 บล็อกแทนที่จะใช้ในอดีตใช้บล็อก 8 × 8 เนื่องจากขนาดบล็อกที่ใช้ในการแปลงการจำแนกประเภทที่แคบและแม่นยำยิ่งขึ้นของวัตถุที่เคลื่อนที่ดังนั้นไม่เพียง แต่แปลงการคำนวณมากกว่าขนาดเล็กและขอบของวัตถุที่เคลื่อนที่ในข้อผิดพลาดของอินเทอร์เฟซจะลดลงอย่างมาก เพื่อเปลี่ยนวิธีการที่ชิ้นส่วนเล็ก ๆ ของพื้นที่ขนาดใหญ่ของภาพในพื้นที่ราบ สำหรับการแปลงบล็อก 4 × 4 ครั้งที่สองข้อมูลสีของค่าสัมประสิทธิ์ DC 4 × 4 สี่บล็อก (หนึ่งสำหรับแต่ละชิ้นเล็ก ๆ ทั้งหมดของทั้งหมดสี่) สำหรับการแปลงบล็อก 2 × 2 การควบคุมอัตรา H.264 เพื่อปรับปรุงความสามารถในการหาปริมาณขนาดของการเปลี่ยนแปลงขั้นตอนในการควบคุมประมาณ 12.5%มากกว่าการเปลี่ยนแปลงการเติบโตอย่างต่อเนื่อง แปลงค่าสัมประสิทธิ์ของแอมพลิจูดปกติในกระบวนการผุกร่อนได้รับการรักษาเพื่อลดความซับซ้อนในการคำนวณ เพื่อเน้นความเที่ยงตรงของสีของปัจจัยสีด้วยขั้นตอนการหาปริมาณขนาดเล็ก
