1. はじめに
2 Paris 会合で MPEG-2 は DIS となる
2.1 マクロブロックの最大ビット数の設定
2.2 2-3 pull down の progressive (60Hz)への拡張
2.3 chroma_420_type の廃棄
3. IDCT の精度の話題
3.1 シーケンスエンドコードの後
3.2 その他
4. Grimstad (Norway) 会合と、Singapore 会合
4.1 DIS 投票による IS への進行
5. Video の技術的問題と修正
5.1 Copyright in bitstream (著作権記述)
5.2 VBR-VBV
5.3 Temporal Reference
5.4 Spatial Scalability の下位レイヤとの GOP 構造
5.5 PAL 2-3 pulldown の問題
5.6 フレーム再配置について (malformed bitstream)
5.7 Video Conformance と IDCT 精度
5.8 ビットストリームの結合(Concatenated Sequence)
5.9 その他
6. MPEG-4
6.1 超低ビットレート
6.2 MPEG-4 の意味
6.3 10 倍の符号化効率
6.4 PPD と Call for Proposal
画像符号化技術のなかで標準化に採用されてきた技術は枯れていて実用的な 段階に達したものであるが、MPEG-4 にはそれはなんだろうか?やはり、 MC-DCT なのか、アフィン変換まで対応した MC の高級化か、全く考え方の 違う Fractal 符号化だろうか、Segmentation 符号化か、Model ベースか、一般の 画像を目的にした Generic (汎用) 符号化なのか、目的にあった符号化なのか、 多くの人々が様々に憶測するなか Subjective test (主観評価)の日程は 1 年 後に近づき、どの技術で攻めてみるかアルゴリズム屋さんは知恵を絞っている ことだろう。
ITU-T の short term の標準化では RM (参照モデル)に近いものとして、 TMN2,3,4 と高級化している。ITU-T の long term でもある MPEG-4 はそれより、 高級な技術が望まれるだろう。それはなにかである。MPEG-4 については最後に 3 会合まとめて説明する。まずはパリ会合の MPEG-2 の Video からはじめよう。
これを定めると、デコーダを容易にするがエンコーダ製作を逆に困難にする というトレードオフがあり、設定は標準の技術内容を変更するものではない と議長は判断し積極的に導入する姿勢をとった。強い反対はなく、最後には Video の合意とされた。次の(1),(2),(3),(4)が比較され、(3)が結論となった。
表 1 マクロ ブロックの最大ビット数の設定 (1)No limit (2)limit T/MB (3)No more than 2/row T= 64*6*12/(4:2:0) (4)No limit on I MB, limit T' on P,B MB T'= 64*6*8/(4:2:0)
4:2:0 において 64*6*12 = 4608 bit を越えるマクロブロックを禁止するが、 1 row あたり、2 つのマクロブロックまでの制限オーバを許す(図 1 )、 という例外付きにすることはエンコーダの処理を簡単なフィードバックで 済ませることができるためである。
ついでに VLC が用意されている run-level 対にも Escape + FLC は常に 使えるという確認をした。
progressive_sequence = 1 の時、 repeat_first_field = 1なら top_field_first = 0 で 2 回表示、 = 1 で 3 回表示である。
通常の 2-3 pull down はフレームレート 25, 29.97, 30Hz に可能とした。 23.97Hz と 24 Hz には許さない。エンコーダの VBV (Video Buffer Vefifier) 計算に影響するので、そのための document が作成された。なお、MPEG-1 でも使われている自動的 2-3 (automatic 2-3) は MPEG 標準外のポスト処理 であるとする。
2 つめは、Jhone Morris による問題提起で、静止画を DCT の低域係数から 例えば各画面に Block に 1 係数ずつ追加していくような再現をすると、静止画が しだいにフォーカスが合ってくるような動画再現になるが、このとき IEEE 規準を 満たす精度の IDCT であっても、エンコーダの Frame buffer を変化させない係数を Coded block として送ってしまい、 IEEE 規準をみたすデコーダでもミスマッチ が累積する現象あることが e-mail で報告され議論されていた。
対策としての可能性は、 (1) IEEE 規準を厳しいものにする。(2) そのような エンコーダの frame buffer を変化させない Coded block を送ってはならないと決める。 (3)なにもしない。があったが、Jhone Morris は すでに凍結された標準を 変更するつもりはないといい、 結論は (2) に近く、 Normative part に注意を促す 文章を入れることになった。
もうひとつは GCL から DC 係数は完全な精度で、 AC 係数には低い精度の IDCT を もつデコーダでもかなりの画質が確保できるという結果( 5.5 bit 精度 の定数乗算 で -0.1dB 程度) が提出され、"IEEE 規準を厳しくすることはやめて ほしい。できたら、IEEE 規準を緩めてほしい"という意見がでた。
これは Inter-operability をすべて確認したわけではなく、静止画においては 現在のミスマッチコントロールですら、まだ問題が見られる例も議論に上げられ、 議長は IEEE 規準は (1)緩すぎるのか、(2) 厳しすぎる (3) 丁度いいの三つの 可能性をあげて現在は (3) とせざるをえないとした。
(1) 大抵のデコーダはバッファ内容を捨て去るだろうから最低、 buffer_size 程度のスタッフィングが必要である事。
(2) 画像サイズなど全く変更しなくても、編集によって、 top_field_first が狂うだけでも画像はつながらない。
(3) VBVの整合性をとるためにもスタッフィングは必要である。
"シームレス bitstream" のための結合した VBV 整合をとる方法、 を考えなければならないという問題提起であった。
D-picture: ドイツ NB から MPEG-1 の Conformance part から D-picture を 除外せよという意見がでたが受け入られなかった。
Temporal Scalability : 基本的に記述が不足しているため、Atul Puri (ATT) が document を用意することになった。
Data partitioning: bit_rate, vbv_buffer_size, vbv_delay は全体の stream に対する値とする。
Dual' vector range: dmv の加算の前後ともに制限をいれる。
MPEG Singapore 会議は 11 月 7 日から 11 日まで Singapore の National Computer Board で行なわれた。DIS から IS になる会合であり、修正の最後 のチャンスである。
MPEG-2 は System, Video, Audio (13818-1, -2, -3)の IS への進行を各国の National Body の意見で確認する必要があり、System は技術的問題を解決す る必要から技術的な修正がなされ、Audio は MPEG-2 マルチチャネルの性能 が低いことが明らかになったのでどうするかが問題になる。Video では技術的 修正がどれだけあるかが興味あるところであった。
問題は、すでに設計されたすべての Chip がこれを無視できるかどうか であったが、反対はなく OK となった。結果的に Copyright 記述は System, Audio と Video が 3 つとも異なる形式になった。 最終 synatx はつぎの通り(表 2)。 Picture 毎で、picture coding extension の後に許され、その Semantics は 6.3 章にある。
extension_start_code_identifier (4 bit) copyright_flag (1 bit) copyright_identifier (8 bit) original_or_copy (1 bit) reserved (7 bit) marker_bit (1 bit) copyright_number_1 (20 bit) marker_bit (1 bit) copyright_number_2 (22 bit) marker_bit (1 bit) copyright_number_3 (22 bit)
vbv_delay 項目を 使う VBR mode と その項目に FFFF を記述するモード の 2 つのモードが使えることになった。FFFF mode では、 bitrate 項目 の最大 bitrate でバッファを満たし、一杯になると止める。
vbv_delay 項目を使う VBR mode では picture 毎に一定ビットレート と考えるモードで、 skipped picture では picture 自体がないので Low delay では FFFF mode しか動作しないと記述された。
Temporal Reference の項目の意味が変更され、H.261 と同じく、 TR は skipped された frame だけ飛ばした番号にした。 GOP の直前で Big picture があり、 skipped picture が 例えば 3 枚あった場合、GOP の先頭で TR 値は 3 にリセットする。
TR が Skipped picture のある、 Low delay mode でも有効になったため、 VBR-VBV が解決可能となった。 また Spatial Scalability の 下位レイヤに skipped picture が禁止されなくなった。 次項の System の scalable bitstream 間での PTS と DTS 一致 という制限を無くしたことによって、ソウル会合での H.261 との逆方向 互換性の崩壊は救われたのかもしれない。
lower_temporal_reference をつかって、次のような上下の関係も可能にな る。上の I1, P2, P3 は 下の P4 を使え、 上の P4 は 下の P4 または P7 が使える(図 3)。 Video はシンタックス変更は不要で、意味の修正を行なった(7.7.3.1)。System の記述も改められた。
以上、SSP, High, のプロファイルは大きく機能変更したが、今回発表の Verification Test の結果から、Spatial Scalability の性能はかなり高く、 MP@HL と同等程度、チューニングによってはより良い場合があるということ で Spatial には期待が高まっている。
Singapore では、H.261, MPEG-1, MPEG-2 と 逆量子化値の最大値がどんどん 大きくなっているため、Bitstream によっては IEEE 規準を満たす IDCT でも overflow する危険があることを Video の IS に注意を記述することになった。
蓄積メディアの用途ではデコーダは動作を停止しても問題ないが、 放送用途にはコマーシャルの挿入などにも対応できるように、 結合したシーケンスにもスムーズにつながる、"シームレス動作"をさせたい。
なにか目安になるものを与えないとシーケンスの結合ができない。 シームレス動作のための 望ましい動作をInformative Annex に記述するという 方向になり、USNB から次回提案するとした。
Singapore では、Ren Egawa (Panasonic AVTL) が Informative Annex (MPEG94/431) を用意したが、IS には Informative 部分に VBV を overflow させない注意だけが数行書かれただけとなった。
60 Hz in MP@ML:
MP@ML に 60 Hz の progressive を入れる議論で、 720 x 240 x 60 の field を
progressive frame として符号化することを導入したいという Norway 提案である。
デコーダのリソースの能力としてはそろっているが、デコーダには可能なものと
不可能なものが有りえる。 Singapore では最大フレームレートを 60 Hz にする
この提案は否決された。 Progressive 720 x 288 のフォーマットは必要性
が低いとされた。
参照 field :
B-picture で 2-3 pulldown が行なわれたとき、top(bottom) field first が入れ替わる。
Singapore では、reference field の 記述の Editorial 修正として reference field
は 最新 2 つの符号化 I,P field でなく、各パリティの最新の符号化 I,P field である
と記述した。
Dual':
Dual prime は B picture を含むシーケンスでも、連続した P picture (例えば I,B,P,P
の最後の P )に使っていいと Grimstad で確認。
4 月から 7 月まで Application list の作成、この領域の Channel characteristics の調査、Object oriented syntax の記述方法について Adhoc group の活動が なされた。セミナーはまだまだ続けていくようであった。 94 年 11 月までに Requirement Document ( Proposal Package Discription と Call for Proposal )を完成させる予定 であった。
AOE の Reqirement の説明を O' Cornell が行なったあと、 H.261, MPEG-1, -2 との Req. の違いが明確でない事を指摘し、 MPEG-4 の意味について議論に移り、"波形符号化ではないか、私も Subband 符号化 から来た人間だが、実用的なのは DCT だ。今度もやはり DCT だろう。(LeGall)" "Functionality だ。" "20 kbps への Generic solution がある。" "Video Content 符号化となる。" "PDA である。" "60 % は DCT だ。(LeGall)" "いや 2/3 は DCT とは考えていない。" "DCT なら私が即座に reject する。(Reader)" "なるほどいい考え方だ。(LeGall)" " Segmentation base " "Block base を嫌っても、 DRAM と 16x16 の Block は適合している。Contour base より、 Block base がより低ビットレート向きだ。(LeGall)”
MPEG-4 が互換性を絶ち切るほどの技術を標準化できるなら、それこそ必要な もので、心の沸き立つような気のする演説と私は思ったのだが、 MPEG-4 の 実作業をされて来た方にとっては今までの作業を全否定されるものだった のかもしれない。 MPEG-4 の 作業成果であった 80 page にもなっていた Reqirement document は完成間近で大変更を余儀なくされた。 PPD は 1page のみになって 最終 Plenary に提出された。 Cliff Reader は 最終 Plenary 前の議長会合に報告を作成しなかったため、 キャリリオーネの最終 Plenary の resolution には "AOE", "MPEG-4" の言葉 が完全に消えていた。MPEG-4 の議長 Cliff Reader の立場が難しくなった。 この Plenery で Cliff は途中退席した。Adhoc group の議長としてだけの立場 が残った。MPEG-4 自体が存在しなくなる可能性もあった。11 月のセミナーは 中止となった。
その後、日本でキャリリオーネにお会いする機会があり MPEG-4 について質問 したとき、彼は、 "圧縮率か Functionality が既存標準と異なるものがなければ 標準化として正当化できない。" といわれ、"Cliff は馘首ですか"という質問 には "Cliff にそれほどの緊張を強いたことを知らなかったことを反省している。" と述べられた。
MPEG の標準化は実用になる範囲の、高度な技術の発見が基本となってきた。 その意味で、 MPEG-2 は達成目標がより明確で近いものだった。それでも年に 5 回 も 6 回も世界中で行なわれた MPEG 会合は技術者にとって困難な戦いであった。 客観的な実験結果を持ち寄って独立 2 者以上の同一結果を規準に、技術要素の 収束を計ってきたのである。現在の 10 倍もの圧縮率が望まれている MPEG-4 は MPEG-1,2 との連関を切る、高度な技術が必要とされているように思えた。 符号化効率を上げるのはまさしく困難な仕事であり、この領域で初めて DCT 以外 の登場の可能性がある。Fractal coding の関係者も MPEG-4 には姿を見せている。
Tool と Algorithm と Profile という定義をつくり、Algorithm は Tool で 構成され、Profile は Algorithm で構成される。Syntax はそれら全てを 扱う(図 4)。 95 年 10 月締切、11 月主観評価される Proposal は Tool と Algorithm の提案であり、96 年 11 月の Subjective Test は、 complete system の提案となる。
Functionality は Coding Efficiency を先頭にしたが優先順位はつけない。 Coding Efficiency には、2 倍とかいう数字もない。"既存標準よりよい符号化 効率" であり、"ずっとよい" ではない。Content-based scalability, Content-based manipulation とか、Content-based の言葉がキーワードに なっている。困難さは多少緩和されたようだ。 MPEG-4 セミナーはなかったが Video との合同会合で技術発表があり、Segmentation base の符号化もデモされ始めた。