わかりやすい物理　数値解析　Savitzky Golay

　先ほど信号をGaussian Filterで重み付けを行ったが、分析化学でよく使われている

Saviztky Golay法に関して議論する。１９６４年両者が発表したデータのスムージング手法である。

この手法は、隣接する２N＋１のデータに対して、ｍ次の多項式で近似して２N＋１の中央値の元データを

そのｘの位置の近似多項式のｙ（ｘ）に置き換えていくことで、ノイズを低減させていきます。

この手法は実質的に重み付き移動平均である。

特徴

多項式近似にもかかわらず、近似に使うデータの点数と近似する多項式の次数だけで係数が決まる
スムージングだけでなく、平滑化微分も計算できる
（3次以上の多項式で近似する場合は2次微分以上も可能）
スムージングの手法にもかかわらず、ピークが鈍りにくい
実質は重み付き移動平均なので、処理が高速

このようにこのフィルタは上記の特徴を持つために分析科学でよく用いられている。

Saviztky Golayの導出

　まず、最初に等間隔で並んだデータについて、２N＋１点をｍ次多項式

で近似することを考えます。

この時データのｘの値は－ＮΔｘ　～　ＮΔｘと書くことができます。

するとｘとｙのデータの組は、（－NΔｘ、ｙ（－ＮΔｘ））、（－(N-1)Δｘ、ｙ（－(Ｎ-1)Δｘ））、、、、

（NΔｘ、ｙ（ＮΔｘ））となる。これらのウィンドウ内にあるデータ点をｍ次の多項式で近似フィットする

と考えればよくその時の最小二乗法は、

であり、これを偏微分して0と置いた時の解は、

を解くことなる。左の行列式をXと置くと、近似多項式の係数（a0、、、、amΔｘｍ）は、

で与えられます。

Saviｔzky Golay法は実際の処理で近似多項式に置き換えられるのは２N＋１の中央の点のみで

他の値は使わない。その時の値はｆ（ｘ）＝ｆ（０）の時の値である。つまり、これはｆ（０）＝a０と同じになる。

このa0は元データｙ（ＮΔｘ）に依存していないので、行列の1行目とｙデータ列の内積を計算するだけで

求めることができる。しかもｙとの行列積をとる行列はデータ数Ｎとｍ次に依存するだけで、

データｙに依存しないので毎回行列要素は同じであるので、一回事前に計算しておけば

使いまわすことができる。つまり各点ｙの近似を求める際に毎回計算する必要がない。

また微分データもｆ’（０）＝a1Δｘ、ｆ”（０）＝２ x a2Δｘ＾２であるので微分データも簡単に求めることができます。

では実際にSavitzkyGolay法を用いて平滑化する様子を見てみよう。

前回と同様に元信号は、A＝０．２、ｍ＝０．５、σ＝０．０１のガウス信号に、

ノイズ信号±０．１５を持つランダムノイズを加えた信号である。

１．フィッティング多項式次数：ｍ＝５、Ｗindowサイズ（フィッティングデータ点数）＝９、微分次数＝０の時

SavitzkyGolay係数、｛0.034965, -0.128205, 0.0699301, 0.314685, 0.417249,

0.314685, 0.0699301, -0.128205, 0.034965｝はフィッティングされるデータ点数と同じ要素数をもつ。

この係数とウィンドウサイズ内にある各９データとの内積をとることで、1番目のデータを生成する。

上でも述べたがこの係数は、ｍ、Ｗｉｎｄｏｗサイズ、微分次数が決まれば一意に決まる。

実際にＳａｖｉｔｚｋｙＧｏｌａｙ法で平滑化した結果を示す。

フィッティング結果はA＝０．２２、ｍ＝０．５００、σ＝０．０１１である。若干のノイズ成分は小さくなっているが、

まだ元データに近しい信号であるもののフィッティング結果元のガウス関数に近くよくフィッティングできている。

２．フィッティング多項式次数：ｍ＝５、Windowサイズ（フィッティングデータ点数）＝４０、微分次数＝０の時

では次にＷｉｎｄｏｗサイズだけを大きくしてみよう。フィッティングデータ点数を増やしているので

データはより平滑化されることが予想される。

見てわかるように高周波成分はほとんどきれいに除外できていることがわかる。

一方でWindowサイズより大きい周波数成分Δｘ：0.002ｘＷｉｎｄｏｗサイズ：40＝0.08以上のノイズは

残っている。一方で今回のガウス信号は上記０．０８よりは細い信号であるのにもかかわらず、

信号ははっきりと見て取れる。

この平滑化した信号のフィッティング結果は、A＝０．１４、ｍ＝０．４９６、σ＝0.012である。

信号の強度は弱くなっているものの信号はしっかりとわかる。

３．フィッティング多項式次数：ｍ＝１０、Windowサイズ（フィッティングデータ点数）＝４０、微分次数＝０の時

では次にフィッティング次数を増やして見よう、フィッティング次数が増えるとより高周波まで近似できるので、

ノイズは消しづらいが、信号強度は維持されるということが予想される。

平滑化した信号のフィッティング結果は、A＝０．１９６、ｍ＝０．５０１、σ＝0.012である。

データ信号は復活して０．２に近づいているが、ノイズの量は増加している。

結局計算負荷も考えるとウィンドウサイズを変えてある程度ほしいSN比まで来たら、

そこまで次数をあげても結局Sは増えるがSNは悪化するので、ｍを積極的にあげる理由は内容に思われる。

本格的に複雑な信号の形をしていた場合は次数をあげる必要があるのかもしれないが、

今回はそこまで議論できていない。