1次元での収束の証明
Spike-and-Slab prior からの効率的なサンプリング
A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
1 設定
密度 \[ p_\epsilon(x)=(1-\gamma)p(x)+\frac{\gamma}{\epsilon}p\left(\frac{x}{\epsilon}\right) \] を対象にした Zig-Zag 過程 \((Z^\epsilon_t)_{t\in\mathbb{N}}\) は拡張生成作用素 \[ \widehat{A}_\epsilon f(x,v)=(v|f'(z))+\lambda_n(x)\biggr(f(x,-v)-f(x,v)\biggl) \] \[ \lambda_n(x)=(v|-\partial_x\log p_\epsilon(x))_+ \] をもち,核は \(C^\infty_c(\mathbb{R}^2)\) に取れる.
一方で極限だと思われる Sticky Zig-Zag 過程 \((Z_t)_{t\in\mathbb{N}}\) は拡張生成作用素 \[ \widehat{A}_0f(x,v)= \begin{cases} (v|f'(z))+\lambda(x)\biggr(f(x,-v)-f(x,v)\biggl) & x\ne(0,0)\\ \kappa\biggr(\frac{1}{2}f(0,+v)+\frac{1}{2}f(0,-v)-f(0,0)\biggl) & x=(0,0) \end{cases} \] \[ \lambda(x)=(v|-\partial_x\log p(x))_+,\qquad\kappa^{-1}:=\frac{\gamma}{1-\gamma}\sqrt{2\pi\sigma^2} \] をもつ.定義域は \[ \mathcal{D}(\widehat{A})=\left\{f:E_0\to\mathbb{R}\,\middle|\, \begin{array}{l} \{0\}\times\mathbb{R}\,\text{上を除いて絶対連続}\\ \{0\}\times(-\infty,0)\,\text{では右連続}\\ \{0\}\times(0,\infty)\,\text{では左連続}\\ \text{残った2つの右極限は}\,f(0,0)\,\text{に一致する} \end{array} \right\}. \]
無限遠 \(\epsilon\to0\) では,「吸着点」\((0,0)\) が創発されると見る.
この見方は直感的であるが,\(E_0\) には特別な位相が入っていることに注意.1 そのため \(x=0\) でジャンプしていても \(E_0\) 上では連続関数になる.これは \(E_0\) では通常の方法では絶対に \(x=0\) に辿り着いてはいけないためである.
生成作用素 \(\widehat{A}_0\) に登場する \(f'\) は \(x=0\) では片側微分である.
2 強生成作用素 \(A\) の核
後続の証明(特に Section 3.2 )が成功するには, 特に \(\widehat{A}_\epsilon f_\epsilon\) が \(Af\) に有界収束するためには, \(\mathcal{D}(A)\) の核として,\(x=0\) 以外で \(C^1\)-級でコンパクト台を持つ関数の全体が取れることが必要である.
3 収束の証明
\(\mathcal{D}(A)\) の核から,任意に \((\mathbb{R}\setminus\{0\})\times\mathbb{R}\) 上 \(C^1\)-級でコンパクト台を持つ関数 \(f\) を取る.
\(f_\epsilon\in\mathcal{D}(\widehat{A}_\epsilon)\) を満たす関数 \(f_\epsilon\) であって,各点で \[ f_\epsilon\to f\qquad(\epsilon\searrow0) \] が起こるものは構成できるが,一様収束は決して成り立たせることができない.
そもそも \(f_\epsilon\in\mathcal{D}(\widehat{A}_\epsilon)\) であるためには, \[ x\mapsto f_\epsilon(x,+1),\qquad x\mapsto f_\epsilon(x,-1) \] がそれぞれ絶対連続であれば良いことに注意.
3.1 絶対連続緩和の構成(背景)
\(f(-,+1)\) を \((0,\epsilon^p)\) 上でのみ,\(f(-,-1)\) を \((-\epsilon^p,0)\) でのみ変更して,\(f_\epsilon\) を定める.
具体的には,\(f(0,+1),f(\epsilon^p,+1)\) を線型に補間した関数を \(f_\epsilon(-,+1)\) とする.
この際,関数 \(x\mapsto f_\epsilon(x,v)\) は2点を除いて微分可能であるため,特に絶対連続である.従って \(f_\epsilon\in\mathcal{D}(\widehat{A}_\epsilon)\) である.
加えてこのとき,\(0\) の近傍で一様には収束しないことだけ注意して, \[ f_\epsilon(x,v)\xrightarrow{\epsilon\to0}f(x,v),\qquad (x,v)\in\overline{E}\setminus\{(0_-,-1),(0_+,+1)\} \] が成り立つ.\((0_-,-1),(0_+,+1)\) というのは復帰用の点で,この点に確率が集積することはないため,のちの証明で問題が起こることはないのである.
3.2 条件 (8.8), (8.9) の充足
これは \(\{f_\epsilon\}\) と \(\{\widehat{A}_\epsilon f_\epsilon\}\) が有界ならば良い.
これは \(f_\epsilon\) が区分的に \(C^1\)-級でコンパクト台を持てば成り立つ.
3.3 条件 (8.10) の充足
特定の部分を除いて \(f\) と \(f_\epsilon\) の値は一致するので,次のように評価できる:
\[\begin{align*} &\qquad\operatorname{E}\biggl[\biggl|f_\epsilon(Z_\epsilon(t))-f(Z_\epsilon(t))\biggr|\biggr]\\ &=\operatorname{E}\biggl[1_{\left\{X_\epsilon(t)\in(0,\epsilon^p),V_\epsilon(t)=+1\right\}}\lvert f_\epsilon(Z_\epsilon(t))-f(Z_\epsilon(t))\rvert\biggr]\\ &\qquad+\operatorname{E}\biggl[1_{\left\{X_\epsilon(t)\in(-\epsilon^,0),V_\epsilon(t)=-1\right\}}\lvert f_\epsilon(Z_\epsilon(t))-f(Z_\epsilon(t))\rvert\biggr]\\ &<\operatorname{P}[0<X_\epsilon(t)<\epsilon^p,V_\epsilon(t)=+1]2\Delta f(0,+1)+\operatorname{P}[-\epsilon^p<X_\epsilon(t)<0,V_\epsilon(t)=-1]2\Delta f(0,-1)\\ \end{align*}\]
今回は \(X_\epsilon(t)\) の確率が \(0\) に集積するスピードは \(O(\epsilon^{-1})\) であるため,\(p>1\) と取れば良いが,一般の場合に関しても十分に速く収束する \(\epsilon\mapsto\delta(\epsilon)\) を取ることで, \[ \operatorname{P}[-\delta(\epsilon)<X_\epsilon(t)<\delta(\epsilon)]\xrightarrow{\epsilon\to0}0 \] を満たすようにできる.
3.4 条件 (8.11) の充足
\[\begin{align*} &\qquad\operatorname{E}\biggl[\widehat{A}_\epsilon f_\epsilon(Z_\epsilon(t))-Af(Z_\epsilon(t))\biggr]\\ &\le\operatorname{E}\biggl[1_{\left\{X_\epsilon(t)\ne 0\right\}}\biggl|(V_\epsilon(t)|f_\epsilon'(Z_\epsilon(t))-f'(Z_\epsilon(t)))\biggr|\biggr]\\ &\qquad+\operatorname{E}\biggl[1_{\left\{X_\epsilon(t)\ne 0\right\}}\biggl|\lambda_\epsilon(Z_\epsilon(t))\biggr(f_\epsilon(X_\epsilon(t),-V_\epsilon(t))-f(Z_\epsilon(t))\biggl)\\ &\qquad\quad\qquad\quad-\lambda(Z_\epsilon(t))\biggr(f(X_\epsilon(t),-V_\epsilon(t))-f(Z_\epsilon(t))\biggl)\biggr|\biggr]\\ &\qquad+\operatorname{E}\biggl[1_{\left\{X_\epsilon(t)=0\right\}}\biggl|(V_\epsilon(t)|f'_\epsilon(Z_\epsilon(t)))+\\ &\qquad\quad\qquad\quad\lambda_\epsilon(Z_\epsilon(t))\biggr(f_\epsilon(0,-V_\epsilon(t))-f_\epsilon(0,+V_\epsilon(t))\biggl)\\ &\qquad\quad\qquad\quad-\kappa\biggr(\frac{1}{2}f(0_+,+V_\epsilon(t))+\frac{1}{2}f(0_-,-V_\epsilon(t))-f(Z_\epsilon(t))\biggl)\biggr|\biggr]\\ \end{align*}\]
\(f'_\epsilon(0,V_\epsilon(t))\) は \(0\) にはできる.吸着する状態 \((0,\pm1)\) は本質的に1つなので,そこでの \(f\) の値は同一である.
2つのポイントが効いてくる
- \(\lambda_\epsilon\) が \(0\) で消えるか?
- \(p_\epsilon\) が対称かどうか?
Footnotes
\((-\infty,0),(0,\infty)\) 内の開集合と,\(v>0\) のときは \((-a,0]\subset U\;(U\overset{\mathrm{open}}{\subset}\mathbb{R}^+)\) の形も開集合になる.↩︎