next up previous
: この文書について... : ネットワーク集合上の最小化問題 : ネットワーク集合上の最小化問題

コンパクト性

この$N(\Delta, K, l)$${\bf R^n}$の有界閉集合と同様な性質をもっていることを示します。

$J(\rho)$はこの$N(\Delta, K, l)$から${\bf R}$への写像


\begin{displaymath}
\rho \in N(\Delta,K,l) \mapsto J(\rho) \in {\bf R}
\end{displaymath}

として扱います。$J$には連像性が要求されます。先ず,$N(\Delta, K, l)$には距離が定義されます。

\begin{displaymath}
B_D \subseteq \{ x \in {\bf R}^n; \Vert x\ \vert \le D\}
\end{displaymath} (4.3)

から${\bf R^m}$への連続関数 全体の集合 $C(B_D,{\bf R}^m)$ の部分集合ですが, $C(B_D,{\bf R}^m)$には


\begin{displaymath}
d(g,h)=\max_{x \in B_D} \Vert f(x)-g(x) \Vert
\end{displaymath}

が定義されています。ここで,$\Vert \cdots \Vert$${\bf R^m}$の ベクトル


\begin{displaymath}
{\bf y} =
\left(
\begin{array}{c}
y_1\\
y_2\\
\cdot\\
\cdot\\
\cdot\\
y_m
\end{array}{c}
\right)
\in {\bf R^m}
\end{displaymath}

に対して

\begin{displaymath}
\Vert {\bf y} \Vert =\sqrt{y_1^2+y_2^2 + \cdots + y_n^2 }
\end{displaymath}

で定義されます。

上記の距離$d(g,h)$${\bf R^m}$の距離同様,以下の性質を充たしています。

\begin{eqnarray*}
&&任意のf,g \in C(B_D,{\bf R}^m)に対して d(f,g) \ge 0 \\
&&任...
...嶺,g,h \in C(B_D,{\bf R}^m)に対して d(f,h) \le d(f,g)+d(g,h) \\
\end{eqnarray*}



このような距離が定義される集合を距離空間と言います。

$X,Y$が距離$d_X,d_Y$が定義されている距離空間とします。

定義 4.2.1   $x_0 \in X$ とし、$r$ を正の数と するとき、
\begin{displaymath}
S_X(x_0,r) \stackrel{\triangle}{=} \{x: d_X(x, x_0) < r, \, x \in X\}
\end{displaymath} (4.4)

で定義される $X$ の部分集合 $S_r(x_0)$ を中心が $x_0$ で半径が $r$ の開 球といいます。

無論,距離空間$Y$でも,開球が定義されます。

定義 4.2.2   $ U \subset X $ として, $\forall x \in U$ に対して、$x$ を中心とする十分小さい開球 $S_X(x,r)$ を とり, $S_X(x,r) \subset U$ となるようにできるとき、$U$$X$ の開集合であ るといいます。

定義 4.2.3   $f: X \to Y$ とします。$f$$x_0 \in X$ で連続であるとは、
$f(x_0)$ を中心とする任意の半径 $\varepsilon$ の開球 $S_Y(f(x_0),{\varepsilon})$ に対し、$x_0$ を中心とする半径 $\delta$ の開 球 $S_X(x_0,{ \delta})$ が存在し、

\begin{displaymath}
f(S_X(x_0,{ \delta})) \subset S_Y(f(x_0),{\varepsilon})
\end{displaymath} (4.5)

が成り立つことを言います。

定理 4.2.2   $f: X \to Y$ とします。

\begin{displaymath}
f\ が X で連続 \Leftrightarrow [V\ が Y の開集合ならば、 f^{-1}(V) が X
の開集合]
\end{displaymath}

(証明)$(\Rightarrow)$ $f$$X$ で連続で、$V$$Y$ の開集合と仮定して、$f^{-1}(V)$$X$ の開集合となることを証明します 。 $f^{-1}(V) = \phi$ なら,これは開集合です。そこで、 $f^{-1}(V) \ne \phi$ とします。
$x \in f^{-1}(V)$ とすると、 $f(x) \in V$ である。$V$ は開集合で あるから、 $f(x)$ を中心とする開球

\begin{displaymath}
S_Y(f(x),{\varepsilon}) \subset V
\end{displaymath}

が存在します。 $f$ は連続ですから,開球 $S_X(x,{\delta})$ が存在して,

\begin{displaymath}
f(S_X(x,{\delta})) \subset S_Y(f(x),{\varepsilon})
\end{displaymath}

\begin{eqnarray*}
&∴& f(S_X(x,{\delta})) \subset V \\
&∴& S_X(x,{\delta}) \subset f^{-1}(V)
\end{eqnarray*}



以上より、$f^{-1}(V)$ は開集合です。
($\Leftarrow$)$V$$Y$ の任意の開集合ならば、常に $f^{-1}(V)$$X$ の開集合であると仮定します。
$\forall x \in X$ とし, $f(x)$ を中心とする任意の開球 $S_Y(f(x),{\varepsilon})$ をとります。 $S_Y(f(x),{\varepsilon})$ は開集合ですから,仮定よりその逆像 $U$ は開集合で $x$ を含む。よって,定義により $S_{\delta}(x) \subset U$ が存在します。

\begin{eqnarray*}
&∴& S_X(x,{\delta}) \subset U = f^{-1}(S_Y(f(x),{\varepsilon})) \\
&∴& f(S_X(x,{\delta})) \subset (S_Y(f(x),{\varepsilon}))
\end{eqnarray*}



よって、$f$ は点 $x$ で連続になります。 $ x \in X$ は任意でしたから, $f$$X$ で連続です。$\Box$

定義 4.2.4   $X$ を距離空間とします。$X$ の開集合の 集合${\cal F}$,これを開集合族と言いますが, が $X$の部分集合 $X' \subseteq X$ を覆っているとき,すなわち,
\begin{displaymath}
X' = \subseteq \bigcup_{U \in {cal F}} U
\end{displaymath} (4.6)

となっているとき, ${\cal F}$$X'$ の開被覆といいます。

定義 4.2.5   距離空間$X$ の部分集合$X'$に任意の開被覆 ${\cal F}$ が与えられたとき、それから適当な有限個 $U_1, U_2, \cdots, U_n \in {\cal F}$ を選んで
\begin{displaymath}
X' \subseteq \bigcup_{i=1}^n U_i
\end{displaymath} (4.7)

とできるとき,$X'$ はコンパクト集合であるといいます。

コンパクト集合の例としては,${\bf R}$の閉区間$[a,b]$ またそれの$2$重直積

\begin{displaymath}[a,b]\times [a,b] \stackrel{\triangle}{=} \{{\bf x}=(x_1,x_2)
\vert x_1,x_2 \in [a,b] \}
\end{displaymath}

$n$重直積

\begin{displaymath}[a,b]^n\stackrel{\triangle}{=} \{{\bf x}=(x_1,x_2,\cdots,x_n)
\vert x_1,x_2,\cdots,x_n \in [a,b] \}
\end{displaymath}

${\bf R^n}$の閉球の閉球
\begin{displaymath}
S_{R^n}(x_0,r) \stackrel{\triangle}{=} \{x: \Vert x-x_0\Vert \le r, \, x \in R^n\}
\end{displaymath} (4.8)

があります。

さて,連続写像とコンパクト集合の関係については以下が知られています。

定理 4.2.3   $X,Y$が距離空間とする。
$X' \subseteq X$ がコンパクトで写像 $f: X \to Y$ が連続ならば、 $X'$ の像 $f(X)$ はコンパクトである。

証明

$X,Y$が距離$d_X,d_Y$が定義されている距離空間とします。

${\cal G}$$f(X')$ の開被覆とすると, 開集合の連続写像による逆像は開集合ですので,

\begin{displaymath}{\cal F} =\{ f^{-1}(V), V \in {\cal G}\} \end{displaymath}

$X'$ の開被覆です。$X'$ はコンパクトでしたから これから有限個

\begin{displaymath}
U_1, U_2, \cdots, U_n \in {\cal F}
\end{displaymath}

を選んで, $X'$ を覆うことができます。すなわち,

\begin{displaymath}
X' \subset \bigcup_{i=1}^n U_i
\end{displaymath}

そうすると、

\begin{eqnarray*}
f(X') &\subset& f(\bigcup_{i=1}^n U_i) \\
&=& \bigcup_{i=1}^n f(U_i) \\
&=& \bigcup_{i=1}^n V_i
\end{eqnarray*}



となり、

\begin{displaymath}
V_1, V_2, \cdots, V_n \in {\cal G}
\end{displaymath}

$f(X')$ の有限個の部分開被覆となって、$f(X')$ がコンパクト集合であることがわかります。$\Box$

また,以下の定理も知られています。

定理 4.2.4   $X$を距離空間とする。
$X' \subseteq X$ がコンパクトならば, $\{ x_n \}$$X'$ の任意の無限列とすると き, $\{ x_n \}$ の無限部分列 $\{ x_{n_k} \}$ $x_\infty \in X'$ が存在して $x_{n_k}$$x_\infty$ に収束する。

上の二つの定理を用いて,

定理 4.2.5   $X$を距離空間とする。
$X' \subseteq X$ がコンパクトで写像 $f: X \to {\bf R}$ が連続ならば、 $X'$ 上での像 $f$ は最大・最小値をもつ。

証明 まず,$X'$の像$f(X')$$X'$がコンパクトで、$f$が連続写像なので,${\bf R}$のコンパクト集合です。

そこで,$f(X')$の上限,下限

\begin{displaymath}
\sup{f(X')},\inf{f(X')}
\end{displaymath}

をとると,それぞれ,$f(X')$の元の無限点列


\begin{displaymath}
\{ x_n \}, \{ y_m\}
\end{displaymath}

が存在して,

\begin{displaymath}
x_n \rightarrow \sup{f(X')} (n \rightarrow \infty)
\end{displaymath}


\begin{displaymath}
y_m \rightarrow \inf{f(X')} (m \rightarrow \infty)
\end{displaymath}

です。 ここで, $f(X')$はコンパクト集合でしたから,


\begin{displaymath}
\{ x_n \}, \{ y_m\}
\end{displaymath}

の部分点列


\begin{displaymath}
\{ x_{n_k} \}, \{ y_{m_l} \}
\end{displaymath}

と,$f(X')$の元

\begin{displaymath}
x_\infty, y_\infty \in f(X')
\end{displaymath}

が存在して,

\begin{displaymath}
x_{n_k} \rightarrow x_\infty (k \rightarrow \infty)
\end{displaymath}


\begin{displaymath}
y_{m_l} \rightarrow x_\infty (l \rightarrow \infty)
\end{displaymath}

です。 実数列とその部分列の極限は一致するので,

\begin{displaymath}
\sup{f(X')}=x_\infty \in f(X'),\inf{f(X')}=x_\infty \in f(X')
\end{displaymath}

で,結局,

\begin{displaymath}
\max{f(X')}=\sup{f(X')},\min{f(X')}=\inf{f(X')}\ \Box
\end{displaymath}

$N(\Delta, K, l)$ のコンパクト性について述べてます。

定理 4.2.6   $N(\Delta, K, l)$ は有界閉集合 $B_D \subseteq {\bf R}^n$ 上の連続関数 全体 $C(B_D,{\bf R}^m)$ の部分集合として,コンパクトである。

(証明)

結合係数のベクトル $w_k^{(2)},w_k^{(3)}$ と、しきい値 $\theta^{(2)}_k$ 及びシグモイド関数の最大勾配 $\delta$ による多重対

$\displaystyle {(w,\theta, \delta)
= (w^{(2)}_1, w^{(2)}_2, \cdots, w^{(2)}_l,}$
    $\displaystyle w^{(3)}_1, w^{(3)}_2, \cdots, w^{(3)}_m,
\theta^{(2)}_1, \theta^{(2)}_2, \cdots, \theta^{(2)}_l,
\delta )$ (4.9)

から $N(\Delta, K, l)$ の元 $\rho$ への対応が${\bf R^n}の$コンパクト集合 $[-K,K]^{2l+m} \times [0,\Delta ]$ から $N(\Delta, K, l)$ の上への写 像
\begin{displaymath}
\Omega :[-K,K]^{2l+m} \times [0,\Delta ] \to N(\Delta,K,l)
\end{displaymath} (4.10)

を定義していることが判ります。
コンパクト集合の連続写像による像はコンパクト集合であるから、この全写 $\Omega$ が連続写像であることを示せばよいわけです。 そこで $[-K,K]^{2l+m} \times [0,\Delta ]$ の別の元として結合係数 $v^{(i)}_{k,j}$としきい値 $o^{(i)}_k$ 及びシグモイド関数の最大勾配 $\delta'$ による多重対 $(v,o,\delta')$ をとり、これに $\Omega$ により $g \in N(\Delta,K,l)$ が対応するものとする。すなわち、 % latex2html id marker 2867
$(\ref{s3-snet}), (\ref{s3-weight})$ 式と同様に
\begin{displaymath}
\left. \begin{array}{ll}
\displaystyle
v_k^{(2)} = (v_{k,...
...\cdot x - o_j^{(2)})
& (1 \le j \le l)
\end{array} \right\}
\end{displaymath} (4.11)

とします。 ここで $\vert\rho(x) - g(x)\vert$ を評価します。 $x \in B_D$ について $\vert x \vert \le D$ が成り立つから % latex2html id marker 2875
$(\ref{s3-snet}), (\ref{s3-net'})$ 式により
$\displaystyle {\vert y^{(2)}_k - z^{(2)}_k\vert}$
    $\displaystyle \le \Delta \vert(w_k^{(2)} - v_k^{(2)}) \cdot x
- (\theta^{(2)}_k-o^{(2)}_k)\vert$  
    $\displaystyle \quad + \vert\delta -\delta'\vert\vert v_k^{(2)}\cdot x - o_k^{(2)}\vert$  
    $\displaystyle \le \Delta (\vert w-v\vert D + \vert\theta - o \vert)
+ \vert\delta - \delta'\vert K(D+1)$  
      (4.12)

です。また $\psi$ は有界でしたから
\begin{displaymath}
\vert y^{(2)}\vert \le U_\psi
\end{displaymath} (4.13)

ただし
\begin{displaymath}
U_\psi \stackrel{\bigtriangleup}{=}\sup \{ \vert\phi_\delta (u)\vert;
0 \le \delta \le \Delta, u \in R\} < \infty
\end{displaymath} (4.14)

これから、
$\displaystyle {\vert y^{(3)}_k - z^{(3)}_k\vert}$
    $\displaystyle \le \vert(w_k^{(3)} - v_k^{(3)}) \cdot y^{(2)}\vert
+ \vert v_k^{(3)} \cdot (y^{(2)}-z^{(2)})\vert$  
    $\displaystyle \le \vert w - v\vert U_\psi
+ \Delta K (\vert w - v\vert D + \vert\theta - o\vert)$  
    $\displaystyle \quad + K^2\vert\delta - \delta'\vert(D+1)$ (4.15)

を得ます。結局、任意の $x \in B_D$ について

\begin{eqnarray*}
\lefteqn{\vert\rho (x) - g(x)\vert = \vert y^{(3)} - z^{(3)}\...
...t w - v\vert, \vert\theta - o\vert, \vert\delta - \delta'\vert)
\end{eqnarray*}



ただし、
$\displaystyle {\varepsilon (\vert w - v\vert, \vert\theta - o\vert, \vert\delta - \delta'\vert)}$
    $\displaystyle \stackrel{\bigtriangleup}{=}\vert w - v\vert U_\psi
+ \Delta K (\vert w - v\vert D + \vert\theta - o\vert)$  
    $\displaystyle \quad + K^2\vert\delta - \delta'\vert(D+1)$ (4.16)

を得ます。従って
$\displaystyle {\vert\rho - g\vert
\stackrel{\bigtriangleup}{=}\sup \{ \vert\rho (x) - g(x)\vert, x \in B_D \}}$
    $\displaystyle \le \varepsilon
(\vert w - v\vert, \vert\theta - o\vert, \vert\delta - \delta'\vert)$ (4.17)

が成り立ちます。

\begin{eqnarray*}
\lefteqn{\varepsilon (\vert w - v\vert, \vert\theta - o\vert,...
...v\vert, \vert\theta - o\vert, \vert\delta - \delta'\vert \to 0)
\end{eqnarray*}



であるから写像 $\Omega$ は連続写像です。すなわち $N(\Delta,K,l) = \Omega([-K,K]^{2l+m}\times [0,\Delta])$ はコンパ クト集合です。$\Box$

この命題によって、シグモイド関数の最大勾配と結合係数、しきい値がそれ ぞれある正数 $\Delta, K > 0$ 以下の階層型ネットワークのクラスを表す 関数集合 $N(\Delta, K, l)$ $C(B_D,{\bf R}^m)$ 内でそのコンパクト性 が保証されます。

$\Delta, K > 0$ を十分大きくとればよく用いれている殆どの階層型ネットワ ークがこの集合に含まれると考えてよいでしょう。

ここで $C(B_D,{\bf R}^m)$で連続関数$J$


\begin{displaymath}
\rho \in C(B_D,{\bf R}^m) \mapsto J(\rho)
\end{displaymath}

についての最小化問題が解を持つとします。

前節の定理% latex2html id marker 2901
$\ref{th-3.1}$ によれば,

\begin{eqnarray*}
&&任意の C(B_D,{\bf R}^m)の元\mu と任意の正数\varepsilon' >0...
...靴頓\
&&\max_{x \in B_D}\Vert\mu(x)-\rho(x) \Vert<\varepsilon'
\end{eqnarray*}



が成立っています。そこで,$J$ $C(B_D,{\bf R}^m)$ 上での連続性から

\begin{eqnarray*}
&&任意の C(B_D,{\bf R}^m)の元\mu と任意の正数\varepsilon >0..
...ilon})の元\rho が存在して\\
&&J(\rho ) - \varepsilon < J(\mu )
\end{eqnarray*}



ところで各 $N(\Delta, K, l)$ には最小化元が存在するので、 結局

\begin{displaymath}
\inf_l \min_{\rho\in N(\Delta, K, l)}J(\rho )
\le \inf_{\mu\in C(B_D,{\bf R}^m)} J(\mu)
\end{displaymath}

一方 $N(\Delta, K, l)\subseteq C(B_D,{\bf R}^m)$ ゆえ

\begin{displaymath}
\min_{\rho\in N(\Delta, K, l)} J(\rho )
\geq \inf_{\mu\in C(B_D,{\bf R}^m)} J(\mu)
\end{displaymath}

です。したがって

\begin{displaymath}
\inf_l \min_{\rho\in N(\Delta, K, l)} J(\rho)
= \inf_{\mu\in C(B_D,{\bf R}^m)} J(\mu)
\end{displaymath}

とります。

ところで、$l_1 \le l_2$ について

\begin{displaymath}
N(\Delta, K, l_1) \subseteq N(\Delta, K, l_2)
\end{displaymath}

なので

\begin{displaymath}
\min_{\rho\in N(\Delta, K, l_1)} J(\rho)
\geq \min_{\rho\in N(\Delta, K, l_2)} J(\rho)
\end{displaymath}

が得られ,したがって

\begin{displaymath}
\lim_{l\to \infty} \min_{\rho\in N(\Delta, K, l)} J(\rho)
= \inf_{\mu\in C(B_D,{\bf R}^m)} J(\mu)
\end{displaymath}

これは中間層の素子数 $l$ を十分大きくとり $N(\Delta, K, l)$ 内の最小化元を求めれば

\begin{displaymath}
\inf_{\mu\in C(B_D,{\bf R}^m)}J(\mu)
\end{displaymath}

の近似が得られることを示しています。


next up previous
: この文書について... : ネットワーク集合上の最小化問題 : ネットワーク集合上の最小化問題
Yasunari SHIDAMA