-
Adversarial Example에 대한 Survey 논문을 최근 읽고 있어서, 이에 대해 정리하고자 합니다.
각 기법에 대한 내용은 필수적인 내용만 최소한으로 작성하고자 합니다.
L-BFGS Attack은 가장 고전적인 공격기법 중 하나입니다.
image recognition tasks를 타깃으로 하였습니다.
이 공격 기법의 목적은 minimal perturbation을 찾는 것입니다.
식으로 나타내면 다음과 같습니다.
$$arg\ min_r ||r||_2 \text{i.e., } r = x'-x$$
위에서 r을 찾는 것이 목표입니다.
이를 L-BFGS Attack을 통해서 찾고자 한다.
L-BFGS는 다음 값을 minimize하는 \(x'\) 를 찾으려 합니다. 즉, Train을 할 때 Loss가 다음처럼 되는 것이지요.
optimize 해야하는 값이 다음 식에 해당하는 값입니다.
$$c||r||_2 + \mathcal{L}(x',t)\text{ such that }x' \in [0,1]$$
\(||r||\)의 값과 Loss 값을 더해서, 두 값을 작게 만드는 \(x'\)을 찾게 되면, 앞서 말했던 목적을 달성하게 되고, 이를 반복하여 \(f(x') != y\) 를 만족하는 \(x'\)을 찾게 되면 조건에 만족하는 adversarial example을 생성할 수 있습니다.
처음 들어보면 생소하긴 할 텐데, 위 식을 이해할 때 다음 그림을 참고하면 이해하기 편합니다.
L-BFGS optimization 위 그림으로 표현한 것이 L-BFGS 최적화에 대한 것이고,
Attack의 경우에는 정확히 위 방법을 사용 하되, optimization의 loss를 true label인 \(y\)가 아니라 target label인 \(t\)로 하고, \(||r||_2\) 을 loss에 추가하여 target label과 loss를 줄이는 동시에 perturbation의 값도 최소화 하고자 하는 방법이다.
이 글의 바탕이 되는 논문은 다음 논문입니다. 서베이 논문으로 간단히 나와있습니다.
'Study > Paper Review' 카테고리의 다른 글
댓글