디지털 너구리 : 게임, IT 정보 및 다양한 지식 공유드립니다.

스마트 IoT를 다루기 위해선 이들의 학습 방법에 대해서 알아야 합니다. IoT는 기본적으로 의사 결정하는데 있어서 빅데이터를 활용하는 경우가 많습니다. 빅데이터의 데이터가 의사 결정 판단의 근거가 되는 것이죠. 그렇다면 스마트 IoT는 빅데이터에 대해서 어떻게 접근할까요?

 

 

 

 


이 포스팅은 수업을 기반으로 정리하는 식으로 작성되었습니다.


많은 실제 응용 분야에서 비선형 데이터 프로세싱은 선형 데이터를 능가합니다. 데이터를 가공 및 커널 기반의 학습하고 딥 러닝 기반의 신경 네트워크는 현재 잘 알려진 선형에서 비선형 변형을 구조화 하는데 강력한 수학적 의미를 제공합니다. 이 기법은 많은 엔지니어링 응용 프로그램에 이용됩니다.

 

 

# 빅데이터 접근법

 

대규모 데이터 분석에 빅데이터를 활용하는 경우가 많습니다. 빅데이터의 데이터가 의사 결정 판단의 근거가 되는 것이죠. 그렇다면 스마트 IoT는 빅데이터에 대해서 어떻게 접근할까요?

 

 

많은 실제 응용 분야에서 비선형 데이터 프로세싱은 선형 데이터를 능가합니다. 데이터를 가공 및 커널 기반의 학습하고 딥 러닝 기반의 신경 네트워크는 현재 잘 알려진 선형에서 비선형 변형을 구조화 하는데 강력한 수학적 의미를 제공합니다. 이 기법은 많은 엔지니어링 응용 프로그램에 이용됩니다.

 

 

 

# 대규모 데이터 분석에서 효율적인 데이터 처리 과정

 

빅데이터는 엄청나게 많은 데이터를 가지고 있습니다. 데이터가 많으면 좋게 느껴지지만 처리 과정에서 필요하지 않는 데이터까지 계산해 효율적이라고 보기 힘듭니다. 이에 빅데이터를 Rank를 줄여 효율적으로 처리할 수 있는 데이터로 변환합니다.  

 

데이터를 어떻게 줄일까요? 바로 Matrix를 활용하는 방법이 있습니다. 매트릭스(Matrix)란  y=Ax라는 식이 있을때 y와x와의 관계는 A에 의해 정의할 수 있습니다. 이때 A를 Marix A라고 부릅니다.

 

데이터 베이스 또한 매트릭스 A를 통해 예상 가능한 데이터들을 압축시킬 수 있습니다.

 

 

그림의 왼쪽과 같은 데이터가 있다고 가정해봅시다. 이를 어떻게 줄일 수 있을까요? 세로 한줄을 colum의 약자를 써서 순서대로 c1,c2,c3,c4라고 명시합시다. 자세히 보면 c1과 c2는 매트릭스를 통해 표현할 수 있습니다. c2 = 2 * c1이라고 말이죠. c1에서 각 튜플에 2를 곱해주면 c2가 나옵니다.

 

c1과 c2는 이로서 같은 범주에 속한다고 말할 수 있습니다. c3또한 마찬가지죠? c3 = 3 * c1이라고 표현할 수 있습니다. 이 3개의 칼럼(Colum)을 한 범주에 포함시킵니다. 하지만 c4는 c1,c2,c3와의 관계를 표현할 수 없습니다. 이에 데이터 베이스에는 {c1,c2,c3},{c4} 두개의 범주가 있다고 말할 수 있습니다.

 

이 범주의 수를 Rank라고 표현하며 Rank가 2개인 데이터 베이스라고 표현합니다. 우리는 데이터를 처리할 때 오로지 두개의 칼럼만 있으면 되는 것입니다.

 

스마트 IoT에서 대용량 데이터는항상 이러한 과정을 걸쳐 처리됩니다. 이렇게 수학적으로(매트릭스 형태) 대량의 데이터를 밀집하게 표현할 수 있습니다. 

 

Rank가 작은 현재 잘 알려진 선형에서 비선형 변형을 구조화 하는데 강력한 수학적 의미를 제공합니다. 이 기법은 많은 엔지니어링 응용 프로그램에 이용됩니다.

 

 

Rank가 작은 매트릭스 데이터들은 데이터 분석에 중심적인 역할을 합니다. 

ex ) 교통 데이터, 감시 데이터 : 주로 시간에 따른 주기적인 동작으로 인해 열과 행을 매트릭스로 정의하면서 Rank를 줄일수 있습니다.

 

 

하지만 밀접하게 얽혀있는 노이즈(약간의 오차 등)나 드문 예외의 경우와 함께 Low-Rank(랭크를 줄이는 것)로 복구할 수 있습니다. 큰 감지 데이터 Y가 주어지고 이것은 다음과 같은 공식으로 표현할 수 있습니다.

 

Y = X+A

 

 

우리는 Low-Rank인 X와 감지데이터 Y를 복구하고 싶습니다. 

 

Low-Rank의 X를 찾아내고 이를 감지된 데이터에서 뺍니다. 그러면 오류가 검출되는데 이 수치가 허용 가능한 오류 수치보다 낮다면 허용하는 식입니다.

 

 

다음 예시에서 가로 colum 4개의 관계가 튜플 하나 때문에 오묘하게 안맞는 경우가 있습니다. 이들의 오차를 계산한 후 허용 가능한 오차(=3)까지는 같은 범주에 포함시킵니다. 그러면 어느 정도 Rank 수치를 줄일 수 있습니다

 

이렇게 허용된 오차 범위내에 줄인 Rank 수치는 2가 되는 것입니다.

반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band