본문 바로가기
자격증준비

AIDE 2급 이론 이것만 알면 무조건 합격!!

by 버닝스터디 2023. 3. 30.
반응형

데이터 라벨러에 대한 관심이 많이 증가하면서 관련된 자격증에 대한 생각을 갖는 사람이 많아졌습니다. 데이터를 가공하는 과정 또한 몇 년 전에 비해서는 조금 더 복잡해지고 세심함을 필요로 하는 경우가 많아지게 된 것을 보면 그만큼 AI의 발전속도나 규모가 빨라지고 커지고 있어 더 필요한 부분이 많아져일 수도 있겠다는 생각이 듭니다. 실전관련해서는 배웠던 이론을 바탕으로 연습한 문제들이 등장한다고 하니 과정을 잊기 전에 빠르게 자격증을 응시하는 것도 한 가지 방법인 것 같습니다. 오늘은 인공지능 2급 관련 이론을 정리하고자 합니다.

 

목차

1. 4차 산업과 인공지능

2. 인공지능 방법론

3. 인공지능 알고리즘

4. 인공지능과 빅데이터

 

1. 4차 산업과 인공지능

산업혁명 시기 정리

2차 산업혁명 : 19~20세기초 전기에너지 대량생산 혁명
3차 산업혁명 : 20세기 후반 컴퓨터 인터넷 지식 정보 혁명
4차 산업혁명 : 21세기 초반부터 현재진행형. 21세기 초반 인공지능은 빅데이터 초연결지능화를 통한 4차 산업혁명지대로 진입.

 

산업혁명의 핵심

인공지능, 빅데이터, 사물인터넷, 3D프린팅, 로봇 공유경제, 드론 등이 발전하면서 산업에 변화가 이루어짐.
가장핵심기술은 인공지능, 빅데이터

인공지능서비스 개요
데이터 획득 Iot(디바이스와 기계간 통신을 통해 데이터수집), Mobile, M2M(Machine to Machine-기계에서 기계로 데이터를 수집하는 방식)을 통한 이미지, 영상, 텍스트등의 데이터를 수집하는 과정.
자동으로 수집하는 방식으로 발전.
데이터가공(전처리) 인공지능에서 가장 중요 가장 많은 시간 소비
데이터 라벨링이란? 사람이 만든 사진, 문서 등의 데이터를 인공지능 (AI) 이 학습할 수 있는 형태로 가공하는 작업 데이터
데이터 획득과 데이터 라벨링이 빅데이터 영역!

모델생성 인공지능이 학습할 수 있는 모델을 개발.

개발된 모델에 라벨링 된 데이터 입력.

인공지능학습할 때는 자동으로 학습진행.
모델수정과정을 거쳐야 함.
기계를 학습하는 것 머신러닝 (ML)의 학습법 : 지도학습, 비지도학습, 강화학습
실시간서비스(api개발)
모델생성과 실시간 서비스가 인공지능영역!

인공지능 발전 3단계
1960~1970 1차 AI붐 AI개념을 확립. 인공지능 발전.
엘런 튜링(인공지능의 아버지) : 기계가 생각할 수 있는지 테스트하는 방법 정립. 지능적 기계의 개발 가능성 연구.


1980~1990 2차 AI붐 전문가시스템. 인공지능을 개발할 수 있는 전문가들이 시스템개발 사용.

관련분야 전문가들이 인공지능 기술을 사용함. 대중적이진 않음
컴퓨터가 보급되던 시기에 인공지능도 같이 발전함. 인공지능이 기술적으로 큰 변화.
인공지능을 전문가들이 만들어서 사용. 자신의 지식을 직접 입력 규칙을 만들어 동작하는 시스템. 정밀하고 세밀한 데이터 입력 ->문제점 많이 발생. 서로 다른 방식의 인공지능을 개발하는 문제로 표준화 안됨. 시간과 비용면에서 비효율적.


2000년대~ 3차 AI붐 머신러닝과 딥러닝으로 인공지능 기술을 일반인도 쉽게 사용
빅데이터 가공기술 발전으로 인공지능이 같이 발전하게 됨.
빅데이터 세션이 필수. 인공지능과 빅데이터는 아주 밀접한 관계.
현재 인공지능은 학습할 수 있는 스스로 학습. 학습할 데이터를 사람이 제공하면 스스로 판단하는 인공지능 구현 방식으로 발전. 하드웨어 향상 및 복잡 연산 가능. 고성능의 컴퓨터 GPU(그래픽 연산 빠르게 여러 개의 작은 단위 코어를 나누어 빠르게 학습 빠른 시간에 학습 가능) 필요. 기술발전 클라우드시스템 발전.
현재 기술은 많은 데이터 하드웨어 결합 스스로 학습 처리 인공지능 구현.

인공지능 현시점(립러닝) 인공지능이 문제를 해결하는 과정
문제와 답을 통해 공식발견. 기존(문제와 답을 넣어줌)과는 반대.
나중에 문제와 답이 달라지는 환경이 발생해도 학습을 통해 변화된 공식 찾음.
많은 양의 문제와 답을 인공지능에 제공 가장 근접한 공식 찾아야 함. 다양한 분야에서 활용 가능.
사람이 문제를 해결하는 방법과 동일한 문제해결방법.
인공지능이 정확한 문제 해결방법을 찾아내기 위해서서는 많은 양의 문제와 답이 필요함.

 

2. 인공지능 방법론

인공지능의 원리
AI 인공지능-사람의 뇌를 흉내 내는 인공신경망과 다양한 머신러닝 알고리즘을 통해 구현됨.
퍼셉트론(Perceptron)-딥러닝(신경망)의 기원이 되는 알고리즘 프랑크 로젠블라트가 1957년에 고안한 알고리즘.
딥러닝을 배우기 위해서는 퍼셉트론의 구조를 배우는 것이 매우 중요함.
인공신경망(ANN-Artificial Neural Network)의 표현방식:인공신경망은 생물학의 신경망에서 영감을 얻은 학습알고리즘.

 

신경망(인공신경망)의 구조
입력층(input layer) :학습하고 하는 데이터를 입력하는 층
은닉층(hidden layer) : 입력된 데이터를 여러 단계로 처리하는 층
출력층(output layer) : 처리된 결과를 출력하는 층

인공지능 방법론(인공지능의 분류)
인공지능 : 인간의 지적능력을 컴퓨터를 통해 구현단계(최종목적)/사이버네틱스 전문가시스템
머신러닝 : 스스로 학습하여 인공지능의 성능을 향상하는 기술/인공신경망, 결정트리, 베이즈네트워크등
딥러닝 : 인간의 뉴런과 비슷한 인공신경망으로 학습하는 방법(머신러닝의 한계를 넘어서는 기술 -CNN, RNN, LSTM, GRU)
딥러닝은 머신러닝의 구현방식중 하나로 가장 좋은 성능을 내는 방식임.

머신러닝학습
지도학습(supervised learning) : 문제와 정답을 알려주고 학습(예측, 분류). 비지도학습보다 단순하고 일반적 레이블이 지정된 데이터(라벨링)를 사용
분류와 회귀(이미 학습된 데이터를 바탕으로 예측하는 것)에 사용됨.
비지도학습(unsupervised learning) 답을 가르쳐 주지 않고 학습 연관규칙 군집
강화학습(reinforcement learning) 보상을 통해 학습하는 방식

머신러닝 vs 딥러닝
머신러닝 : 스스로 학습하여 인공지능의 성능을 향상하는 기술. 데이터의 여러 특징 중 사람이 직접 분석, 판단.
딥러닝 : 인간의 뉴런과 비슷한 인공신경망으로 학습방법. 기계가 자동으로 학습 데이터에서 특징을 추출함

 

 

3. 인공지능 알고리즘

딥러닝의 표현방식
딥러닝 : 기계가 자동으로 대규모 데이터에서 패턴과 규칙을 학습. 학습을 기반으로 의사결정이나 예측등을 수행하는 기술.
여러 층(입력층, 은닉층, 출력층)을 가진 인공신경망(ANN)을 사용하여 머신러닝 학습을 수행함.

딥러닝의 동작원리

딥러닝을 위하여 많은 양의 학습데이터와 학습이 필요하며 학습에 필요한 데이터를 전처리하여 제공하여 주어야 한다. 성능은 학습데이터의 품질과 영향이 크다. 딥러닝 학습을 위한 데이터는 훈련데이터(train)평가데이터(test)로 분류 사용하게 된다. 총 70,000개의 데이터가 있다고 가정하면 훈련데이터는 86%인 60,000개의 인공지능학습용 학습하고, 평가데이터는 14%인 10,000개 정도가 평가에 사용 학습 후 정확도 분석하게 된다.

 

네트워크 훈련용 데이터와 평가용 데이터로 분류하는 이유

수능문제를 예로 들었을 때 4번의 모의고사훈련 반복하는 훈련 셋(train) 60,000개 훈련-반복학습(에포크 epochs)을 통해 손실을 줄이고 정확도 높인다. 시험 셋(test) 10,000개 작년수능문제 예측(predict)-시험 셋 데이터를 이용하여 학습이 잘 되었는지 결과를 예측 평가. 학습과 예측에서 좋은 결과가 나왔다면 실제 데이터를 입력하여 성능을 확인 실전(실데이터) 올해 수능문제 예측!

인공지능 프로그램의 개발절차
1단계 라이브러리 읽어 들이기 개발하는 시간 비용 줄임
2단계 데이터를 읽어 들이고 전처리하기 라벨링데이터로 필요
3단계 신경망 만들기 인공지능 라이브러리 이용
4단계 모델 만들기(학습하기) 다소 시간이 소요
5단계 모델 적용하기(예측하기) 성능평가

2단계~4단계 학습데이터(데이터제공) 데이터 전처리 데이터셋활용
5단계->3단계 인공지능개발 데이터셋활용 인공지능학습 결과 예측 후 수정사항이 있는 경우 신경망 만들기로 이동

인공지능 객체 검출 방법의 이해

싱글오브젝트 : 검출하고자 하는 객체가 하나인 경우 처리방식
1단계
분류(classification) 학습을 통해 1개의 오브젝트를 찾는 것.

인공지능은 데이터셋(데이터와 정답 레이블)을 함께 한습 한 인공지능은 이를 토대로 새로운 이미지를 식별하게 되는 과정으로 학습되지 않은 class는 인식하지 못함.
2단계

영역표시(localization) 분류를 통해 검출한 객체의 정보가 있는 위치를 보기 쉽게 박스형태로 지정하는 것이 localization.
바운딩박스: 학습을 통해 검출한 객체의 영역을 사각형으로 표시

멀티 오브젝트 : 검출하고자 하는 객체가 여러 개인 경우
객체 검출(object detection) 학습을 통해 여러 개의 객체를 인식하고 인식된 객체를 바운딩박스와 색을 이용하여 영역을 표시하는 과정.
분류는 객체를 1개만 검출. 객체 검출은 객체가 1개 이상 검출했을 때 즉 여러 개의 객체를 찾아낼 때 사용하는 방식.
대부분의 인공지능의 객체 검출을 위한 용도로 사용됨.

핵심 딥러닝 알고리즘 이해
용도에 따라 사용하는 알고리즘이 정해져 있다.
CNN(Convolustional Neural Network 합성곱신경망) : 영상처리에 많이 활용 합성곱을 사용함. 영상처리에 많이 활용되는 합성곱을 이용한 인공신경망 합성곱을 이용해 가중치 수를 줄여 이미지 처리에 효과적. 이미지의 특장점을 효과적으로 찾을 수 있는 신경망. 데이터의 특징을 분석하여 패턴을 파악하는 구조로 Convolution과정과 Pooling과정을 통해 진행함.

RNN(Recurrent Neural Network 순환신경망) : 음성처리에 많이 사용 계층의 출력이 순환하는 신경망. 계층의 출력이 순환하는 인공신경망 순환방식은 은닉 계층의 결과가 다음계층으로 넘어가며 자기 계층으로 다시 돌아온다. 시계열 정보처리처럼 앞뒤 신호의 상관도가 있을 경우. 음성, 웨이브폼, 텍스트의 앞뒤를 분석하는 등의 언어처리

GAN(Generative Adversarial Network 생성적 적대 신경망) : 이미지생성, 복원 등 신경망끼리 경쟁하여 최적화하는 신경망.
신경망끼리 경쟁하여 최적화를 수행하는 생성형 신경망. GAN내부의 두 신경망이 상호 경쟁하면서 학습. 하나는 생성망이며 다른 하나는 판별망. 이미지생성, 이미지 복원, 동작흉내, 신약개발, 음성생성, 편집, 변환, 복원 등 활용.

세그멘테이션 의미적 분할(instance segmentation)- 객체인식에서 의미 있는 단위로 이미지를 분할하는 과정
정교하고 복잡한 인공지능 구현을 위해 이지지의 영역별 의미를 부여하는 경우 사용하는 방식.

 

 

4. 인공지능과 빅데이터

빅테이터란?

대량의 정형(수치화), 비정형 데이터(텍스트, 영상, 음성등)로부터 가치를 추출하는 기술

대량의 모든 데이터로 컴퓨터, 인터넷등 디지털 환경에서 발생하는 데이터
기존의 정형데이터에서 비정형 데이터로 많은 데이터 발생

2015년 기준 1분간 데이터 발생량 : 구글의 2백만 건 데이터 검색, 유튜브 72시간 비디오생성, 트위터 72만 건

1970~1980 메인프레임 컴퓨터(정형데이터)
1980~2000 개인 PC
2000~2010 인터넷 모바일 소셜미디어 스마트폰의 보급으로 빅데이터 시대로 접어들었다
2020 IT EVERYWHERE 인공지능, 증강형 실->메타버스 빅데이터시대

데이터의 가치와 결과분석기술 : 데이터의 관리에서 데이터를 분석하여 가치 창출하는 기술
빅테이터 플랫폼의 등장 : 데이터를 관리하는 하드웨어, 소프트웨어, 애플리케이션의 등장
대규모의 데이터 관리기술 : 데이터를 저장, 관리, 분석하는 하드웨어, 소프트웨어, 유통, 활용기술등

빅데이터의 특징
초기 빅데이터의 특징

3V - 규모(VOLUME) -데이터양의 증가
다양성(VARIETY)-데이터의 다양성
정형(structured) 데이터 : 구조화된 데이터, 고정된 필드에 저장된 데이터(데이터베이스, 엑셀, csv)
반정형(semi-structured) 데이터 : 고정된 필드는 아니지만 스키마 포함 연산불가(xml, html, json 등) 웹서비스

비정형(unstructured) 데이터 : 고정되지 않은 데이터, 연산불가, 형태 없음(소셜데이터, 영상, 음성, 이미지)
속도(VELOCITY)- 실시간처리 실시간 분석 스트림
정확성(4V) VERACITY-신뢰할 수 있는 데이터
가치(5V) VALUE -저장할 가치가 있는지

인공지능과 데이터의 상관관계
AI 인공지능 -인공지능은 학습하기 좋은 데이터(라벨링)가 필요
빅데이터 - 데이터는 인공지능학습을 위한 가공(전처리)이 필요
인공지능의 성능향상을 위해서는 양질의 데이터가 충분히 제공되어야 함

인공지능개발에 소요되는 시간 : 데이터 처리에 80%를 소요
데이터식별 5%
데이터수집 10%
데이터정제 25%
데이터라벨링 25% : 인공지능 모델학습을 위한 데이터를 기계가 이해할 수 있는 형태로 가공
데이터 증강 15%

인공지능개발 소요시간 : AI 인공지능 20% 를 소요
ai 서비스배포 2%
ai 모델조정 5%
ai 모델학습 10%
ai 알고리즘 개발 3%

데이터셋 : 인공지능학습을 위해 필요한 데이터를 모아놓은 자료의 집합.
즉 원천데이터와 라벨링 데이터를 모아 놓은 자료의 집합이다.


**주의할 점**
인공지능 및 빅데이터의 데이터생성, 관리 시에 저작권과 초상권은 주의해야 한다.
저작권이란 사람의 생각이나 감정을 통하여 만들어진 창작적인 표현의 결과물로 저작인견권 저작 재산권등으로 분류된다.
이미지 : 인터넷에 있는 이미지의 경우 허락 없이 사용하면 불법

해결방법 : 이미지 판매사이트에서 구입 또는 무료이미지 사이트 활용


폰트 : 인터넷에 있는 대부분의 폰트는 유로폰트로 상업적 사용 시 문제 발생

해결방법 : 나눔 폰트, 저작권 free폰트, 사용 시 저작권범위확인 후사용
뉴스, 기사, 포털정보 등 : 인터넷의 뉴스, 기사, 포털의 정보들은 저작권이 있는 결과물로 사용불가

해결방법 : 내용의 일부발췌(제목), 출처표기, 상세저작권범위 확인필요

개인정보 취급 시 주의사항
개인정보 익명화 일반정보 신체적 정보, 정신적 정보, 재산적 정보, 사회적 정보, 기타 가명(익명) 정보화를 통해 구분할 수 없도록 처리

초상권이란 얼굴 기타 사회통념상 특정인임을 식별할 수 있는 신체적 특징에 관하여 촬영 또는 그림묘사 되거나 공표되지 않으며 영리적으로 사용이 불가하다.

 

*함께보면 좋은 글

 

 

AIDE 1급 이론 상세정리

AIDE 2급에 이어 1급 이론정리를 합니다. 2급 준비 때보다 조금 더 심화되는 내용으로 평소 인공지능이나 관련 언어에 대한 지식이 있으신 분들은 가볍게 넘기실 수도 있겠지만 생소한 단어로 조

burningstudy1004.com

 

반응형

댓글