1. 데이터셋(Dataset)의 개념(정의) 특정한 작업을 위해 데이터를 관련성 있게 모아놓은 데이터들의 집합체 즉 자료들의 모음으로 이미지, 텍스트, 오디오, 비디오, 숫자 데이터와 같이 여러 형식으로 된 자료를 포함할 수 있음기계학습의 발전으로 다양한 종류의 데이터셋 사용 범위 확대(데이터베이스 분야) 구조화된 데이터를 저장하고 검색하기 위해 데이터셋을 사용(인공지능, 기계학습 분야) 알고리즘 교육을 위한 비구조화된 데이터를 포함하며 알고리즘이 패턴을 식별하고 예측하기 위해 데이터셋을 사용2. 학습용 데이터셋1) 개념 및 유형 (개념) 인공지능 모델을 훈련시키고 평가하기 위해 사용되는 데이터의 모음을 말함(유형) 데이터의 종류에 따라 크게 ➊ 텍스트, ➋ 이미지, ➌ 음성, ➍ 비디오 등 비정형 데이터 형태를 가짐➊ (텍스트 데이터셋) 자연어 처리 및 감성 분석을 위해 사용되며, 뉴스 기사, 소셜 미디어 게시글, 리뷰 등 다양한 텍스트 데이터를 포함➋ (이미지 데이터셋) 숫자, 동물, 인물 등 다양한 이미지를 포함하며, 이미지 인식 및 객체 감지, 이미지 생성 등을 위해 사용➌ (음성 데이터셋) 음성 명령, 음악, 대화 등 다양한 음성 데이터를 포함하며, 음성 인식 및 음성 생성을 위해 사용 ➍ (비디오 데이터셋) 영화, TV 프로그램, 동영상 등 다양한 비디오 데이터를 포함하며, 동영상 인식 및 객체 감지를 위해 사용2) 학습 데이터의 중요성 인공지능 프로젝트의 80%는 인공지능 모델 개발에 사용할 데이터를 수집, 정제, 라벨링 작업에 소모됨

인공지능 솔루션은 ‘AI모델 + 데이터’로 구현, 학습데이터 없이는 인공지능을 개발할 수 없고 양질의 데이터가 없이 좋은 인공지능을 개발할 수 없음

3) 좋은 데이터 기준

➊ (정확성) 의도에 맞는 정확한 데이터➋ (일관성) 일관된 레이블링 결과➌ (커버리지) 다양한 데이터와 충분한 케이스 스터디➍ (편향성) 편향되지 않고 고르게 구성된 데이터4) 학습데이터 생성 요건학습데이터를 생성함에 있어서 빠르게(신속성), 많이 확보하고(대용량성), 정확하게(정확성) 만드는 것이 중요 5) 인공지능 학습데이터 수집 · 가공 방식(크라우드소싱) 많은 사람이 원격으로 모여 데이터를 수집하고 가공하는 과정을 말하며, 크라우드소싱에 참여하는 사람을 ‘크라우드 워커(crowd worker)’라고 함(인하우스) 수집하고 가공하는 데이터의 특성상 모두에게 공개하기 어려운 경우 소수의 인원이 데이터를 가공하는 방식

6) 학습데이터 구축 시 고려사항 (법 · 제도 준수) 학습에 필요한 데이터 수집 시 개인정보나 저작권 등 법에 저촉되지 않는지 확인 개인정보보호법, 저작권, 산업재산권, 초상권 등(데이터 다양성 확보) AI 편향 가능성 해결을 위해 다양한 데이터를 확보 (데이터 편향 방지 및 윤리 준수) 특정 집단이 과잉 혹은 과소 대표되거나 배제되지 않아야 함 데이터 수집 및 레이블링 과정에서 적절한 평가를 받아야 함(편향성 방지) 특징 선택(Feature selection) 단계에서 예상하지 못한 정보나 개인 신상 정보 노출 문제 등 차별의 근거로 사용되지 않도록 해야 함3. 인공지능(AI) 학습용 데이터1) 구성 및 특징(인공지능 학습 방법) 머신러닝의 학습 방법은 학습 형태에 따라 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning) 세 가지로 나눌 수 있음(지도학습) 문제와 정답을 모두 알려주고 학습시키는 방법(비지도학습) 답을 가르쳐주지 않고 학습시키는 방법(준지도학습) 지도학습과 비지도학습을 혼용한 학습 방법(강화학습) 보상을 통해 상은 최대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습 방법

(구성) 머신러닝, 딥러닝 등 AI 모델 학습을 위해 활용되는 데이터를 총칭하며 원본 데이터와 라벨링 데이터로 구성됨(원본 데이터) 이미지, 영상, 텍스트, 음성 등을 포함(라벨링 데이터) 원본 데이터에 활용 목적에 따라 표시 작업을 한 데이터로 다양한 형식으로 가공이 가능(특성)➊ 특정한 AI 모델의 학습을 목적으로 생산되는 데이터로써 임무 정의에 따라 구축되는 특성을 가짐➋ 지도학습이라는 특징에 따라 이미지, 비디오, 오디오, 텍스트 등 비정형 데이터를 대상으로 라벨링 작업을 통해 참값을 부여하며 품질이 엄격히 통제되어야 하는 특성을 가짐 ➌ AI 모델 학습용으로 구축되는 데이터는 활용자의 아이디어에 따라 무한한 활용 가능성을 가진다는 특성을 가짐2) 인공지능 데이터 유형(수집 데이터 유형) 데이터 유형별로 데이터 수집 기술과 방법을 달리 적용하며 데이터 유형은 정형 데이터(Structured Data), 반정형 데이터(Semi-structured data), 비정형 데이터(Unstructured data)로 구분 (정형 데이터) 구조화된 데이터, 즉 미리 정해진 구조에 따라 저장된 데이터 엑셀의 스프레드시트, 관계데이터베이스(RDB)의 테이블이 대표적임(반정형 데이터) 구조에 따라 저장된 데이터지만 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 함께 존재함HTML, XML, JSON 문서, 웹 로그, 센서 데이터 등이 대표적임(비정형 데이터) 정의된 구조가 없이 저장된 데이터로 소셜 데이터의 ① 텍스트*, ② 이미지, ③ 영상, ④ 워드나 PDF 문서, ⑤ 뉴스 기사 등이 있음,기계학습을 위한 입력 데이터로 활용하기 위해서는 데이터의 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리(Preprocessing)를 필요로 하며 자연어 처리(Natural Language Processing) 기법이 주로 사용됨 텍스트 데이터는 여러 가지 문서로 이루어진 데이터를 말하며, 텍스트는 데이터 관점에서 크기순으로 말뭉치(corpus), 문서(document), 단락(paragraph), 문장(sentence), 단어(word), 형태소(morpheme)로 분류됨3) 인공지능 학습용 데이터 구분AI 활용 목적에 따라 학습 데이터, 검증 데이터, 평가 데이터로 구분AI 데이터셋(AI Dataset) = AI 학습 데이터 + 검증 데이터 + 평가 데이터 이어서 보기: 클릭 #한국저작권위원회 #데이터셋