새소식

컴퓨터공학 💻/딥러닝

[딥러닝 기초이론] 인공지능 운용을 위한 기초 통계학①

  • -
인공지능 기초이론 : 인공지능 운용을 위한 기초 통계학①

 

통계학과 통계

통계학(Statistics)은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야입니다. 통계는 수집한 자료를 이용하여 연구 가설의 참, 거짓을 판정하는 수학적, 확률적 논리를 제공하며 통계학 연구는 [ 이론 -> 문제제기 -> 일반화 가설 -> 통계 가설 -> 실험 설계 -> 통계적 검정 ] 의 절차를 거칩니다.

 

자료와 변수의 종류


자료의 사전적 정의는 연구나 조사 등의 바탕이 되는 재료이며 자료(데이터)를 수집하여 그것을 바탕으로 통계 분석을 진행합니다. 자료의 형태는 숫자, 문자, 소리, 이미지 등 다양한 형태가 있으며 자료의 종류로는 양적자료(Quantitative data)와 질적자료(Qualitative data)가 존재합니다.

 

양적자료(Quantitative data): 숫자로 얻을 수 있거나 표현될 수 있는 데이터입니다. 예를 들어 GDP, 오늘의 날씨(온도), 시험 성적 점수, 시간, 키, 몸무게 등이 있으며 해당 수치로 통계값을 연산합니다.
질적자료(Qualitative data): 숫자로 표현할 수 없는 범주의 데이터입니다. 예를 들어 성별, 직업군, 주소 등 연산이 불가능한 데이터 등이 있으며 보통 빈도수를 이용한 분석을 활용합니다.

 

자료 수집 개념에는 개체(Item), 요인(Factor), 변수(Variable)가 존재합니다.
개체 : 연구 대상은 무엇인가 (사내 직장인)
요인 : 개체의 특성들의 집합은 어떻게 구성되었는가 (경력, 신체조건, 주소)
변수 : 요인을 구성하는 요소 (신체조건 A의 키, 체중, 발사이즈, 혈액형 등)

 

척도의 종류

척도(Scale)란 어떤 대상의 특성을 단위로 정량화 한 것입니다.
척도의 종류에는 명목척도, 순위척도, 등간척도, 비율척도가 있습니다.

명목척도(nominal scale) : 이름, 범주 등을 나타내는 척도이며 수량적인 숫자의 의미가 아닌, 범주를 구분(분류)하는 용도로 사용됩니다. (1학년, 2학년, 3학년, 축구선수 등번호 등)
순위척도(ordinal scale) : 관찰대상의 속성에 따른 순위를 결정하기 위한 척도입니다. (전교 등수 1등, 6등 등)
등간척도(interval scale) : 일정한 간격을 두고 측정하는 척도이며 절대영점(Absolute zero)이 존재하지 않습니다. (올림픽 2012, 2014, 2018, 섭씨 온도(temperature), 리커드척도(Likert scale) 등) 
비율척도(ratio scale) : 순위, 등간, 비율 속성을 모두 가진 척도이며 절대영점이 존재하는 등간척도로 볼 수 있습니다.

 

독립변수, 종속변수, 공변량과 요인

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.