Box plot을 사용하면 데이터 수치를 구체적으로 표현해준다. 중앙의 가로 수직선 위 44는 판매량의 5개 행의 평균값을 나타내며 아래 44는 5개 행의 중앙값을 나타낸다.
42와 46은 각각 1분위 수, 3분위 수 라고하며 중앙값을 2분위 수라고 한다. 가로선 파란 막대는 표준편차의 크기이며 표준편차란 각각의 값들이 평균값으로부터 얼마나 떨어져 있는지를 평균을 낸 값으로 보면 된다.
Scatter plot(산점도)
만약 판매량과 상관의(==영향을 주는)관계가 있는 Column을 찾고 싶다면 어떻게 해야할까. 위 표에서 온도가 판매량과 상관관계에 있다는 것을 알아볼 수 있겠지만 데이터가 많지않아 쉽게 상관관게에 있다고 단정하기엔 위험하다.
Scatter plot은 상관관계에 있는 column을 찾아줄 수 있는 좋은 도구이다.
Scatter plot창에는 위와 같이 x축과 y축을 기준으로 점이 분포되어 있는 것을 볼 수 있다.
x축과 y축에는 각각 원하는 column을 넣어주면 된다. 양쪽 모두 판매량으로 설정하면 위와 같이 일정한 간격으로 점이 분포되어있는 것을 보아 데이터가 고르게 분산되어 있다는 것을 알아낼 수 있다.
반대로 어떤 특정한 데이터가 일정하지 않고 어느 하나가 동떨어져 있다거나 한다면 해당 데이터가 오류이거나 평등하지 않은 데이터일 확률이 높다.
x축에 오픈시간을 설정해보았을 때 위와 같이 점이 산만하게 분포되어 있는 것을 보아 오픈시간과 판매량간의 상관관계가 그다지 영향이 없다는 것으로 해석된다.
x축을 온도로 설정해보았을 때 위와 같이 점이 일정하게 분포되는 것을 보아 온도와 판매량이 서로 상관관계에 있을수도 있겠다고 해석될 수 있다. Show regression line을 체크하면 점들을 관통하는 선을 그리게 된다. 선안에 모든 점들이 들어있으므로 어떠한 규칙성을 가진 데이터라는 점을 알아낼 수 있다.
Label은 각각의 점이 어떤 정보를 표시하게 할것인지를 설정할 수 있으며 Size는 예를 들어 온도를 설정했을 때 그 데이터의 값만큼 점의 크기가 변하게 된다.
Jittering을 사용하면 이후 데이터가 엄청나게 많아졌을 때 각각의 점들을 지그재그로 이동시켜 어떤 정보를 담고있는 것인지 시각적으로 알수 있도록 도와준다.
Scatter plot을 통해 온도와 판매량간의 상관관계가 있다는 것을 알아낸 결과 곧 인과관계도 존재한다는 것을 알 수 있다. 상관관계는 인과관계를 포함하지만 역으론 불가능하다. 온도를 원인, 즉 독립변수라고 하며 판매량을 결과, 즉 종속변수라고 한다. 예를 들어 온도가 20이기 때문에 판매량이 종속된 결과로 나타난 40이라는 값이 되기 때문이다.
이제는 예측을 할 수 있게된다. 위와 같이 정비례로 나타난 추세를 보고 내일의 독립변수가 만약 22.5도라면 내일의 종속변수는 45가 될것이라고 추측을 할 수 있는 것이다.