새소식

컴퓨터공학 💻/Orange3

Orange3 (01) - Basic Instructions

  • -

https://opentutorials.org/course/4548

 

데이터 산업에서 사용하는 표에서 열은 feature, attribute, variable, field 라고 불리며 행은 instance, observed value, record, example, case 라고도 불린다.

 

 

orange3에서는 데이터 type을 명확히 해야한다. 가령, data table 안의 datetime(날짜)의 표기방식이 2020-06-01로 되어 있는데 이것을 2020년 06월 01일 로 지정하게 되면 orange에서 제대로 인식할 수 없는 문제가 발생한다.

 

 

Select Rows를 이용해 원하는 행만(Matching Data) 볼 수도, 혹은 Unmatched Data 형식의 Data table을 설정해 그 반대의 행만 볼수도 있다. 판매량을 44미만으로 설정해 40과 42의 판매량만 볼 수 있는 data table을 설정할 수 있다.

 

 

Select Columns를 이용해 특정 열만 보이지 않게 하는 것도 가능하다. 오픈시간을 보고 싶지 않다면 Select Columns 창 안에 왼쪽 항에 추가하고 새로운 data table을 만들어서 열어보면 오픈시간이 없어진 것을 볼 수 있다.

 

 

Feature Constructor는 말 그대로 새로운 열을 만들어주는 기능이다. 가령, 매출액에 관한 열을 추가하고 싶다면

New 부분에 생성하고자 하는 Column의 data형식을 만들어주고(매출액이니 numereic) 열의 이름을 입력하고  expression에는 생성하고자 하는 column에 들어갈 값을 어떻게 만들것인지(Select Feature - 판매량 * 5000)를 설정해준다. 

 

 

새로운 data table(4)을 만들고 그 옆에 또하나의 data table(5)을 연결생성한 후 (5)의 내용을 보면 아무것도 없는 것을 볼 수 있다. 

 

연결된 링크를 살펴보면 왼쪽에서 선택된 data를 오른쪽의 data로 공급시켜준다는 링크임을 알 수 있다.

 

 

data table(4)에서 선택한 column의 data들이 비어있었던 data table(5)로 공급된 것을 볼 수 있다. 

*Vusualize numeric value를 클릭하면 data를 시각화해서 보여준다.

 

 

Box plot을 사용하면 데이터 수치를 구체적으로 표현해준다. 중앙의 가로 수직선 위 44는 판매량의 5개 행의 평균값을 나타내며 아래 44는 5개 행의 중앙값을 나타낸다. 

 

42와 46은 각각 1분위 수, 3분위 수 라고하며 중앙값을 2분위 수라고 한다. 가로선 파란 막대는 표준편차의 크기이며 표준편차란 각각의 값들이 평균값으로부터 얼마나 떨어져 있는지를 평균을 낸 값으로 보면 된다.

 

 

 

 

 

이글은 오픈튜토리얼스(https://opentutorials.org/course/4548) 머신러닝 야학에서 배운 내용을 개인적인 기록을 위해 재가공하여 작성한 글입니다.
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.