컴퓨터공학 💻/Orange3
-
data type에 따라 연산 방법이 달라지기 때문에 분명히 설정을 해야한다. Role은 각각의 Column이 어떤 역할을 하는지를 지정해줄 수 있다. Role에는 4개의 항목이 있는데 data type에 따라 2개만 나올수도 있다. Skip : data 분석작업에서 해당 data를 무시한다. meta : 실제 분석작업에 사용되진 않으나 정보성으로 남겨두어야 하는 것들을 표시한다. taget : 예측하고자 하는 Column을 지정한다. (종속변수) feature : 예측에 사용되는 독립변수. 왼쪽에서 data type과 role에 따라 오른쪽 data table의 형태가 바뀐 것을 볼 수 있다. 위와 같은 방식으로 컴퓨터를 학습시켜 모델을 만들어낼 수 있다. 그전에 어떤 방식으로 모델을 만들어야 될지는 ..
Orange3 (03) - Linear regressions, Predictionsdata type에 따라 연산 방법이 달라지기 때문에 분명히 설정을 해야한다. Role은 각각의 Column이 어떤 역할을 하는지를 지정해줄 수 있다. Role에는 4개의 항목이 있는데 data type에 따라 2개만 나올수도 있다. Skip : data 분석작업에서 해당 data를 무시한다. meta : 실제 분석작업에 사용되진 않으나 정보성으로 남겨두어야 하는 것들을 표시한다. taget : 예측하고자 하는 Column을 지정한다. (종속변수) feature : 예측에 사용되는 독립변수. 왼쪽에서 data type과 role에 따라 오른쪽 data table의 형태가 바뀐 것을 볼 수 있다. 위와 같은 방식으로 컴퓨터를 학습시켜 모델을 만들어낼 수 있다. 그전에 어떤 방식으로 모델을 만들어야 될지는 ..
2020.08.25 -
Box plot Box plot을 사용하면 데이터 수치를 구체적으로 표현해준다. 중앙의 가로 수직선 위 44는 판매량의 5개 행의 평균값을 나타내며 아래 44는 5개 행의 중앙값을 나타낸다. 42와 46은 각각 1분위 수, 3분위 수 라고하며 중앙값을 2분위 수라고 한다. 가로선 파란 막대는 표준편차의 크기이며 표준편차란 각각의 값들이 평균값으로부터 얼마나 떨어져 있는지를 평균을 낸 값으로 보면 된다. Scatter plot(산점도) 만약 판매량과 상관의(==영향을 주는)관계가 있는 Column을 찾고 싶다면 어떻게 해야할까. 위 표에서 온도가 판매량과 상관관계에 있다는 것을 알아볼 수 있겠지만 데이터가 많지않아 쉽게 상관관게에 있다고 단정하기엔 위험하다. Scatter plot은 상관관계에 있는 col..
Orange3 (02) - Box Plot, Scatter PlotBox plot Box plot을 사용하면 데이터 수치를 구체적으로 표현해준다. 중앙의 가로 수직선 위 44는 판매량의 5개 행의 평균값을 나타내며 아래 44는 5개 행의 중앙값을 나타낸다. 42와 46은 각각 1분위 수, 3분위 수 라고하며 중앙값을 2분위 수라고 한다. 가로선 파란 막대는 표준편차의 크기이며 표준편차란 각각의 값들이 평균값으로부터 얼마나 떨어져 있는지를 평균을 낸 값으로 보면 된다. Scatter plot(산점도) 만약 판매량과 상관의(==영향을 주는)관계가 있는 Column을 찾고 싶다면 어떻게 해야할까. 위 표에서 온도가 판매량과 상관관계에 있다는 것을 알아볼 수 있겠지만 데이터가 많지않아 쉽게 상관관게에 있다고 단정하기엔 위험하다. Scatter plot은 상관관계에 있는 col..
2020.08.25 -
데이터 산업에서 사용하는 표에서 열은 feature, attribute, variable, field 라고 불리며 행은 instance, observed value, record, example, case 라고도 불린다. orange3에서는 데이터 type을 명확히 해야한다. 가령, data table 안의 datetime(날짜)의 표기방식이 2020-06-01로 되어 있는데 이것을 2020년 06월 01일 로 지정하게 되면 orange에서 제대로 인식할 수 없는 문제가 발생한다. Select Rows를 이용해 원하는 행만(Matching Data) 볼 수도, 혹은 Unmatched Data 형식의 Data table을 설정해 그 반대의 행만 볼수도 있다. 판매량을 44미만으로 설정해 40과 42의 판매..
Orange3 (01) - Basic Instructions데이터 산업에서 사용하는 표에서 열은 feature, attribute, variable, field 라고 불리며 행은 instance, observed value, record, example, case 라고도 불린다. orange3에서는 데이터 type을 명확히 해야한다. 가령, data table 안의 datetime(날짜)의 표기방식이 2020-06-01로 되어 있는데 이것을 2020년 06월 01일 로 지정하게 되면 orange에서 제대로 인식할 수 없는 문제가 발생한다. Select Rows를 이용해 원하는 행만(Matching Data) 볼 수도, 혹은 Unmatched Data 형식의 Data table을 설정해 그 반대의 행만 볼수도 있다. 판매량을 44미만으로 설정해 40과 42의 판매..
2020.08.24 -
컴퓨터를 학습시키면 컴퓨터는 그것의 모델을 만들어낸다. 데이터가 많을수록, 그리고 정확할수록 좋은 모델이 나올 수 있다. 머신러닝은 공식의 대중화이다. 1. 지도학습(Supervised Learning) 과거의 데이터(독립변수와 종속변수와의 관계)를 학습하여 결과를 예측하는 것에 사용하는 것에서 역사와 비슷하며 정답이 있는 문제를 해결하는 것. 지도학습은 분류와 회귀로 나뉜다. 1-1. 회귀(Regressison) 숫자를 예측하고 싶다면 회귀를 사용해야 한다. 즉 종속변수가 양적 데이터라면 회귀를 사용해야 한다. = 지도학습의 회귀로 해결하라. 1-2. 분류(Classification) 어떤 문제에서 추측하고자 하는 것이 숫자가 아닌 문자나 이름이라면 분류를 사용해야 한다. 즉 종속변수가 범주형 데이터라..
머신러닝 - 머신러닝 분류 학습컴퓨터를 학습시키면 컴퓨터는 그것의 모델을 만들어낸다. 데이터가 많을수록, 그리고 정확할수록 좋은 모델이 나올 수 있다. 머신러닝은 공식의 대중화이다. 1. 지도학습(Supervised Learning) 과거의 데이터(독립변수와 종속변수와의 관계)를 학습하여 결과를 예측하는 것에 사용하는 것에서 역사와 비슷하며 정답이 있는 문제를 해결하는 것. 지도학습은 분류와 회귀로 나뉜다. 1-1. 회귀(Regressison) 숫자를 예측하고 싶다면 회귀를 사용해야 한다. 즉 종속변수가 양적 데이터라면 회귀를 사용해야 한다. = 지도학습의 회귀로 해결하라. 1-2. 분류(Classification) 어떤 문제에서 추측하고자 하는 것이 숫자가 아닌 문자나 이름이라면 분류를 사용해야 한다. 즉 종속변수가 범주형 데이터라..
2020.08.20