BI Tool
Power BI 선정 이유 및 간단한 예제
이번에 예측을 위해서 BI 즉 비즈니스 인텔리전스(Business Intelligence)를 사용해보았습니다.
이런 BI 툴들을 활용하면 코드 한 줄 없이도 예측을 해주는 여러가지 프로그램들이 있습니다.
교수님께서 Power BI를 사용하라고 하셨지만 저는 mac환경이라 돌아가지 않아서 차선의 프로그램들을 추가적으로 조사해보았습니다.
부트캠프도 패러럴즈도 싫어요,,
여러가지 많은 프로그램들이 있지만 제가 조사해본 바에 따르면 총 3가지가 굵직하게 대표적이었습니다.
각각의 프로그램들은 장단점이 있었는데요.
BI tool 3가지
- Tableau
- Google Data Studio
- Power BI
각각의 프로그램들은 장단점이 있었는데요.
프로그램 세 가지는 Tableau, PowerBI, Google Data Studio입니다. 먼저 태블로(Tableau)는 ableau라는 회사에서 만든 제품으로 Computer Graphics와 Databases, Human Compter Interaction이 대표적입니다. 액셀, google Sheets 등 여러 문서의 파일을 받아 데이터 시각화 및 예측이 가능합니다. Google Data Studio는 비슷하지만 데이터 시각화 도구가 생각보다 다양하지 못합니다. 또한 데이터 분석을 전문적으로 하는 사람들은 R과 Python 등을 활용하는 추세이지만 엑셀이 지원이 되지 않기 때문에 불편합니다. 또한 쿼리 편집 모드도 없다고 합니다. 다만 Google Analytics와 연동이 용이하다데 저는 생각이 없어서 패스했습니다.
뭐 이렇게 보면 Tableau도 나쁘지 않은거같은데 연구실에서 계속 활동하게 된다면, 연구실에서 여러사람들과 데이터를 공유를 해야하고 그 분들이 Power BI를 쓰실 것 같아서 Power BI를 쓰기로 했습니다.(다 됐고 교수님이 PowerBI 말씀하셨음..)
Power BI의 경우, 마이크로 소프트 사에서 만든 툴로 매우 다양한 형태의 시각화 도구들을 제공합니다. 기존의 엑셀이나 파워포인트에서는 가능하지 않았던 KPI 차트와 Gap analysis 차트 등 비록 R 의 시각화 정도에는 미치지 못하지만 위 그림에서 확인할 수 있듯이 Data Studio에 비해 다양한 관점에서 데이터를 분석할 수 있게 해 주는 여러종류의 시각화 도구들을 제공합니다.
때문에 Python의 고수나 R 을 전문적으로 쓰는 프로그래머가 아닌 경우에도 Power BI를 사용해서 이들이 만들어 내는 시각화 자료들과 거의 유사한 형태로 만들어 낼 수 있습니다. 전문적인 프로그램 지식없이 이러한 시각화가 가능하다는 점에서 많은 데이터 소비자들의 주목을 받고 있는 상황입니다.
더욱이 데이터 소스의 연결에 있어서 MS Power BI는 Data Studio와 다르게 거의 모든 형태의 데이터를 연결할 수 있다는 장점이 있습니다. 물론 구조화 되지 않은 데이터는 불러온 후 편집을 해야하겠지만 일단 이러한 Raw Data 를 불러와서 시각화 할 수 있다는 자체만으로도 Power BI의 효용은 엄청나게 높다고 할 수 있습니다. 여기에 더해 대다수의 회사에서 사용하는 MS Office 와의 완전한 호완성은 다른 BI 프로그램이 갖지 못한 큰 장점입니다.
저는 아마도 이 중에서도 간단한 시각화와 예측을 사용해볼 것 같습니다.
Power BI의 경우, 마이크로 소프트 사에서 만든 툴로 매우 다양한 형태의 시각화 도구들을 제공합니다. 기존의 엑셀이나 파워포인트에서는 가능하지 않았던 KPI 차트와 Gap analysis 차트 등 비록 R 의 시각화 정도에는 미치지 못하지만 위 그림에서 확인할 수 있듯이 Data Studio에 비해 다양한 관점에서 데이터를 분석할 수 있게 해 주는 여러종류의 시각화 도구들을 제공합니다.
때문에 Python의 고수나 R 을 전문적으로 쓰는 프로그래머가 아닌 경우에도 Power BI를 사용해서 이들이 만들어 내는 시각화 자료들과 거의 유사한 형태로 만들어 낼 수 있습니다. 전문적인 프로그램 지식없이 이러한 시각화가 가능하다는 점에서 많은 데이터 소비자들의 주목을 받고 있는 상황입니다.
더욱이 데이터 소스의 연결에 있어서 MS Power BI는 Data Studio와 다르게 거의 모든 형태의 데이터를 연결할 수 있다는 장점이 있습니다. 물론 구조화 되지 않은 데이터는 불러온 후 편집을 해야하겠지만 일단 이러한 Raw Data 를 불러와서 시각화 할 수 있다는 자체만으로도 Power BI의 효용은 엄청나게 높다고 할 수 있습니다. 여기에 더해 대다수의 회사에서 사용하는 MS Office 와의 완전한 호완성은 다른 BI 프로그램이 갖지 못한 큰 장점입니다.
Power BI 예제
코인의 가격을 적힌 어떤 데이터 문서(액셀 따위의) 가 있어야하는데 그 데이터를 찾아서 일일이 입력을 할 수가 없어 coinmarketcap이나 pandas와 같은곳에서 api를 따와야 했습니다.
하지만 시간이 촉박하여 API를 따오지는 못했고 액셀 파일에 길지 않은 기간을 입력해서 앞의 가격을 예측해보기로 했습니다.
교수님께서는 비트코인의 가격을 예측하라고 하셨는데 상대적으로 화폐의 단위가 사천만원이 넘어가는데다가 2천만원선부터 등락이 심해서 일일이 입력하기 힘들어 상대적으로 단위 입력이 쉬운 세자리수의 리플을 액셀파일에 입력해 리플의 가격을 예측하는 방향으로 하였습니다.
다음은 먼저 먼 과거의 데이터를 토대로 가까운 과거를 예측했을 때 그것이 어느정도 오차가 있는 지 테스트해보았습니다.
단순한 time series데이터로 가격 예측하기 위함입니다.
2020년 11월부터 12월까지의 데이터를 입력한 후, Power BI의 1월달의 리플 가격을 예측해보았습니다.
지금이 1월달이기 때문에 이 BI 툴의 예측값과 실제값을 비교할 수 있었습니다.
그 결과 두달 간 엄청나게 큰 기복이 있는 리플의 가격이었지만,
같지는 않더라도 기준값에서 엄청나게 벗어나지 않음을 알 수 있었습니다.
이 예측을 통해서 검증을 해보았을 땐 아주 뜬구름잡는 예측은 아닌 느낌이었습니다.
그 후엔 오늘(2021.01.13)까지의 데이터를입력 후 미래의 데이터를 예측해보았습니다.
이 툴의 예측에 따르면, 리플의 가격은 후에 상승세가 예상됩니다.
그랬으면 좋겠네용
우측 하단 다음의 화면에서 예측범위, 계절성(얼마나 세세하게 나눌 지?)과 신뢰구간을 설정하여 예측값과 범위를 달리 할 수 있었습니다.
머 요종도 까지
BI 툴 사용 참고 예제 링크 :
'Trading Bot( time GAN )' 카테고리의 다른 글
비트코인의 가격과 공신력있는 사람들의 연관성 (0) | 2021.02.02 |
---|---|
Trading Bot (2주차) - 퀀트란? , time GAN이란? (0) | 2021.01.18 |