본문 바로가기
AI SCHOOL/TIL

[DAY 62] Tableau 분산형 차트, 히스토그램, 박스플롯

2023. 3. 25.

태블로를 이용해서 분산형 차트, 히스토그램, 박스플롯을 그렸다.

어떤 상황에 사용하는지, 어떻게 만드는지에 대해 익히고 매개변수를 활용한 대시보드를 만들었다.

분산형 차트

측정값 간의 관계를 확인하기 위한 시각화의 한 방식

scatter

수익과 할인율 사이의 관계를 확인하는 분산형 차트를 만들었다.
수익을 매출로 나눈 수익률 필드를 생성하고 색상 마크 지정했다.
또한 수익과 할인율의 상관관계를 나타내는 추세선을 선형으로 추가하여 음의 상관관계를 확인할 수 있다.

히스토그램

특정 구간, 범위에 값이 얼마나 분포되어 있는지 시각화

histogram

같은 배송 방법별 배송 기간의 빈도수를 표현하는 히스토그램을 그린 후,  테이블 계산 편집을 통해 구성 비율로 변경했다. 특정 배송 방법별로 n일 소요된 배송 건수가 몇 %인지 확인 가능하다.

박스플롯

측정값의 데이터 점 분포 표시이상치, 중앙값 등을 확인할 수 있다. 변수들의 분포를 비교할 때 유용하다.

boxplot1
바람직하지 않은 박스플롯

지역별로 각 제품 대분류의 수익률을 박스플롯으로 시각화한 것이다. 하지만 이는 점이 3개밖에 없으므로 박스플롯을 활용하기에 부적절하다.

good

이번에는 지역별로 각 제품의 수익률을 박스플롯으로 시각화했다. 적절한 박스플롯 활용으로 이상치의 존재를 쉽게 확인할 수 있다. 상자 안에는 데이터의 50%가 포함된다.

매개변수를 활용한 대시보드

시트를 만들어 앞서 배운 분산형 차트를 그렸다.

dash1

매개변수 "X축선택", "Y축선택"을 생성하여 측정값 2개를 선택할 수 있도록 했고 평균 라인 참조선을 추가했다.

이후 조건문과 WINDOW_AVG 함수를 사용하여 계산된 필드 "클러스터"를 만들어 고객을 클러스터링 했다.

평균 라인 참조선을 기준으로 4분할된 고객들을 확인할 수 있다. 또한 마우스 오버할 경우 도구 설명이 깔끔하게 표시되도록 설정했다.

최종 완성된 대시보드는 위와 같다. 매개변수를 변경하며 변화하는 대시보드를 확인했다.

반응형

댓글