본문 바로가기

CS/Data Analysis

[1주차] 차트 만들기 및 LOD와 매개변수 실습

728x90

과제1

관심있는 도메인 데이터를 활용하여 [실습이나 멘멘에서 다룬 차트]를 1개 만들어주세요

선택사항) 필터&계산된필드 기능 시도를 추천합니다

 

1-1. 사용할 데이터

파일명 : 서울특별시_마포구_약국현황_20260102.csv

도메인 : 공공 보건 / 지역 의료 인프라 데이터

https://www.data.go.kr/data/15112289/fileData.do#

 

서울특별시 마포구_약국현황_20260102

서울특별시 마포구에 소재하고 있는 약국 목록에 대한 데이터입니다.<br/>마포구 내에 위치한 약국의 명칭, 소재지(도로명주소 및 행정동), 전화번호, 데이터기준일 등의 정보를 포함하고 있습니

www.data.go.kr

 

1-2. 태블로 실행 및 데이터 연결

 

Tebleau Desktop 실행 (필자는 Tebleau Public 을 사용함)

 

시작 화면에서 [파일] → [열기] 를 통해 csv 파일 불러오기

사진과 같이 csv 파일이 불러와진 것을 확인할 수 있다.

워크 시트로 이동해서 작업을 해야하기 때문에 주황색 시트1을 눌러서 아래의 사진처럼 화면이 뜨도록 하면 된다.

 

기본 차트를 만들어보자.

분석 목적은 아래와 같다.

1. 마포구 행정동별 약국 개수 분포 파악

2. 약국 접근성이 지역별로 어떻게 다른지 직관적으로 확인

 

1-2-1. 사용할 필드

  • 차원(Demension) : 행정동명
  • 측정값(Measure) : 약국 수 (COUNT)

 

1-2-2. 차트 생성

열에는 명칭을 COUNT로 넣고, 행에는 소재지를 넣으면 아래와 같이 그래프가 생성된다.

(명칭을 COUNT로 넣는다는 것은 열위에 올라와있는 명칭을 우클릭하여 '측정값'을 카운트로 변경하는 것)

 

그러나, 소재지의 전체 주소가 나와있기 때문에 우리는 명칭의 카운트가 모두 1인 것을 확인할 수 있다.

이렇게 되면 시각화의 의미가 없다.

이를 고쳐보자.

 

계산된 필드를 생성하는 방법으로 우리는 위의 문제를 해결할 수 있겠다.

 

1. 계산된 필드 생성

  • 이름 : 행정동(추출)

테이블에서 오른쪽 버튼을 누르면 최상단에 계산된 필드 만들기... 가 보일 것이다.

클릭해보자.

 

2. 계산식 생성

  • 계산식
REGEXP_EXTRACT([소재지], '([가-힣]+동)')

 

위의 계산식을 이름과 함께 아래처럼 입력 후 확인 버튼을 누르자.

 

행에 생성된 행정동(추출)을 Drag&Drop 을 해준다.

열에는 COUNT(명칭)을 Drag&Drop 을 해준다.

아래와 같이 나오면 성공이다.

 

 

과제2

[LOD 계산식 또는 매개변수]를 1개 이상 만들고 어떤 목적으로 활용했는지 설명해주세요

 

 

 

LOD에 대해 알아보자.

LOD란 Level of Detail의 약자로 태블로 내에서 디테일의 레벨을 의미한다.

 

LOD를 사용하는 이유는 아래와 같다.

일반 COUNT는 필터에 따라 값이 바뀌고,

LOD는 행정동을 기준으로 값을 고정해야하기 때문이다.

 

2-1. LOD 계산식 만들기

  • 이름 : 행정동별 약국 수 (LOD)
  • 계산식
{ FIXED [행정동(추출)] : COUNT([명칭]) }

 

위와 같이 계산식을 세운 이유는 행정동을 기준으로 약국 개수를 고정 계산하기 위함이다.

 

시트1을 남겨두고 싶으면 시트2를 새로 생성해서 만들면 된다.

위에서 했던 것과 같이 계산된 필드 만들기... 를 선택 후 이름과 계산식을 만들어주자.

 

 

 

2-2. LOD 그래프 구성

행 : 행정동(추출)

열 : 행정동별 약국 수 (LOD)

 

그러면 이런 그래프가 생성된다.

 

여기서 의문점이 들 것이다.

근데 왜 LOD를 사용했을 때와 사용하지 않았을 때의 그래프가 똑같아요?

LOD는 시각적으로 보여지는 겉모습이 아니라 "조건이 바뀔 때의 안정성"을 위해 사용하는 것이기 때문이다.

 

현재 데이터 파일에서는 소재지와 명칭 등 정적인 데이터만 존재하는데
만약 개업일자나 영업상태 = 정상, 휴업, 폐업 등의 필터가 들어가게 되면 그 때 LOD의 진가가 발휘된다.

 

이번 과제에서 사용된 LOD 계산식은 일반 집계(COUNT)와 동일하게 나타낼 수 있으나,

필터 조건이 변경되더라도 행정동 기준의 집계 값을 안정적으로 유지하기 위해 사용하였음을 밝힌다.

 

 

LOD가 아닌 매개변수를 활용해보자.

매개변수를 통하여 "약국 많은 동"을 강조해보자.

 

2-2-1. 매개변수 만들기

이름 : 약국 수 기준

데이터 유형 : 정수

허용 값 : 범위

최소값 : 1

최대값 : 50

현재값 : 10

 

위의 조건으로 매개변수를 생성해보자.

시트3을 새로 만들어주고, 아래와 같이 작업해주면 되겠다.

 

좌측 하단에 매개변수가 생성된 것을 확인할 수 있다.

 

2-2-2. 매개변수 기반 계산 필드 생성

  • 계산된 필드 이름 : 약국 밀집 여부
  • 계산식
IF [행정동별 약국 수 (LOD)] >= [약국 수 기준]
THEN "약국 밀집 지역"
ELSE "일반 지역"
END

 

2-2-3. 그래프에 적용

행 : 행정동(추출)

열 : 행정동별 약국 수 (LOD)

 

위에서 생성한 약국 밀집 여부는

색상에 Drag&Drop을 해주면 된다.

 

결과를 확인해보자.

 

과제2에 대한 추가 설명을 해보자면..

 

마포구의 약국 현황 데이터를 활용하여 행정동별 약국 분포를 시각화하였다.

주소 데이터를 가공하여 행정동 단위로 재구성하였으며, FIXED LOD 계산식을 사용하여

필터 조건과 무관하게 행정도별 약국 개수를 고정적으로 산출될 수 있게 하였다.

추가로 매개변수를 활용하여 약국 수 기준을 사용자가 직접 조정할 수 있도록 설계함으로써,

약국 밀집 지역을 다양한 기준에서 동적으로 비교 및 분석 하였다.

728x90