본문 바로가기

CS/Data Analysis

[3주차] Tableau 새 유니온 & 데이터 분할 튜토리얼

728x90

이번 글에서는 서울시 미세먼지 데이터를 활용하여,

  1. 새 유니온(New Union, 와일드카드)으로 여러 기간의 데이터를 하나로 결합하고
  2. 데이터 분할(Split) 기능을 이용해 분석에 필요한 필드를 생성하는 과정을 단계별로 정리

하는 것을 목표로 한다.

 

실습 환경은 1,2주차와 마찬가지로 Tableau Desktop을 기준으로 하며 

3주차 과제(새 유니온 + 데이터 분할)의 요구사항을 반영한다.

 

0. 과제

  • 새 유니온을 사용하여 여러 데이터를 결합해보기
    (TIP : 공공데이터가 기간별로 발행되어 데이터 수집에 유리해요 !)
  • 데이터 분할 기능을 사용하여 필요한 필드 만들기
    (TIP : 주소 데이터의 경우 '분할'하기 용이해요)
    (e.g. "대한민국 서울특별시 강남구 ~ "" >> '대한민국', '서울특별시', '강남구')

1. 데이터 소개

 

1-1. 데이터 출처

 

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

 

1-2. 데이터 특징

  • 연도별로 ZIP 파일이 분리되어 제공됨 (예 : 2021, 2022, 2023, 2024)
  • 각 파일의 컬럼 구조가 동일함
  • 시간, 측정소, 미세먼지(PM10), 초미세먼지(PM2.5) 등 환경 데이터 포함

이번 글에서 다룰 새 유니온을 사용하기에 매우 적합한 구조이다.

 

2. 데이터 다운로드 및 준비

  1. 위 데이터 페이지에서 연도별 ZIP 파일을 다운로드
  2. 각 ZIP 파일을 압축 해제
  3. 모든 CSV 파일을 하나의 폴더에 모아두기

3. Tableau에서 새 유니온(New Union) 적용하기

 

3-1. 데이터 연결

  1. Tableau 실행
  2. [연결] → [텍스트 파일] 또는 [폴더] 선택
  3. CSV 파일들이 들어 있는 폴더를 지정

 ** csv 파일은 텍스트 파일이기에 '텍스트 파일'을 클릭해서 4개의 csv 파일 중 한 개를 우선 열어준다.

 

3-2. 새 유니온 생성

  1. 데이터 원본 화면 좌측 테이블 영역에서 CSV 파일 하나를 캔버스로 드래그
  2. 다른 CSV 파일을 끌어다 놓으면 [유니온] 옵션이 표시됨
  3. [새 유니온 선택]

유니온으로 변경됨

 

3-3. 와일드카드 유니온 설정

  1. 유니온 방식에서 [와일드카드 사용] 선택
  2. 패턴 예시
*대기환경*정보*.csv

 

 

 

적용을 누르고 확인을 누르면 아래와 같이 오류가 뜨게 된다.

아래 삼각형을 클릭하면 기존 테이블과 바꾸기(서울시_~~)를 눌러준다.

 

왼쪽과 같은 화면이 보이면 서울시_기간별_시간평균_대기환경_정보_2021 을 제거해준다.

 연도별 CSV 파일이 자동으로 하나의 테이블로 결합된다.

→ 여러 기간의 미세먼지 데이터가 하나의 데이터셋으로 통합된 것을 확인할 수 있다.

 

4. 데이터 분할(Split)로 필요한 필드 만들기

 

4-1. 분할 대상 필드 선택

미세먼지 데이터는 측정소명 필드가 포함되어 있다.

→ 이 필드는 하나의 문자열 안에 행정구 정보를 함께 포함하고 있기에 분할에 적합하다.

 

4-2. 데이터 분할 적용

  1. 데이터 원본 화면에서 측정소명 필드 우클릭
  2. [분할] 선택
  3. 공백(스페이스)를 기준으로 문자열 분리

 

⚠️ 아무일도 일어나지 않아요. 어디를 고쳐야하나요?

라는 질문을 던질 수 있다.

 

 당연히 아무일도 일어나지 않는게 정상이다.

측정소명이 "동작구", "마포구" 처럼 행정구 단위로 이미 정제된 상태이다.

과제에서 요구하는 것처럼 "대한민국 서울특별시 강남구" 처럼 하나의 문자열 안에 여러 의미가 섞여 있는 주소 데이터가 아니기 때문이다.

 

이번 3주차 과제였던 "데이터 분할 기능을 사용하여 필요한 필드 만들기"를 충족하기 위해서는 권역명 필드를 활용해서 분할 과정을 다시 짚어보자.

 

4-1로 다시 돌아가자.

 

4-1. 분할 대상 필드 선정 (권역명)

데이터를 살펴보면 권역명 (유니온) 이라는 필드가 존재한다.

 

값의 형태는 아래와 같다.

 

 

이 필드는 하나의 문자열이지만, 
서/남/북/동 이라는 방향 정보 + 권역 단위 가 결합된 형태로도 해석 가능하다.

이번 글에서는 이를 기준으로 문자열 분할 기능 자체를 연습해보는 것을 목표로 하자.

 

4-2. 데이터 분할 적용

  1. 데이터 원본 화면에서 권역명 (유니온) 필드 우클릭
  2. [사용자 지정 분할] 선택
  3. 분할 기준을 "권" 글자로 설정, 분할 범위 전체 선택

 

4-3. 분할 결과 확인

분할이 적용되면 Tableau는 아래와 같은 필드를 생성한다.

 

→ 해당 단계에서의 핵심 포인트는 아래와 같다.

"의미 있는 추가 분석" 은 확실히 아니다.

Tableau의 데이터 분할 기능을 실제로 적용해보고 결과를 해석하는 것이 이번 글에서의 목표이다.

 

5. 정리

이번 글에서 수행한 작업은 다음과 같다.

  • 기간별로 나뉜 공공데이터를 새 유니온(와일드카드)으로 결합
  • 문자열 필드에 대해 데이터 분할(Split) 적용

 

728x90