
데이터 분석은 분야나 상황에 따라 데이터 분석의 역할 수행과 범위가 달라지기 때문에 한마디로 정의하기 어렵다.
위키피디아에서는 데이터 분석을 '유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정'으로 정의하고 있다.
데이터 분석을 배울 때 빠지지 않는 개념 중 하나가 데이터 과학(data science)이다. 대부분 데이터 분석과 데이터 과학을 동일하게 취급하지만, 두 용어를 분리해서 비교해 본다면 데이터 과학은 통계학 데이터 분석, 머신러닝, 데이터 마이닝 등을 아우르는 큰 개념이다.
아래의 표는 데이터 분석과 데이터 과학을 비교 분석한 것이다.
| 특징 | 데이터 분석 | 데이터 과학 |
| 범주 | 비교적 소규모 | 대규모 |
| 목표 | 의사 결정을 돕기 위한 통찰을 제공하는 일 | 문제 해결을 위해 최선의 솔루션을 만드는 일 |
| 주요 기술 | 컴퓨터 과학, 통계학, 시각화 등 | 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등 |
| 빅데이터 | 사용 | 사용 |
알아두어야 하는 용어 및 개념
공개 데이터 세트
기업이나 정부 등이 무료로 공개하는 데이터 세트이다. 누구나 저작권에 상관없이 다운로드하여 데이터 분석이나 제품 개발에 활용할 수 있다.
CSV 파일
콤마(,)로 구분된 텍스트 파일이다. 한 줄이 하나의 레코드이며, 레코드는 콤마로 구분된 여러 필드 혹은 열로 구성된다. 데이터가 엑셀처럼 표 형태를 가져야하기 때문에 레코드에 있는 필드 개수는 모두 동일해야 한다.
판다스(pandas)
표 형식 데이터를 위한 편리한 도구를 다양하게 제공하는 강력한 데이터 분석 패키지이다. CSV 파일이나 엑셀 파일을 읽거나 쓸 수 있으며 데이터 분석을 위한 많은 기능을 제공한다.
시리즈(series)
1차원 배열과 흡사한 판다스의 객체이다. 시리즈는 한 종류의 데이터만 포함할 수 있다.
핵심 함수와 메서드
| 함수/메서드 | 기능 |
| pandas.read_csv() | CSV 파일을 읽어 데이터프레임을 만든다. |
| DataFrame.head() | 데이터프레임에서 처음 다섯 개의 행을 반환한다. |
| DataFrame.to_csv() | 데이터프레임을 CSV 파일로 저장한다. |
이번 글에서는 데이터 분석의 기초 개념에 대해 알아보았다.
다음 시간에는 '데이터 수집'에 대해 알아보자.
'CS > Data Analysis' 카테고리의 다른 글
| JSON과 XML (0) | 2025.12.17 |
|---|