데이터 분석 작업을 할 때, 데이터를 다양한 방식으로 요약하고 집계할 필요가 있습니다. 이때 pandas의 pivot_table 함수는 매우 유용한 도구입니다. pivot_table은 데이터프레임을 특정 기준에 따라 집계하여 데이터를 요약해주는 기능을 제공합니다. 이 글에서는 pivot_table을 사용해야 하는 데이터 유형과 그 사용 방법을 예시와 함께 설명하겠습니다.
1. pivot_table이 필요한 데이터 유형
pivot_table은 데이터가 중복된 항목을 포함하거나, 특정 기준에 따라 데이터를 요약해야 하는 경우에 특히 유용합니다.
예시: Raw Data Format
| Year | Product | Region | Sales |
|------|-----------|----------|-------|
| 2020 | Product_A | North | 100 |
| 2020 | Product_A | South | 120 |
| 2020 | Product_B | North | 150 |
| 2020 | Product_B | South | 130 |
| 2021 | Product_A | North | 110 |
| 2021 | Product_A | South | 140 |
| 2021 | Product_B | North | 160 |
| 2021 | Product_B | South | 150 |
위와 같은 데이터는 long format으로, 연도별, 제품별, 지역별로 세분화된 판매 데이터를 포함하고 있습니다. 이러한 데이터를 요약하여, 예를 들어 연도와 제품별로 지역별 판매량의 합계를 구하고자 할 때 pivot_table을 사용하면 매우 효율적입니다.
Product_A와 Product_B의 Region별 Sale정보에 대해서 다양한 통계정보를 확인할 수 있습니다. 평균, 총합, 최솟값, 최댓값, 표준편차값이 출력됩니다.
5. 결론
pandas.pivot_table() 함수는 데이터를 요약하고 집계하는 데 매우 강력한 도구입니다. 데이터를 특정 기준에 따라 요약해야 할 때, 특히 동일한 인덱스와 열 조합에 여러 값이 있을 때 유용합니다. 다양한 집계 함수를 지원하며, 다차원적으로 데이터를 요약할 수 있어, 데이터 분석에서 필수적인 기능입니다.