2. 데이터 분석 . 가공 하기

데이터 분석 . 가공

■ 학습목표

▲ 수집된 데이터의 특성을 파악할 수 있다.

▲ 데이터 분석에 적합한 분석 기법을 활용할 수 있다.

▲ 수집된 데이터를 활용 목적에 따라 분석할 수 있다.

■ 필요 지식

▲ 데이터 분석

1. 데이터 분석 작업의 단계

(1) 각 변수의 분포 파악

데이터의 수집 과정을 거쳐 정리된 데이터는 우선 각 변수에 대한 분포가 어떠한지 파악하게된다. 이때에빈도분석이나기술통계분석이각변수에대한분포를파악 하는 데 적절하게 쓰이고 있다.

(2) 데이터의 타당성 및 신뢰성 검토

설문지 조사에서는 조사 항목에 대한 개념을 5점 척도 내지 7점 척도 등으로 작성하 여 그 항목별 문항들의 합을 개념의 측정값으로 사용한다. 이러한 개념의 측정값이 설 문 조사 항목별로 타당한 것인지 알아보는 요인 분석과, 응답자들의 응답이 신뢰 있는 지를 알아보는 신뢰도 분석을 실시한다.

(3) 통계 분석 기법의 선정

수집한 데이터의 타당성과 신뢰성을 확인한 후, 데이터 조사 분석 목적에 적절한 통계 분석 기법을 선정하여 사용한다. 통계 분석 기법은 매우 다양하기 때문에 조사 목적에 가장 적합한 기법을 선정하기 위해서는 다음과 같은 사항을 고려하도록 한다.

(가) 몇 개의 변수를 동시에 분석할 것인가?

(나) 변수의 측정 척도는 무엇인가?

(다) 분석 목적은 무엇인가?

2. 기술 통계 분석

기술 통계는 표본의 분석 결과를 토대로 표본의 특성을 설명하는 것이다. 대부분의 데이 터 조사에 있어서 조사자는 분석에 필요한 데이터를 수집할 때는 전수 조사가 매우 어렵 기 때문에 전수 조사 대신에 일정 부분의 표본을 추출하여 조사를 실시하고 그 결과의 분 석을 진행한다.

기술 통계에서 가장 많이 사용되는 분석 방법은 빈도 분석 방법이다. 빈도 분석 방법은 변수가 가지고 있는 전체적인 특성을 파악할 수 있는데, 여기에서 사용되는 척도는 명목 척도, 서열척도, 등간척도, 비율척도등이있다. 또한빈도분석에서는표본에대한백 분위 수, 평균, 중위수, 최빈값, 합계, 표준 편차, 분산, 최솟값, 최댓값, 범위, 평균의 표준 오차, 왜도, 첨도등도확인할수있다. 그리고, 표본의구성을막대도표, 원도표, 히스 토그램 형태로 나타낼 수 있다.

(1) 대푯값

주어진 데이터를 대표하는 특정 값을 그 데이터의 대푯값이라고 하며, 데이터의 중심 적인 경향이나 데이터 분포의 중심의 위치를 나타낸다. 일반적으로 사용되는 대푯값에 는 평균(mean), 중위수(median), 최빈수(mode) 등이 있다. 산술 평균은 데이터의 측정 값을모두합한값에전체의데이터수로나눈값을말한다. 일반적으로우리가사용 하는 평균이 산술 평균이다. 중위수는 중앙값이라고도 하며, 데이터를 크기순으로 나 열했을 때 한가운데에 위치하는 데이터 값을 말한다. 그리고 데이터 중 빈도수가 가장 높은 데이터 값은 최빈수라고 한다.

(2) 산포도

산포도란 대푯값을 중심으로 데이터들이 흩어져 있는 정도를 의미한다. 산포도의 수치 가 작을수록 데이터들이 대푯값에 밀집되어 있고, 클수록 데이터들이 대푯값을 중심으 로 멀리 흩어져 있다.

산포도는 데이터의 분포에 대한 데이터를 제공해 주는데 데이터의 평균이 같다고 하 더라도 산포도에 따라 데이터의 내용이나 성질이 달라질 수 있다. 따라서 여러 데이터 들의 특성을 서로 비교하기 위한 평균 이외에도 데이터들이 평균으로부터 얼마만큼 흩어져서 분포하고 있는지도 비교해 볼 필요가 있다.

평균과 특정 데이터값의 차이를 편차라고 한다. 각각의 편차들은 평균값의 양 쪽에 분 포하고있으며, 양수혹은음수값을갖고있고, 이편차들을모두합하면항상0이된 다. 이러한 각각의 편차를 제곱하여 산술 평균한 것이 분산이며, 분산에 제곱근을 씌 어 값을 구한 것이 표준 편차이다. 표준 편차는 산포도를 나타내는 대표적인 지표이다.

(3) 비(ratio)와 비율(proportion)

비(ratio)는 두 개 숫자의 상대적 크기를 비교한 것이다. 즉, 분자와 분모가 서로 독립적인 관계로 서로 다른 범주일 때 사용된다. 비율(proportion)은 분모에 분자가 포함된 비의특수한형태이다. 전체학생들중남자학생의비율등이그예이다.

(4) 퍼센트(%)와 퍼센트포인트(%p)

퍼센트와 퍼센트포인트는 각종의 신문이나 방송 등에서 통계를 활용한 각종 수치 변화 를 제공할 때 자주 사용된다. 퍼센트는 백분비라고도 하며, 전체의 수량을 100으로 하고, 특정의 해당 수량이 그 중 몇이 되는가를 가리키는 수로 나타낸다. 퍼센트포인트는 이러 한 퍼센트 간의 차이를 나타낸 것이다. 예를 들어, 취업률이 작년 3%에서 올해 4.5%로 상승하였다면 이러한 변화는 다음의 두 가지 방법으로 표현할 수 있다. “취업률이 작년 에 비해 50% 상승했다” 혹은 “취업률이 작년에 비해 1.5%포인트 상승했다”

▲ 데이터 분석 및 가공을 위한 소프트웨어

1. 데이터 분석을 위한 소프트웨어

데이터를 분석하고 처리할 때 활용되는 응용 소프트웨어로는 스프레드시트, 데이터베이스, 통계 패키지 프로그램 등이 있다.

(1) 스프레드시트

스프레드시트(spread sheet)는 문서를 작성하고 편집하는 기능 외에 수치와 공식을 입 력하여그값을자동으로계산해내고, 계산결과를다양한형태의차트로표시할수 있는 기능을 가지고 있다. 스프레드시트의 구성 단위는 셀, 열, 행, 영역 등이 있는데, 가로 행과 세로 열이 교차하면서 셀이라는 공간이 구성되며, 이 셀은 데이터를 저장하 는 최소 단위가 된다. 스프레드시트로 작성된 파일들을 서로 연결시킬 수도 있다.

(2) 데이터베이스

파일 시스템에서의 독립된 하나의 파일은 특정 업무를 처리하는 데 필요한 모든 데이 터를 가지고 있다. 하나의 파일도 데이터의 집합이므로 결국 데이터베이스라고도 볼 수도 있으나, 일반적으로 데이터베이스라 함은 여러 개의 서로 연관된 파일을 의미한 다. 이런여러개의파일이서로연관되어있으므로사용자는여러개의파일에있는 데이터를한번에검색해볼수있다. 데이터베이스관리시스템은데이터와파일, 그 들의 관계 등을 생성, 유지하여 검색할 수 있게 해 주는 소프트웨어이다.

(3) 통계 패키지 프로그램

사회 조사에 있어서 조사 연구의 목적에 따라 데이터의 여러 가지 값을 나타내어 집 단적인 성질을 연구하기 위해서 데이터를 가공하는 것을 통계 처리라고 한다. 일반적 으로 통계적 처리 방법은 그 종류가 제한되어 있으므로 이를 사전에 컴퓨터 프로그램 전문가에 의해 응용 프로그램으로 구현한 것을 통계 처리 프로그램이라고 하는데, 특 정의 컴퓨터 언어를 공부하지 않더라도 누구나 쉽게 사용할 수 있도록 하는 소프트웨 어이다.

2. 데이터 정리를 위한 소프트웨어

분석된 데이터를 정리하거나 보고서로 작성할 때 활용되는 응용 소프트웨어로는 워드 프 로세서, 스프레드시트, 프레젠테이션 등이 있다.

(1) 워드 프로세서

여러 종류의 문서를 작성하고 편집하여 저장하거나 인쇄할 수 있는 프로그램을 워드 프로세서라고 한다. 워드 프로세서를 이용하여 글을 쓰거나 문서를 작성하면, 키보드 나 터치 패드로 입력한 문서의 내용을 모니터를 통해 확인하면서 쉽게 문서를 수정할 수 있고, 문서가 완벽하게 작성된 후에 인쇄하거나 보조 기억 장치에 보관하여 두었다 가필요할때다시불러내어사용할수있다. 워드프로세서는글이나그림을입력하 여 편집하고, 작업한 문서를 저장하고 인쇄할 수 있다.

(2) 프레젠테이션

프레젠테이션(presentation)은 컴퓨터나 멀티미디어를 이용하여 그 속에 담긴 각종 데 이터를 사용자 또는 대상자에게 전달하는 행위를 의미한다. 프레젠테이션 프로그램은 보고, 회의, 상담, 교육 등에서 데이터를 전달하는 데 널리 활용 되는데, 파워포인트, 프레지 등이 있다.