1.데이터 수집하기

1. 데이터 수집하기

■ 학습목표

▲ 부서(팀) 업무에 필요한 데이터의 종류와 생성 정보를 파악할 수 있다.

▲ 필요한 데이터의 수집을 위해 도구를 활용할 수 있다.

▲ 도구를 활용하여 데이터를 수집·저장할 수 있다.

■ 필요지식

▲ 데이터의 수집

1. 데이터 수집의 뜻

데이터 수집은 데이터를 모으는 것이다. 데이터 수집은 의사 결정 또는 문제 해결을 위해 현재 가지고 있는 데이터로는 부족하여 새로운 데이터가 필요하다는 상황을 인식하는 때 부터 시작된다. 지금 처한 상황을 해결하려면, 특정 데이터가 필요하다는 것을 알아야 데이터를 찾으려는 시도를 할 것이기 때문이다.

2. 데이터 수집의 원천

필요한 데이터를 모을 수 있는 원천을 데이터 원(sources)이라고 한다. 데이터 원은 공개 된 데이터뿐만 아니라 비공개된 데이터도 포함되며, 주위에서 발생하는 모든 것이 데이터 원이라고 할 수 있다.

이러한 데이터 원은 크게 1차 데이터와 2차 데이터로 구분할 수 있다. 1차 데이터는 원래 의 연구 성과가 기록된 데이터를 의미한다. 2차 데이터는 1차 데이터를 효과적으로 찾아 볼 수 있는 데이터 또는 1차 데이터에 포함된 데이터를 압축하고 정리하여 보기 쉬운 형 태로 제공하는 데이터를 의미한다.

- 1차 데이터 : 단행본, 학술지와 학술지의 논문, 학술 회의 자료, 연구 보고서, 학위 논문, 특허 자료, 표준 및 규격 자료, 신문, 잡지, 웹 자료 자원 등

- 2차 데이터 : 사전, 백과사전, 편람, 연감 등

3. 데이터 조사의 유형

데이터 조사는 조직에서 해결하고자 하는 문제와 관련하여 어떠한 조사 방법을 사용할지 결정하는 것인데 조사의 유형에는 탐색 조사, 기술 조사, 인과 조사 등이 있다.

(1) 탐색 조사

탐색 조사는 문제를 정의하는 것이 목적인 조사이다. 탐색 조사는 정밀한 조사를 위해 가설을 수립하기 위하여 사용되며, 이후의 조사 우선순위를 정하거나, 문제에 대한 조 사자의 기본 지식 축적 및 개념의 명확화를 위해 사용된다.

탐색 조사는 조직 내부의 관련자는 물론 조직 외부의 관련자들과 인터뷰를 하거나 잡 지, 책, 발표된 논문, 회계 데이터 등의 문헌 조사를 통해 이루어진다.

(2) 기술 조사

기술 조사는 조직 외부의 고객 내지 소비자가 생각하고 느끼고 행동하는 것을 기술하 기위한조사이다. 이형태의조사목적은다음과같다.

첫째, 어떤 집단의 특성이 무엇인지 알고자 할 때 사용된다.

둘째, 어떤집단의행동을예측하고자할때사용할수있다.

따라서 기술 조사는 막연하게 이루어지는 조사 보다는 조사의 확실한 목적과 조사에 따른 가설을 염두에 두고 실시되어야 한다. 기술조사의종류로는크게두가지가있다. 하나는종단분석이고다른하나는횡단 분석이다. 종단 분석은 일정 기간 동안 반복해서 관찰하고 분석하는 조사이다. 횡단 분석이 1회 관찰로 끝나는 것에 비해, 패널 구성원들에 대한 종단 분석은 일정 기간 동안 반복적으로 관찰된다.

횡단 분석은 분석 대상 집단에서 표본을 추출하여 특정 시점에서 측정하는 방법이다. 종단 분석이 일정 기간에 걸쳐 계속 일어나는 사건을 연속적으로 보여주는 조사인데 반해, 횡단 분석은 일정 시점에서의 한 단면을 보여준다. 모집단을 잘 나타내는 대표 성을 가지는 표본 추출을 통하여 주로 설문 방식으로 조사하는 방법이 횡단 분석의 전형적인 예이다.

(3) 인과 조사

데이터 조사자는 많은 경우에 ‘X의 원인은 Y이다’라는 인과 관계형의 가설을 세운다. 그런데 인과관계는 보기에는 간단해 보일지 모르나, 많은 경우에그 관계를 밝히는 것이 쉽지 않다. 이와 같이 인과관계를 밝히는 조사를 인과조사라고 하며, 대표적인 조사방법이 실험이다. 실험은 탐색조사나 기술조사가 할 수 없는 변수의 통제를 할 수 있기 때문에 인과관계를 밝히는데 적합하다. 실험은 알고싶은 변수이외의 다른 요인들은 그대로 두고, 알고 싶은 하나 또는 두개의 변수만을 변화 시킴으로써, 다른 변수가 어떤 영향을 받는지 측정한다. 여기서 조작하는 변수를 독립 변수라 하고, 관측 또는 측정되는 변수를 종속 변수라 부른다. 이렇게 다른 변수들을 통제함으로써 독립 변수가 종속 변수에 미치는 영향만을 추론하여 관찰할 수 있다.

4. 데이터 조사의 방법

데이터 조사의 유형이 결정되고 계획이 수립되면 정해진 절차에 따라서 데이터를 수집하여야 한다. 무엇보다 먼저 행해야 할 작업은 2차 데이터를 수집하는 작업이다. 원래의 데 이터 수집 조사 목적이 아닌 다른 목적으로 사전에 수집해 놓은 데이터를 2차 데이터라하고, 원래의 데이터 수집 조사를 목적으로 수집해야 하는 데이터를 1차 데이터라 한다. 만약 원래의 데이터 수집 목적을 달성할 수 있는 2차 데이터가 있다면 구태여 1차 데이터 를 다시 수집할 이유가 없다.

2차 데이터의 종류는 내부 2차 데이터와 외부 2차 데이터가 있는데, 내부 2차 데이터는 조사자가 속한 회사나 기관이 이미 조사해 놓은 데이터이며, 외부 2차 데이터는 다른 외 부기관이 수집해 놓은 데이터이다. 2차 데이터는 통계청과 같이 정기적으로 데이터를 수 집하여 발표하는 정부 기관이라든가, 표준화된 데이터를 수집·발표하는 사설 연구 기관 등에서수집할수있다. 2차데이터를찾을수없다든지, 찾았더라도여러가지문제로인 해 사용할 수 없는 경우에는 직접 데이터를 수집하는 수밖에 없다. 1차 데이터를 수집하 는 방법은 크게 관찰법과 서베이법이 있다. 또한 인터넷의 발달로 인터넷을 통한 1차 데 이터 수집 방법도 다양해지고 있다.

(1) 관찰법

우리는 일상생활에서 타인이나 사건을 끊임없이 관찰하면서 데이터를 얻고 있다. 이런 관찰은 과학적 탐구를 위해서도 쓰여지는데 체계적인 계획과 기록을 통해 이루어져야 한다. 관찰은관찰목적과연관되는사람들의행동또는상황등을직접관찰하여데 이터를 수집하는 방법이다. 관찰은 사람들이 제공할 수 없거나 제공하기를 꺼려하는 데이터를 얻는 데 적합한 방법이다. 하지만 관찰 대상자들의 동기, 태도, 느낌 등에 대 한 관찰이 어렵고, 기업의 입장에서는 소비자의 장기적인 행동도 관찰하기 어렵다.

(2) 서베이법

서베이법은 대상자에게 질문하여 데이터를 얻는 방법, 즉 설문지를 통해 데이터를 수 집하는 방법이다. 서베이법은 응답자의 인구 통계적 특징, 태도나 의견, 의도, 행동의 동기등광범위한데이터를수집할수있는것이큰장점이며, 많은데이터를짧은시 간에 저렴하게 수집할 수 있는 것도 장점 중 하나이다.

서베이법을 여러 가지로 분류할 수 있다. 어떻게 시행하느냐에 따라 분류한다면, 편지 로하는방법, 전화통화에의한방법, 개인면담등의방법이있다. 각각의방법은각 기 장·단점이 있기 때문에 조사자는 시간, 예산, 조사 목적, 조사자의 자질 등을 고려 하여 적합한 방법을 골라야 한다.

<표 1-4>에서 조사자의 오류 가능성이란 질문을 하는 조사자의 첫인상이나 질문 방법, 질문 태도 등에 따라 조사 대상자들의 반응이 달라질 가능성을 의미한다. 직접 응답자 를마주보는면담방법은이런면에서가장많은오류를초래할가능성이있고, 전화 통화는 음성만으로 조사가 이루어지기 때문에 면담법 보다는 이러한 오류가 적어질 수 있으며, 우편에 의한 조사는 조사자의 오류 가능이 매우 적다.

질문 순서의 오류 가능성이란 설문지를 순서대로 답하지 않음으로써 생길 수 있는 오 류를 의미한다. 우편의 경우 응답자가 충분한 시간을 가지고 자기의 페이스대로 응답 을 할 수 있으나 순서에 의해 답하지 않고 설문지의 뒷부분을 먼저 봄으로써 이것이 앞의질문의응답에영향을미칠수있다. 우편이외의방법은질문자가순서를통제 하기 때문에 이런 문제는 없다.

비용은 우편이 제일 적게 드는 것이 일반적이나, 응답률이 지나치게 낮은 경우에는 반 드시 제일 저렴하다고 할 수 없다. 수집 가능한 데이터의 양은 면담이나 우편 방법이 많은데, 이는많은질문을한꺼번에설문지에담아물어볼수있기때문이며, 이에비 해 전화 방법은 시간의 제약 등으로 인하여 질문을 많이 할 수 없기 때문에 수집할 수 있는 데이터의 양은 적은 편이다.

최근에는 컴퓨터의 도움을 받는 방식(CADAC: computer assisted data collection), 인터 넷으로 조사하는 방식 등이 널리 사용되고 있다. 전화로 조사자가 질문하면서 응답을 컴퓨터에 즉시 입력하는 방식, 혹은 조사 대상자가 응답을 직접 컴퓨터에 입력하는 방 식 등이 사용된다. 전화를 걸어 디지털 음성으로 질문을 하고 조사 대상자는 전화기의 번호를 눌러서 응답하며 바로 컴퓨터에 입력되는 방식도 자주 접할 수 있다.

인터넷을 통한 광범위한 조사도 점차 널리 사용되고 있다. 가장 단순한 형태는 e-mail 로 설문지를 파일 형태로 보내면 응답하여 다시 파일 형태로 조사자에 e-mail로 회송 하는 형식이다. 인터넷의 장점을 이용하기 위해서는 http 문서 형태로 보낼 필요가 있 다. 이 경우 응답자가 응답을 마친 다음, “보내기”나“확인”을 누르면 자동으로 전 송되고 데이터베이스로 들어가면 실시간으로 분석되어 결과를 볼 수 있다. 물론 결과 는 조사가 진행되는 동안 계속해서 바뀌게 된다.

(3) 인터넷을 통한 데이터의 수집

인터넷을통하여다양한방법으로데이터를얻을수있다. 예를들어기업의경우, 소 비자들이 어느 사이트에 들어가서 어떤 광고를 보며, 어떤 상품을 구매하는지 등 소비 자의인터넷사용행동에대한데이터를얻을수도있다. 이러한데이터역시즉시데 이터베이스로 들어가서 분석되며 분석된 결과를 즉시 확인할 수 있는 장점이 있다. 이 러한 데이터는 소비자의 실제 행동에 관한 데이터이기 때문에 활용도가 매우 높으며, 해당 소비자의 인구 통계적 데이터와 결합시켜 분석하는 경우 정확도는 더욱 높아지 게 된다.

컴퓨터 서버에는 접속해 온 사용자(인터넷 주소, 컴퓨터의 기종, 브라우저 종류 등)가 컴퓨터 서버 내에서 활동한 기록이 남는 파일이 있는데 이를 로그 파일이라고 한다. 로그파일에는파일의클릭시간을알수있고, 어떤내용을얼마동안보았는지, 클 릭하지않은파일과또는특정상품의구매내역등도데이터로남는다. 이러한내용 의 로그 파일 데이터를 클릭 스트림 데이터라고 부른다.

인터넷 기업은 클릭 스트림 데이터와 그 고객에 관한 데이터베이스 내의 데이터를 결 합하여 분석함으로써 그 고객에 맞는 차별화된 서비스를 제공하는 것이 가능해진다. 또한 그 고객이 사이트에 들어오면 그 고객의 개인적 특성과 이미 분석한 사이트 사 용 행동상의 특징을 분석하여 개별화된 화면을 그 고객에게 보여줌으로써 그 고객의 반응을 높일 수 있다. 이러한 과정을 개인화라고 한다.

우리가 사용하는 컴퓨터에는 쿠키라는 이름의 파일이 있는데 그 파일에는 그간 자신 이 인터넷을 사용했던 기록들이 담겨 있다. 사용자가 특정 사이트를 방문하는 경우 그 사이트의 서버에서는 사용자 컴퓨터 내의 쿠키 파일을 읽어들일 수 있다. 읽어들인 파 일을 실시간으로 분석하여 요청 사항에 따라 고객의 컴퓨터로 그 고객의 취향에 맞는 데이터를 제공해줄 수 있다.

최근에는 자동으로 데이터를 찾아주는 소위 로봇이 사용되기도 한다. 로봇은 agent라 고도 부르는데 찾고 싶은 데이터를 사람을 대신하여 찾아주는 역할을 한다. 가격 비교 사이트가 바로 이에 해당한다고 하겠다.

5. 인터넷 데이터 검색

인터넷 데이터 검색이란 수없이 많은 곳에 분산되어 있는 데이터 중에서 특정 목적에 적 합한 데이터만을 신속하고 정확하게 찾아내어 수집, 분류, 축적하는 과정을 뜻한다.

(1) 검색 엔진의 유형

(가) 키워드 검색 방식

키워드 검색 방식은 찾고자 하는 데이터와 관련된 핵심적인 단어를 키워드로 입력 하여 이를 검색 엔진의 키워드와 관련된 데이터를 찾는 방식이다. 사용자 입장에서 는 키워드만을 입력하여 데이터 검색을 간단하게 할 수 있지만, 불명확한 키워드를 입력할 경우 검색 결과가 너무 방대해져 효과적인 검색이 어려울 수 있다.

(나) 주제별 검색 방식

주제별 검색 방식은 인터넷에 있는 웹 문서들을 주제별 또는 계층별로 정리하여 이용하는 방식이다. 사용자는 단지 자신이 원하는 데이터를 찾을 때까지 주제가 상 위에서부터 하위까지로 분류되어 있는 내용을 선택하여 검색하면 원하는 데이터를 발견하게 된다.

(다) 통합형 검색 방식

통합형 검색 방식은 사용자가 찾고자 하는 검색 언어가 연계되어 있는 다른 검색 엔진에게 보내고, 여기에서 얻어진 검색 엔진의 결과를 사용자에게 제공하는 방식이다.

(2) 데이터 검색 연산자

하나의 단어로 검색을 실시하게 하면 검색 결과가 너무 많아지고, 의도하는 데이터와 전혀 상관없는 데이터도 많이 포함된다. 따라서 검색에 사용될 2개 이상의 단어를 연 산자로 조합하여 키워드로 사용할 수 있다. 연산자는 대/소문자의 구분이 없고, 앞뒤로 공백을 반드시 넣어 주어야 한다. 가장 공통적으로 사용하는 연산자의 종류와 검색 조 건을 비교하면 다음과 같다.

▲ 데이터 조사의 절차

1. 데이터 조사의 정의

데이터 조사는 기업의 의사 결정 및 업무 수행에 있어서 실행 가능한 데이터의 제공을 목 적으로 데이터를 체계적으로 획득하여 분석하고 해석하는 객관적인고 공식적인 과정을 말 한다.

2. 데이터 조사의 일반적 절차

데이터 조사의 일반적 절차는 5단계로 구분된다.

(1) 데이터 조사 문제의 정의

데이터 조사를 시작하기 위해서는 우선 업무 수행에 있어서 당면하고 있는 문제를 정 의하고 조사의 전반적인 방향을 설정한다. 올바른 조사 문제 설정을 위해서는 조사를 통해 해결하고자 하는 업무 상황에서의 문제와 그 문제의 발생 배경도 분석이 필요하 다. 조사문제를설정한후에는조사문제와관련한이론적고찰과조사에사용될각 종 변수들에 대한 구체적인 규명, 변수들 사이의 관련성을 나타내는 가설의 설정이 이 루어진다. 기업에서는 데이터 조사 문제의 정의를 내리기 위해 다음과 같은 일반적인 과정을 거치기도 한다.

첫째, 문제 상황을 파악한다.

둘째, 관련 문제 상황을 진단한다.

셋째, 기업의 업무 수행에 필요한 업무 의사 결정을 한다. 넷째, 데이터 조사 목적을 도출한다.

(2) 데이터 조사 계획의 수립

데이터 조사 계획 수립 시 가장 중요한 것은 조사 목적 달성에 적합한 데이터 수집 방법과 표본 설계의 절차이다. 또한, 조사 항목이나 조사 일정, 조사 예산도 명확하게 제시되어야 한다.

(가) 데이터 조사의 목적 규정

(나) 데이터 수집의 방법 설계

데이터의 수집 방법은 조사 결과가 조사 목적의 달성 여부에 큰 영향을 미치므로 전수 조사 또는 표본 조사의 방법과 범위 등에 대한 데이터의 수집 방법을 명확하 게 언급하여야 한다.

(다) 표본 설계

표본 조사를 실시할 경우에는 우선 모집단을 정의하고, 표본의 크기 및 표본 추출 방법을 명확하게 언급하도록 한다.

(라) 조사 내용 및 분석 방법

수집된 데이터를 처리하기 위해서 채택한 방법을 설명하는데, 대체적인 데이터 처 리 방법들의 장점과 문제점도 함께 언급해 주도록 한다.

(마) 일정 및 예산

업무 수행 과정에 있어서 데이터 수집에 따른 문제 해결을 도출하고 업무 의사 결 정을 하게 되면 때에 따라서는 업무 수행에 필요한 예산이 발생하기도 하며, 업무 수행에따른일정계획도수립해야할때가있다. 일정및예산이필요한경우에는 데이터 조사 단계별 소요 기간과 소요 예산을 제시해야 한다.

(3) 설문지 작성 및 데이터 수집

앞에서 수립된 조사 계획의 정확한 수행을 위해서는 이에 적합한 설문지 작성과 정확 한 데이터 수집이 이루어져야 한다. 특히 설문지 작성은 조사 데이터의 통계 처리나 분석 방법까지 결정시켜 주기 때문에 데이터 조사 과정에서는 가장 핵심적인 단계이 다. 하지만모든조사문제에적용가능한표준화된설문작성법은없기때문에조사 결과의 타당성과 객관성을 높이기 위한 적합한 설문지 작성에 노력을 기울어야 한다.

(가) 설문지 작성 시 유의 사항

1️⃣ 설문내용의범위설정: 설문지의 내용은 조사목적을 달성하기 위한 범위내에 서 이루어지도록 한다.

2️⃣ 측정될 변수, 변수의 수준, 결과물의 형태: 설문의 방법은 수집된 데이터에 적용 가능한 통계적 분석 기법과 분석 결과의 결론에 영향을 미친다. 따라서 설문지 에 포함시킬 변수에 관한 질문과 묻는 방법, 측정하고자 하는 수준, 얻고자 하는 결과물에 대해 고려하는 것이 매우 중요하다.

3️⃣ 질문의수, 질문형식, 질문순서: 데이터수집결과에대하여질문의수와질문 형식, 질문 순서등이 많은 영향을 미치기 때문에 적절한 어휘의 구사와 질문의 순서를 고려하여 응답자들의 정확한 응답을 유도해 내는 것이 중요하다.

(나) 설문지의 구성

설문지를 구성할 때에는 시나리오를 쓰는 것과 같이흐름(순서)을 잘 잡아야 한 다. 이를 위해 가능한 한 표준화된 설문지 형태대로 작성한다. 표준화된 설문지를 사용하게 되면 다수의 조사원 들을 이용하더라도 설문의 일관성을 유지할 수 있고, 여러 조사 대상자들의 응답에 대한 비교가 가능할 수 있다. 설문지는 기본적으로 응답자에 대한 협조 요청, 식별 데이터, 지시 사항, 필요한 데이터의 획득(본설문 항목), 응답자의 분류를 위한 데이터 질문 부분으로 구성된다.

1️⃣ 응답자에 대한 협조요청: 조사자나조사기관의소개, 조사의취지설명, 개인 데이터에 대한 비밀 보장 등을 안내하는 부분으로 조사의 응답률을 높이고 각각의 설문 항목에 대한 응답을 보다 쉽게 얻어내기 위해 중요하다.

2️⃣ 식별 데이터: 각 설문지를 구분하거나 추후의 확인 조사를 위해 부여하는 것으 로식별번호와응답자의이름, 주소, 조사실시한면접원이름, 면접일시등을 기록하는 부분이다.

3️⃣ 지시사항: 설문지의 항목에 대한 응답을 완성할 수 있도록 응답 항목 마다의 응답 방법이나 응답 순서 등에 대한 설명과 조사 기관이 회수 하기까지의 전 과정에 대한 상세한 지시 사항이 기술되어야 한다.

4️⃣ 필요한 데이터의 획득(본 설문 항목): 설문지 작성의 가장 중요한 부분으로 조사 목적에 필요한 대부분의 데이터가 수집되는 부분이다.

5️⃣ 응답자의 분류를 위한 데이터 질문: 응답자의 특성을 파악할 수 있는 부분으로 대부분 인구 통계적인 항목들이 차지하는데, 응답자의 개인 정보도 포함되는 만 큼 꼭 필요한 항목만을 골라 질문하여야 한다.

(4) 조사 데이터의 통계적 처리

일반적으로 회수된 설문지는 코딩(부호화) 과정을 거쳐 컴퓨터에 입력된다, 이는 다시 통계 패키지 프로그램을 이용하여 빈도 분석이나 교차 분석 등의 통계 처리가 이루어 진다. 현재까지 데이터 조사에서 이용되는 거의 대부분의 통계 분석 기법이 소프트웨 어로 개발되어 있기 때문에 조사 계획이나 설문지 작성에서 의도했던 조사 목적에 따 른 전체의 조사 결과를 집계표 형식으로 나타낼 수 있다.

(5) 데이터 분석 및 보고서 작성

데이터 분석과 그에 따른 결과 보고서를 작성하고, 이를 효과적으로 해석함으로써 기 업및기관의업무처리에활용할수있다. 이러한데이터분석결과는업무상황에 따라서 분석 결과들을 다시 정리할 뿐 아니라 유사한 결과들과 결합되어 나타나는 결 과도 함께 검토하여 사용할 수 있다.