4월 20일 (토) 오후 3:00

logo

  • home
  • head
  • itnews
  • product
  • mobile
  • game
  • benchmark
  • analysis
  • blog

개봉 2023.11.22. / 등급: 12세 관람가 / 장르: 드라마 / 국가: 대한민국 감독 : 김성수 출연 : 황정민, 정우...
노량: 죽음의 바다 / 개봉 2023.12. / 장르: 액션, 드라마 / 국가: 대한민국 감독 : 김한민 출연 : 김윤석, ...

엑셀보다 쉬운 SAS 엔터프라이즈 가이드

기초통계분석 실전 튜토리얼: SAS EG 시작하기



연재를 시작하며

데이터 분석은 어느덧 기업 경영의 필수요소로 자리 잡고 있다. 경험과 직관에 의지했던 비즈니스 의사결정이 데이터 분석 기반 으로 변화하면서 분석에 대한 요구는 많아지고 있다. 하지만 실제 분석환경은 녹록치 않고, 여전히 분석은 어렵고 복잡하게만 느껴 진다. 실제로 기업 내부 데이터들은 다양한 형태로 존재하고, 분 석가도 부족하며, 기업 환경에 적합한 분석도구조차 부족한 현실 이다.

이번 강좌에서는‘SAS 엔터프라이즈 가이드(SAS Enterprise Guide)’를 이용해 엑셀과 텍스트 등 다양한 형태의 내부 데이터를 쉽고 빠르게 가져와 SAS 데이터셋에서 데이터를 핸들링하고, 통 계분석 및 리포트 작업을 위저드 기반으로 간편하게 분석하는 방 법을 보여주고자 한다. 그리고 동일한 데이터를 시각화 도구인 ‘SAS 비주얼 애널리틱스(SAS Visual Analytics)’를 활용한 시각 적분석을통해새로운인사이트를찾아보고자한다.



분석 데이터 소개

이번 연재에서 분석에 사용할 데이터는‘Insight Toy’라는 가 상 장난감 회사의 재무, 제품, 채널에 관련된 가상 데이터다. 데이 터는 엑셀과 텍스트 형태가 있는데, 엑셀 파일에는 ‘TOY_PROD(EU)’와‘TOY_PROD(NA)’2개 시트가 있으며 매출 정보, 제품정보, 지역정보를 포함하고 있다. 두 번째 소스 데이터 인 텍스트 파일‘TOY_SALES’는 장난감 영업 관련 데이터로, 영 업대표 정보, 지역별 위도·경도 정보, 제조시설 정보 등을 포함 하고있다.



분석 시나리오 개요

앞서 소개한 엑셀과 텍스트 데이터를 기반으로 다양한 분석을 해보기에 앞서, 분석 시나리오를 간단히 살펴보자. 이 시나리오는 조금뒤부터상세히소개할분석프로세스와도동일하다.

1) 라이브러리 할당하기
SAS에서 분석을 하기 위해서는 라이브러리 설정이 필수다. 라 이브러리란 SAS에서 데이터를 가져오거나 생성한 데이터를 저장 하기 위해 일종의 경로(path)를 지정해주는 별칭(alias)이다. 임시 라이브러리와 영구 라이브러리의 두 가지가 있으며, 임시 라이브 러리는 현재 사용 중인 프로젝트 내에서만 임시적으로 사용되므 로 프로젝트를 나가게 되면 사라지는 휘발성 라이브러리다. 때문 에모든 분석작업 시SAS 데이터셋저장이필요하다면영구라이 브러리를지정해이용하는것이효율적이다.

11.jpg




2) 데이터 가져오기
라이브러리를 할당한 다음에는 엑셀, 텍스트 등 다양한 형태의 데이터를클릭또는드래그해서가져온다.

3) 질의 빌더
앞서 언급한 것처럼 사용할 소스 데이터가 엑셀과 텍스트 형태 이므로, 각각의데이터를 SAS로 가져온 후 복수 개의 SAS 데이터 를 하나의 테이블로 생성하는 작업이 필요하다. 이때‘질의 빌더’ 기능을이용해하나의마스터테이블을만든다.

분석을 하다보면 기존에 갖고 있던 정보만을 사용해 분석하기 보다는 기존의 정보를 이용해 새로운 정보를 만들어야 할 필요도 있다. 예를 들어, 생년월일을 이용해 나이를 산출하거나 나이를 이용해 연령대를 산출하는 등이다. 따라서 이 같은 파생변수를 생 성해보는작업도함께소개할계획이다.

4) 요약 통계량
분석을 위한 하나의 테이블 즉, 추가적인 파생변수가 생성되면 분석하고자 하는 다양한 뷰로 분석을 하게 된다. 가장 기본적인 데이터 내 변수들의 빈도나 분포를 분석하고, 숫자형 변수에 대한 통계량과분포도파악해본다.

22.jpg




5) 요약 테이블
변수 하나하나에 대한 분포가 어느 정도 파악된 다음에는 변수 들의 기술 통계량을 행과 열 구조의 형태로 요약해 매트릭스 형태 의 리포트를 생성할 필요도 있다. 이 작업을‘요약 테이블’이라고 한다. 이번학습에서는이요약테이블도작성해보겠다.

6) 시각적 탐색
통계량과 테이블을 이용해 분석한 다음에는 그래프를 이용한 탐색도 해볼 계획이다. 하나의 변수나 복수개의 변수를 이용해 여 러 그래프 탐색을 진행하고 결과 리포트를 공유해보겠다. 그리고 ‘SAS 비주얼 애널리틱스’를 이용해 앞에서 사용한 동일한 데이터 를다양한시각화형태로탐색해보고리포트를생성해본다.



라이브러리 할당하기

서두에서 언급했듯 분석에 사용할 데이터는 가상 장난감 회사 ‘Insight Toy’사의 재무, 제품, 채널 등에 관련된 데이터다. 가져 올 데이터 즉, 소스 데이터는 엑셀과 텍스트 형태로 나뉘어있다. 따라서 각기 다른 형태의 소스 데이터를 가져와 파생변수를 만들 고분석해보겠다.



메뉴 이용해 라이브러리 설정하기

‘SAS 엔터프라이즈 가이드’에서 분석 작업을 수행하기 전에 먼저 데이터를 저장해야 한다. 그리고 데이터를 저장하기 위해서 는 라이브러리를 설정해야 한다. 두 가지 방식(메뉴, 프로그램)으 로 라이브러리를 설정할 수 있는데, 여기서는 메뉴 방식으로 라이 브러리를설정해보겠다.

‘도구’에서‘프로젝트 라이브러리 할당’을 클릭하면 현재 연결 돼있는 서버에서 라이브러리를 설정할 수 있다. 설정하려는 라이 브러리명을 입력하고 경로를 지정한 다음, ‘라이브러리 테스트’ 버튼을클릭해잘실행될수있는형태인지검증한후,‘ 마침’버 튼을눌러라이브러리를생성한다.

33.jpg




실행이 완료되면 로그에서 라 이브러리가 할당된 것을 확인할 수있고,‘ 코드’에서생성된코드를볼수있다.



코드 수정해 라이브러리 설정하기

한편, 생성된 코드를 일부 수정하기 위해서는‘코드’화면에서 엔터를치고,‘ 이코드는읽기전용입니다. 수정가능한사본을생 성하시겠습니까?’라는 팝업창에서‘예’를 선택해 사본을 생성(코 드를복사해수정) 한다.

44.jpg




새로운 라이브러리 구문만을 선택한 후 F3을 누르면 선택된 문 장만 실행돼 새로운 라이브러리‘ex_data1’가 생성된 것을 확인할 수 있다. F4를 누르면 다시 작업공간으로 돌아간다. 이것으로 라 이브러리가설정됐다.



55.jpg




데이터 가져오기

앞에서도 언급했듯 우리가 분석할 데이터는‘toy_prod’라는 엑 셀 데이터셋이다. 엑셀에는 EU와 NA 지역의 데이터가 각기 다른 시트로 존재한다. 이번 분석에서는 이 두 개의 데이터와 ‘toy_sales’라는텍스트데이터를사용한다.



엑셀 데이터 가져오기

라이브러리를 설정했다면 이제 사용할 데이터를 SAS 데이터셋 으로가져와야한다.‘ 파일-열기-데이터’를선택하거나‘데이터 가져오기’로 바로 가져올 수 있다. 또 실제 데이터를 드래그해서 가져올 수도 있다.

아래는 세 가지 방식 중 하나를 선택해 엑셀 데 이터를 엑셀 데이 터이며, SAS 데이터셋으로 저장할 데이터의 라이브러리와 데이 터셋이름을지정해줘야한다.

66.jpg




이름을 지정하기 위해서는‘찾아보기’를 클릭해 앞에서 설정한 라이브러리를 선택, 라이브러리에 실제 저장될 이름으로 입력한 다. ‘Toy_prod’라는 엑셀에서‘EX_DATA’라는 라이브러리에 ‘toy_prod_eu’라는테이블로‘다음’버튼을눌러저장해보겠다.

77.jpg




가져온 엑셀 시트에는 전에 본 것처럼 EU와 NA 두 개의 시트 가 있다. 먼저 EU 데이터를 가져와보자. 체크돼있는 것처럼‘범위 의 첫 번째 행은 필드 이름 포함’을 선택하고‘다음’버튼을 누르 면, 메타데이터를 읽어서 각 테이블명과 데이터의 형식을 가져온 다. 데이터의다양한‘형식’을쉽게변환할수도있다.

‘다음’을 누르면 데이터를 가져오는 마지막 옵션창이 나온다.

88.jpg




여기서는‘생성된SAS코드에데이터를삽입합니다’,‘ 가능한경 우 SAS/ACCESS Interface to PC Files를 이용해 데이터를 가져 옵니다’,‘ 전송오류를일으킬수있는문자를텍스트기반데이터 파일에서 제거합니다’등 옵션을 선택할 수 있다. 이번에는 옵션 을선택하지않고진행하겠다.

다음과 같이 엑셀 데이터 두 개의 시트 EU 데이터가 SAS 데이 터셋으로변환된것을확인할수있다.

99.jpg




이번에는 동일한‘Toy_prod’엑셀 데이터에서 NA 지역의 데이 터를가져와보자.‘ 데이터가져오기’를선택하고‘찾아보기’를클 릭해 데이터셋 라이브러리를 설정한다. ‘toy_prod_na’라는 이름 으로파일명을정하고,‘ 저장’버튼을눌러‘데이터저장’단계를 마치고 다음을 선택한다. 워크시트는‘NA’를 지정하고, 데이터가 처음부터 존재하기 않았기 때문에‘워크시트 내에서 특정 셀 범위 사용’을 체크한다. 체크를 하면 C3부터 O30589까지의 데이터를 가져온다는 것을 확인할 수 있다. 그리고‘범위의 첫 번째 행은 필 드이름포함’을확인하고,‘ 다음’버튼을누른다.

10.jpg




엑셀에서 가져온 데이터셋을 보면 레이블명을 모두 가져온 것 을확인할수있다.‘ 다음’버튼을눌러옵션을선택하지않고,‘ 마 침’버튼을 눌러 마친다. 가져온 NA 지역의 데이터셋을 확인할 수 있다.

111.jpg




112.jpg




이로써 엑셀 데이터를 쉽고 간편하게 두 가지 형태의 데이터셋 으로만들었다.



텍스트 데이터 가져오기

이번에는‘Toy_sales’라는 텍스트 데이터를 가져와보자. 텍스 트 데이터는 엑셀과 마찬가지로 드래그해서 데이터를 확인할 수 있다. 데이터를확인한후창을닫고,‘ 데이터가져오기’를선택해 SAS 데이터셋으로 변환한다. 데이터를 가져온 다음에는‘찾아보 기’를 클릭해 데이터를 저장할 라이브러리를 설정한다. 여기서는 텍스트파일과동일한‘toy_sales’로파일명을저장한다.

저장한파일을보면텍스트형태로된데이터를볼수있고,‘ 구 분자 필드’가 쉼표 형태로 돼있다. ‘다음’버튼을 누르면 텍스트 데이터도 메타데이터를 읽어서 데이터의 형태와 형식을 가져오게 된다. '다음'을 누르고 옵션에서 '마침'을 클릭한다.

이번 학습에서는‘SAS 엔터프라이즈 가이드’에서 분석 작업을 수행하기 전에 가장 먼저 해야 할 작업 즉, 분석 대상이 되는 엑셀 데이터와 텍스트 데이터를 SAS 데이터셋으로 저장하기 위한 라 이브러리를 설정하고, 사용할 데이터를 SAS 데이터셋으로 가져 오는 방법을 알아봤다. 이를 통해 엑셀 데이터, 텍스트 데이터 등 데이터 형태에 상관없이 그 어떤 데이터도 클릭 또는 드래그해서 쉽고 빠르게 가져올 수 있다는 것을 확인했다. 다음 학습에서는 SAS 데이터셋으로 가져온 엑셀 데이터와 텍스트 데이터를 하나 로 합하고, 분석을 위해 다양한 파생변수를 생성하는 방법을 소개 하고자한다



출처 : 컴퓨터월드 8월호

제공 : 데이터 전문가 지식포털 DBguide.net






  1. [보안공지] 이스트소프트 알집 보안 업데이트 권고

    □ 개요  o 이스트소프트社의 알집에서 원격코드 실행이 가능한 취약점 발견 [1]  o 영향 받는 버전을 사용중인 이용자는 해결방안에 따라 최신버전으로 업데이트 권고     □ 설명  o 알집의 LZH 파일 포맷 ...
    Date2018.10.17
    Read More
  2. [보안공지] 보안프로그램으로 위장한 랜섬웨어 발견

    보안프로그램으로 위장한 랜섬웨어 발견 ► MalwareHunterTeam 연구원은 SuperAntiSpyware 보안프로그램으로 위장한 Kraken Cryptor 랜섬웨어 변종을 발견 ​► 해당 보안프로그램 서버에 랜섬웨어 실행 파일...
    Date2018.10.17
    Read More
  3. QNAP NAS의 최신 OS, QTS 4.3.5 발표 및 배포 시작

    QNAP Systems는 NAS OS의 최신 버전 QTS 4.3.5 발표 및 배포 시작. 신규 버전은 SSD를 다양하게 활용하는 새로운 기능과 소프트웨어 정의형 네트워크 아키텍처를 새롭게 탑재한다. QTS 4.3.5의 SSD 엑스...
    Date2018.10.08
    Read More
  4. 다이어트는 괴로워: 얼굴살 빠지고, 허벅지 찌는 이유

    영양은 넘치고, 운동할 시간은 적다.   비만은 현대인에겐 숙명과도 같다. 때문에 다이어트는 수많은 사람들의 숙원이다.   대부분의 사람들이 실패하지만, 성공하는 사람도 간혹 있긴 하다.   그런데, 살...
    Date2018.10.06
    Read More
  5. 엔비디아 지포스 시리즈에서 AMD 라데온 프리싱크 지원

    기존까지 AMD 라데온 전용 기술로 알려졌던 '프리싱크' 기술이 엔비디아의 지포스 시리즈에 적용된 것이 확인되고 있다. 따라서 엔비디아의 지포스가 AMD 라데온의 마지막 장점까지 완전히 제거하고 ...
    Date2018.09.30
    Read More
  6. ipTIME NAS 제품 취약점 보안 업데이트 권고

     개요  o EFM-Networks社는 ipTIME NAS 제품의 취약점을 해결한 보안 업데이트 발표 [1]  o 낮은 버전을 사용 중인 시스템은 악성코드 감염에 취약할 수 있으므로, 최신 버전으로 업데이트 권고   □ 설명  ...
    Date2018.09.15
    Read More
  7. GPU 병렬 프로그래밍 CUDA의 모든 것

    Martin Heller | InfoWorld CUDA와 GPU의 병렬 처리 능력을 활용하면 딥러닝을 포함한 컴퓨팅 집약적 애플리케이션을 가속화할 수 있다. CUDA 는 엔비디아가 자체 GPU에서의 일반 컴퓨팅을 위해 개발한 ...
    Date2018.09.08
    Read More
  8. HP 복합기 원격코드실행 취약점 보안 업데이트 권고

    □ 개요  o HP社의 잉크 프린터에서 발생하는 원격코드실행 취약점을 해결한 보안 업데이트 발표[1]  o 취약한 버전을 사용 중인 서버의 담당자는 해결방안에 따라 최신 버전으로 업데이트 권고   □ 설명  o...
    Date2018.09.08
    Read More
  9. Google 어시스턴트를 스마트하게 사용하는 법을 알아보세요.

    인공지능(AI), 아직도 멀게만 느껴지시나요? Google 어시스턴트는 구글의 인공지능 기반 음성비서 기술로 생활 속에서 가장 가까이 접할 수 있는 기기인 핸드폰을 통해 인공지능을 쉽게 만나볼 수 있게 해...
    Date2018.09.08
    Read More
  10. 그림으로 이해하는 SDN의 원리와 진화하는 사용례 [한글 자막]

    소프트웨어 정의 네트워킹은 이제 고급 네트워킹이 필요한 모든 영역에 적용되는 다재다능한 기술로 진화했습니다. 애니메이션을 통해 SDN의 기본 개념과 함께 데이터센터에서 WAN과 클라우드, 보안, 사물 ...
    Date2018.08.04
    Read More
  11. [MATH] 비트코인의 암호화 원리

    국제 수학자대회가 2014년 서울에서 개최됩니다. 이를 기념해 과학향기에서는 올 한 해 동안 매월 1편씩 [MATH]라는 주제로 우리생활 속 다양한 수학을 소개하는 코너를 마련했습니다. 기초과학의 꽃이라 ...
    Date2018.08.01
    Read More
  12. 윈도우에서 USB 흔적 추적하기 (USB Device Tracking on Windows)

    앞으로 3번에 걸쳐 윈도우, 리눅스, 맥에서 USB 장치의 흔적을 추적하는 내용을 포스팅할 예정이다. 그 첫번째로 윈도우 환경에서 USB(범용 직렬 버스, Universal Serial Bus) 흔적을 살펴보자. 윈도우 ...
    Date2018.07.21
    Read More
  13. ‘드론 택시 도심 주행’ 실현 위해 필요한 것들

    지난겨울, 평창 밤하늘에 수호랑을 수놓았던 드론 쇼는 분명 감동적이었다. 하지만 당시 관객들이 간과한 게 하나 있다. 드론 스스로 하늘과 땅, 숲과 나무, 함께 비행하는 ‘동료 드론’을 알아보고 ...
    Date2018.07.21
    Read More
  14. 폭염 시작, 한반도의 여름은 더 더워지고 있다?

    장마가 끝나고 폭염이 시작됐다. 아직 7월 중순이지만 전력 사용량이 어마어마하다. 그만큼 여름은 길고 더워졌다. 언제부터인가 매년 여름마다 사상 최악의 여름이라는 수식어가 붙는 것 같다.   실제로 ...
    Date2018.07.21
    Read More
  15. 적외선 감지기를 속일 수 있는 새로운 스텔스 재료

    미국 위스콘신 매디슨 대학(University of Wisconsin-Madison)의 연구진은 적외선을 흡수함으로써 열이 나는 물체를 숨길 수 있는 새로운 물질을 개발했다. 적외선 카메라는 무인 항공기가 야간 또는 안개...
    Date2018.07.21
    Read More
  16. 개인정보를 보호하는 최소한의 기본 원칙

    여러분의 개인정보는 안녕하신가요? 이 질문에 대해 확신을 못하시는 이용자 분들이 계실 것 같고, 개인정보는 이용자 분들에게 큰 관심사이지만 동시에 까다로운 주제이기도 할 것 같습니다. 이용자 정보 ...
    Date2018.07.21
    Read More
  17. Cisco router/switch 제품군 취약점 보안 업데이트 권고

    □ 개요  o Cisco社는 자사 제품에 대해 다수의 취약점을 해결한 보안 업데이트를 공지  o 공격자는 해당 취약점을 이용하여 피해를 발생시킬 수 있어 해당 Cisco 제품을 사용하는 이용자들은 최신 버전으로...
    Date2018.07.21
    Read More
  18. 글로벌 사이버 위협 동향 보고서 (2018년 2분기)

    제 1 장. 2분기 사이버 위협 동향   1. 언론보도로 살펴본 사이버 위협 동향   2. 취약점 동향   제 2 장. 이슈포커스   1. 만화로 알아보는 이슈 : 공급망 공격   2. 현장 인터뷰 : 충남대학교 류재철 교...
    Date2018.07.21
    Read More
  19. 2018년 7월 마이크로소프트 보안 업데이트

    7월 보안 릴리스는 다음 소프트웨어에 대한 보안 업데이트로 구성되어 있습니다. Internet Explorer Microsoft Edge Microsoft Windows Microsoft Office, Microsoft Office Services 및 Web Apps ChakraC...
    Date2018.07.14
    Read More
  20. 블록체인, 진짜는 ‘암호화폐 너머’에 있다 (Block Chain)

    블록체인이라고 하면 많은 사람이 비트코인 같은 암호화폐를 떠올린다. 블록체인이 비트코인 덕에 유명해지긴 했지만 암호화폐는 블록체인 중에서도 금융(finance) 응용의 하나일 뿐, 둘의 개념이 같...
    Date2018.07.05
    Read More
  21. 시스코 라우터, 스위치 취약점 보안 업데이트 권고

    □ 개요  o Cisco社는 자사 제품에 대해 다수의 취약점을 해결한 보안 업데이트를 공지  o 공격자는 해당 취약점을 이용하여 피해를 발생시킬 수 있어 해당 Cisco 제품을 사용하는 이용자들은 최신 버전으로...
    Date2018.06.23
    Read More
  22. 구글, 온디바이스 인공지능으로 한층 더 개선된 번역 제공

    지금으로부터 약 2년 전, 우리는 구글 번역에 신경망 기계번역(NMT)을 도입하여, 온라인 번역의 정확성을 크게 향상시킨 바 있습니다. 그리고 이제 NMT 기술을 오프라인(온디바이스)으로도 사용할 수 있게 ...
    Date2018.06.23
    Read More
  23. SNK 40주년 기념 NEOGEO mini 게임기 발매

    SNK가 7월 24일부터 브랜드 40주년 기념으로 NEOGEO mini 게임기 발매 게임기는 컨트롤러와 디스플레이가 일체화 된 디자인으로 3.5인치 디스플레이와 아케이드 스틱이 탑재된다. 또한 SNK의 유명 타이...
    Date2018.06.23
    Read More
  24. 애플 macOS 10.14 Mojave 지원 대상 리스트

    애플이 최근 macOS 10.14 Mojave를 정식으로 발표하면서 macOS 10.14 Mojave의 시스템 요건이 확인됐다. macOS 10.14 Mojave의 시스템 요건은 아래와 같고, macOS 10.13 High Siera에서 지원되던 일...
    Date2018.06.13
    Read More
  25. 전 세계 스마트폰 카메라 성능 순위 (2018.06 기준)

    카메라 성능을 측정하는 https://www.dxomark.com 의 2018년 6월 7일 기준 전세계 스마트폰 카메라 성능 순위 1위는 여전히 화웨이 P20 프로가 유지하고 있는 가운데 새로이 HTC U12+가 2위로 등극했...
    Date2018.06.07
    Read More
  26. 미국과 중국 매출 상위 100개 모바일 게임 비교를 통해 분석한 중국 시장의 특수성

    게임 분야의 컨설팅업체 GameRefinery가 중국에 진출하길 희망하는 해외 모바일 게임업체를 위해 미국과 중국의 인기 모바일 게임간 특성을 비교 분석 PDF 원본 다운로드 - http://www.strabase...
    Date2018.06.02
    Read More
  27. 화석연료 고갈 이후 대안은?

    <KISTI의 과학향기> 제3154호 최근 우리 나라에서 벌어지고 있는 ‘쓰레기 대란’의 주요 대상은 플라스틱류다. 수거를 거절 당하는 스티로폼을 비롯해 음식물이나 각종 세제 용기로 쓰이는 폴리에틸렌 등...
    Date2018.06.02
    Read More
  28. DNS 하이재킹 공격기법을 사용하며 공격 국가와 기능을 확장하고 있는 Roaming Mantis

    4월 16일 카스퍼스키랩 연구진은 주로 아시아 지역의 스마트폰을 노리고 DNS(domain name system) 하이재킹 기법을 통해 유포되는 신종 악성 코드를 하나 보고했다. 이 악성 코드는 4주 동안 빠르게 진화를...
    Date2018.06.02
    Read More
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 11 ... 47 Next
/ 47