4월 18일 (목) 오전 10:21

logo

  • home
  • head
  • itnews
  • product
  • mobile
  • game
  • benchmark
  • analysis
  • blog

개봉 2023.11.22. / 등급: 12세 관람가 / 장르: 드라마 / 국가: 대한민국 감독 : 김성수 출연 : 황정민, 정우...
노량: 죽음의 바다 / 개봉 2023.12. / 장르: 액션, 드라마 / 국가: 대한민국 감독 : 김한민 출연 : 김윤석, ...

엑셀보다 쉬운 SAS 엔터프라이즈 가이드

기초통계분석 실전 튜토리얼: SAS EG 시작하기



연재를 시작하며

데이터 분석은 어느덧 기업 경영의 필수요소로 자리 잡고 있다. 경험과 직관에 의지했던 비즈니스 의사결정이 데이터 분석 기반 으로 변화하면서 분석에 대한 요구는 많아지고 있다. 하지만 실제 분석환경은 녹록치 않고, 여전히 분석은 어렵고 복잡하게만 느껴 진다. 실제로 기업 내부 데이터들은 다양한 형태로 존재하고, 분 석가도 부족하며, 기업 환경에 적합한 분석도구조차 부족한 현실 이다.

이번 강좌에서는‘SAS 엔터프라이즈 가이드(SAS Enterprise Guide)’를 이용해 엑셀과 텍스트 등 다양한 형태의 내부 데이터를 쉽고 빠르게 가져와 SAS 데이터셋에서 데이터를 핸들링하고, 통 계분석 및 리포트 작업을 위저드 기반으로 간편하게 분석하는 방 법을 보여주고자 한다. 그리고 동일한 데이터를 시각화 도구인 ‘SAS 비주얼 애널리틱스(SAS Visual Analytics)’를 활용한 시각 적분석을통해새로운인사이트를찾아보고자한다.



분석 데이터 소개

이번 연재에서 분석에 사용할 데이터는‘Insight Toy’라는 가 상 장난감 회사의 재무, 제품, 채널에 관련된 가상 데이터다. 데이 터는 엑셀과 텍스트 형태가 있는데, 엑셀 파일에는 ‘TOY_PROD(EU)’와‘TOY_PROD(NA)’2개 시트가 있으며 매출 정보, 제품정보, 지역정보를 포함하고 있다. 두 번째 소스 데이터 인 텍스트 파일‘TOY_SALES’는 장난감 영업 관련 데이터로, 영 업대표 정보, 지역별 위도·경도 정보, 제조시설 정보 등을 포함 하고있다.



분석 시나리오 개요

앞서 소개한 엑셀과 텍스트 데이터를 기반으로 다양한 분석을 해보기에 앞서, 분석 시나리오를 간단히 살펴보자. 이 시나리오는 조금뒤부터상세히소개할분석프로세스와도동일하다.

1) 라이브러리 할당하기
SAS에서 분석을 하기 위해서는 라이브러리 설정이 필수다. 라 이브러리란 SAS에서 데이터를 가져오거나 생성한 데이터를 저장 하기 위해 일종의 경로(path)를 지정해주는 별칭(alias)이다. 임시 라이브러리와 영구 라이브러리의 두 가지가 있으며, 임시 라이브 러리는 현재 사용 중인 프로젝트 내에서만 임시적으로 사용되므 로 프로젝트를 나가게 되면 사라지는 휘발성 라이브러리다. 때문 에모든 분석작업 시SAS 데이터셋저장이필요하다면영구라이 브러리를지정해이용하는것이효율적이다.

11.jpg




2) 데이터 가져오기
라이브러리를 할당한 다음에는 엑셀, 텍스트 등 다양한 형태의 데이터를클릭또는드래그해서가져온다.

3) 질의 빌더
앞서 언급한 것처럼 사용할 소스 데이터가 엑셀과 텍스트 형태 이므로, 각각의데이터를 SAS로 가져온 후 복수 개의 SAS 데이터 를 하나의 테이블로 생성하는 작업이 필요하다. 이때‘질의 빌더’ 기능을이용해하나의마스터테이블을만든다.

분석을 하다보면 기존에 갖고 있던 정보만을 사용해 분석하기 보다는 기존의 정보를 이용해 새로운 정보를 만들어야 할 필요도 있다. 예를 들어, 생년월일을 이용해 나이를 산출하거나 나이를 이용해 연령대를 산출하는 등이다. 따라서 이 같은 파생변수를 생 성해보는작업도함께소개할계획이다.

4) 요약 통계량
분석을 위한 하나의 테이블 즉, 추가적인 파생변수가 생성되면 분석하고자 하는 다양한 뷰로 분석을 하게 된다. 가장 기본적인 데이터 내 변수들의 빈도나 분포를 분석하고, 숫자형 변수에 대한 통계량과분포도파악해본다.

22.jpg




5) 요약 테이블
변수 하나하나에 대한 분포가 어느 정도 파악된 다음에는 변수 들의 기술 통계량을 행과 열 구조의 형태로 요약해 매트릭스 형태 의 리포트를 생성할 필요도 있다. 이 작업을‘요약 테이블’이라고 한다. 이번학습에서는이요약테이블도작성해보겠다.

6) 시각적 탐색
통계량과 테이블을 이용해 분석한 다음에는 그래프를 이용한 탐색도 해볼 계획이다. 하나의 변수나 복수개의 변수를 이용해 여 러 그래프 탐색을 진행하고 결과 리포트를 공유해보겠다. 그리고 ‘SAS 비주얼 애널리틱스’를 이용해 앞에서 사용한 동일한 데이터 를다양한시각화형태로탐색해보고리포트를생성해본다.



라이브러리 할당하기

서두에서 언급했듯 분석에 사용할 데이터는 가상 장난감 회사 ‘Insight Toy’사의 재무, 제품, 채널 등에 관련된 데이터다. 가져 올 데이터 즉, 소스 데이터는 엑셀과 텍스트 형태로 나뉘어있다. 따라서 각기 다른 형태의 소스 데이터를 가져와 파생변수를 만들 고분석해보겠다.



메뉴 이용해 라이브러리 설정하기

‘SAS 엔터프라이즈 가이드’에서 분석 작업을 수행하기 전에 먼저 데이터를 저장해야 한다. 그리고 데이터를 저장하기 위해서 는 라이브러리를 설정해야 한다. 두 가지 방식(메뉴, 프로그램)으 로 라이브러리를 설정할 수 있는데, 여기서는 메뉴 방식으로 라이 브러리를설정해보겠다.

‘도구’에서‘프로젝트 라이브러리 할당’을 클릭하면 현재 연결 돼있는 서버에서 라이브러리를 설정할 수 있다. 설정하려는 라이 브러리명을 입력하고 경로를 지정한 다음, ‘라이브러리 테스트’ 버튼을클릭해잘실행될수있는형태인지검증한후,‘ 마침’버 튼을눌러라이브러리를생성한다.

33.jpg




실행이 완료되면 로그에서 라 이브러리가 할당된 것을 확인할 수있고,‘ 코드’에서생성된코드를볼수있다.



코드 수정해 라이브러리 설정하기

한편, 생성된 코드를 일부 수정하기 위해서는‘코드’화면에서 엔터를치고,‘ 이코드는읽기전용입니다. 수정가능한사본을생 성하시겠습니까?’라는 팝업창에서‘예’를 선택해 사본을 생성(코 드를복사해수정) 한다.

44.jpg




새로운 라이브러리 구문만을 선택한 후 F3을 누르면 선택된 문 장만 실행돼 새로운 라이브러리‘ex_data1’가 생성된 것을 확인할 수 있다. F4를 누르면 다시 작업공간으로 돌아간다. 이것으로 라 이브러리가설정됐다.



55.jpg




데이터 가져오기

앞에서도 언급했듯 우리가 분석할 데이터는‘toy_prod’라는 엑 셀 데이터셋이다. 엑셀에는 EU와 NA 지역의 데이터가 각기 다른 시트로 존재한다. 이번 분석에서는 이 두 개의 데이터와 ‘toy_sales’라는텍스트데이터를사용한다.



엑셀 데이터 가져오기

라이브러리를 설정했다면 이제 사용할 데이터를 SAS 데이터셋 으로가져와야한다.‘ 파일-열기-데이터’를선택하거나‘데이터 가져오기’로 바로 가져올 수 있다. 또 실제 데이터를 드래그해서 가져올 수도 있다.

아래는 세 가지 방식 중 하나를 선택해 엑셀 데 이터를 엑셀 데이 터이며, SAS 데이터셋으로 저장할 데이터의 라이브러리와 데이 터셋이름을지정해줘야한다.

66.jpg




이름을 지정하기 위해서는‘찾아보기’를 클릭해 앞에서 설정한 라이브러리를 선택, 라이브러리에 실제 저장될 이름으로 입력한 다. ‘Toy_prod’라는 엑셀에서‘EX_DATA’라는 라이브러리에 ‘toy_prod_eu’라는테이블로‘다음’버튼을눌러저장해보겠다.

77.jpg




가져온 엑셀 시트에는 전에 본 것처럼 EU와 NA 두 개의 시트 가 있다. 먼저 EU 데이터를 가져와보자. 체크돼있는 것처럼‘범위 의 첫 번째 행은 필드 이름 포함’을 선택하고‘다음’버튼을 누르 면, 메타데이터를 읽어서 각 테이블명과 데이터의 형식을 가져온 다. 데이터의다양한‘형식’을쉽게변환할수도있다.

‘다음’을 누르면 데이터를 가져오는 마지막 옵션창이 나온다.

88.jpg




여기서는‘생성된SAS코드에데이터를삽입합니다’,‘ 가능한경 우 SAS/ACCESS Interface to PC Files를 이용해 데이터를 가져 옵니다’,‘ 전송오류를일으킬수있는문자를텍스트기반데이터 파일에서 제거합니다’등 옵션을 선택할 수 있다. 이번에는 옵션 을선택하지않고진행하겠다.

다음과 같이 엑셀 데이터 두 개의 시트 EU 데이터가 SAS 데이 터셋으로변환된것을확인할수있다.

99.jpg




이번에는 동일한‘Toy_prod’엑셀 데이터에서 NA 지역의 데이 터를가져와보자.‘ 데이터가져오기’를선택하고‘찾아보기’를클 릭해 데이터셋 라이브러리를 설정한다. ‘toy_prod_na’라는 이름 으로파일명을정하고,‘ 저장’버튼을눌러‘데이터저장’단계를 마치고 다음을 선택한다. 워크시트는‘NA’를 지정하고, 데이터가 처음부터 존재하기 않았기 때문에‘워크시트 내에서 특정 셀 범위 사용’을 체크한다. 체크를 하면 C3부터 O30589까지의 데이터를 가져온다는 것을 확인할 수 있다. 그리고‘범위의 첫 번째 행은 필 드이름포함’을확인하고,‘ 다음’버튼을누른다.

10.jpg




엑셀에서 가져온 데이터셋을 보면 레이블명을 모두 가져온 것 을확인할수있다.‘ 다음’버튼을눌러옵션을선택하지않고,‘ 마 침’버튼을 눌러 마친다. 가져온 NA 지역의 데이터셋을 확인할 수 있다.

111.jpg




112.jpg




이로써 엑셀 데이터를 쉽고 간편하게 두 가지 형태의 데이터셋 으로만들었다.



텍스트 데이터 가져오기

이번에는‘Toy_sales’라는 텍스트 데이터를 가져와보자. 텍스 트 데이터는 엑셀과 마찬가지로 드래그해서 데이터를 확인할 수 있다. 데이터를확인한후창을닫고,‘ 데이터가져오기’를선택해 SAS 데이터셋으로 변환한다. 데이터를 가져온 다음에는‘찾아보 기’를 클릭해 데이터를 저장할 라이브러리를 설정한다. 여기서는 텍스트파일과동일한‘toy_sales’로파일명을저장한다.

저장한파일을보면텍스트형태로된데이터를볼수있고,‘ 구 분자 필드’가 쉼표 형태로 돼있다. ‘다음’버튼을 누르면 텍스트 데이터도 메타데이터를 읽어서 데이터의 형태와 형식을 가져오게 된다. '다음'을 누르고 옵션에서 '마침'을 클릭한다.

이번 학습에서는‘SAS 엔터프라이즈 가이드’에서 분석 작업을 수행하기 전에 가장 먼저 해야 할 작업 즉, 분석 대상이 되는 엑셀 데이터와 텍스트 데이터를 SAS 데이터셋으로 저장하기 위한 라 이브러리를 설정하고, 사용할 데이터를 SAS 데이터셋으로 가져 오는 방법을 알아봤다. 이를 통해 엑셀 데이터, 텍스트 데이터 등 데이터 형태에 상관없이 그 어떤 데이터도 클릭 또는 드래그해서 쉽고 빠르게 가져올 수 있다는 것을 확인했다. 다음 학습에서는 SAS 데이터셋으로 가져온 엑셀 데이터와 텍스트 데이터를 하나 로 합하고, 분석을 위해 다양한 파생변수를 생성하는 방법을 소개 하고자한다



출처 : 컴퓨터월드 8월호

제공 : 데이터 전문가 지식포털 DBguide.net






  1. 2016년 종합, 세계 각 업체별 SSD 점유율 순위

    인텔 : 3% 도시바 : 5% 킹스톤 : 16% 마이크론 : 6% 트랜센드 : 3% A-DATA : 6% 라이트온 : 2% 삼성 : 21% 에이페서 : 1% 샌디스크 : 7% 기타 : 30% - 전세계 SSD ...
    Date2017.03.22
    Read More
  2. 2017년 3월 마이크로소프트 보안 패치

    다음 표에는 이번 달의 보안 공지가 심각도 순으로 요약되어 있습니다. 영향받는 소프트웨어에 대한 자세한 내용은 영향받는 소프트웨어라는 다음 절을 참조하십시오. 공지 ID 공지 제목 및 요약 최대 ...
    Date2017.03.22
    Read More
  3. 닌텐도 스위치 컨트롤러는 윈도우10 게임 패드로 동작

    가정용 게임기 닌텐도 스위치(Nintendo Switch)의 부속 컨트롤러 Joy-Con과 옵션 컨트롤러인 Pro 컨트롤러가 윈도우 상에서 게임 패드로 동작되는 것이 확인되고 있다. 해외 정보들에 따르면 Joy-...
    Date2017.03.10
    Read More
  4. 2017년 2월 마이크로소프트 보안 패치

    이 공지 요약 목록에는 2017년 2월 발표된 보안 공지가 포함되어 있습니다. Microsoft 보안 공지가 게시될 때 자동 알림을 받는 방법은 Microsoft 기술 보안 알림을 참조하십시오. Microsoft는 월별 ...
    Date2017.03.06
    Read More
  5. 특허청, 제4차 산업혁명 이끌 지식재산 인력양성 추진

    특허청, 제4차 산업혁명 이끌 지식재산 인력양성 추진! - 2017년 국가 지식재산 교육훈련 종합계획 발표 - 특허청(청장 최동규) 국제지식재산연수원은 “2017년도 국가 지식재산 교육훈련 종합계획”을 발표...
    Date2017.02.27
    Read More
  6. SQL Server ODBC Driver 및 Command package Tool 설치

    SQL Server ODBC Driver 및 Command package Tool 설치   Version : SQL Linux, Ubuntu 16.0.4   SQL Server on Linux Preview 버전이 발표되고 설치 방법에 대해서 알아 보았다. 이번 포스트에서는 SQL...
    Date2017.02.27
    Read More
  7. SQL Server Install on Linux (Ubuntu – 16.0.4)

    SQL Server Install on Linux (Ubuntu – 16.0.4)   Version : SQL Linux, Ubuntu 16.0.4   SQL Server는 지금까지 Windows 환경에서만 운영이 가능하였다. 최근 Microsoft에서는 SQL Server Linux Previ...
    Date2017.02.27
    Read More
  8. Microsoft Azure - SQL Server가 포함된 가상 컴퓨터 생성하기

    Microsoft Azure SQL Server가 포함된 가상 컴퓨터 생성하기   Microsoft의 클라우드 컴퓨팅 서비스인 Azure에서 SQL Server가 포함된 가상 컴퓨터를 생성하고 SQL Server를 사용하는 방법에 대해서 알아...
    Date2017.02.27
    Read More
  9. VR 콘텐츠 향연장 된 Sundance 영화제

    [News] 2017년 Sundance 영화제에서는 여러 VR 영화 제작사들이 참가해 다양한 VR 영화들을 선보였다. 이전에 영화제에서 공개된 VR영화들은 짧은 데모 버전이 주를 이뤘으나, 올해 소개된 VR 영화들은 완...
    Date2017.02.21
    Read More
  10. 가상현실 만화책 앱 Madefire Comics

    미국의 디지털 만화책 스타트업 Madefire가 최근 VR 만화책 앱 ‘Madefire Comics’를 공개하며 VR 콘텐츠 시장의 새로운 기대주로 부각 보도 - 스트라베이스 / PDF 전문 다운로드 - http://www.straba...
    Date2017.02.21
    Read More
  11. Pentium에 대항한 Cyrix의 독자 개발 6x86 CPU

    이번에는 싸이릭스(Cyrix)의 "6x86" 시리즈를 소개한다. Cyrix는 1988년에 창설된 반도체 기업이며 당초에는 80387 호환 코프로세서를 제조/개발하고 있었다. 그 후 80386, 80486과 핀이 호환되...
    Date2017.02.06
    Read More
  12. VMware가 발표한 2017년 IT 10대 전망

    1. 모빌리티의 진화: 엔터프라이즈 모빌리티는 MDM(Mobile Device Management), 캘린더 제공 등의 기본 엔터프라이즈 애플리케이션 수준에서 벗어나, 창의적이고 최적화된 솔루션 제공 및 인공지능의 적극...
    Date2017.01.31
    Read More
  13. 2017년 컴퓨터 CPU 및 스마트폰 AP 성능 순위

    2017년 1월 기준 CPU / AP 성능 순위 자료입니다. (출처 - www.mydrivers.com) 컴퓨터(PC)용 CPU 성능 순위입니다. 1위 인텔 6950X부터 6900 - 6850 - 6800 - 5960 - 5930 등 플래그십부터 하...
    Date2017.01.18
    Read More
  14. 오버워치, 불량 사용자 대대적 제재 시작

    안녕하세요 오버워치 플레이어 여러분. 대다수의 선량한 플레이어들을 위해 쾌적한 게임 환경을 만들고 제공하는 것이 저희에게는 무엇보다도 중요한 일이기에, 핵 프로그램을 제작/배포/사용하는 행위에 ...
    Date2017.01.13
    Read More
  15. 2017년 1월 마이크로소프트 보안 패치

    다음 표에는 이번 달의 보안 공지가 심각도 순으로 요약되어 있습니다. 영향받는 소프트웨어에 대한 자세한 내용은 영향받는 소프트웨어라는 다음 절을 참조하십시오. 공지 ID 공지 제목 및 요약 최대 ...
    Date2017.01.13
    Read More
  16. 보는 홀로그램에서 만지고 느끼는 홀로그램으로

    보는 홀로그램에서 만지고 느끼는 홀로그램으로 - 상용화 앞당기는 국내 특허출원 활발 - 허공에 빛을 쏘아 입체 영상을 구현하는 홀로그램 기술은 SF 영화에서 자주 등장한다. 영화 ‘스타워즈’와 ‘슈퍼맨’...
    Date2017.01.02
    Read More
  17. 편리한 VR연결! GIGABYTE XTREME VR 링크 패널

    GIGABYTE Technology Co., LTD (이하 기가바이트)의 공식 공급원인 제이씨현시스템㈜ (대표: 차현배)에서는 2016년 12월 27일(화), VR장비를 PC에 손쉽게 연결할 수 있도록 해주는 GIGABYTE XTREME VR 링크...
    Date2017.01.02
    Read More
  18. 넷기어(NETGEAR) Wi-Fi 라우터 수정 펌웨어 배포

    넷기어(NETGEAR)의 Wi-Fi 라우터(공유기) 제품에 취약성이 지적된 문제에 대해 수정 펌웨어 발표. 넷기어 R6250, R6400, R6700, R6900, R7000, R7100LG, R7300DST, R7900, R8000, D6220, D64...
    Date2017.01.02
    Read More
  19. 엑셀보다 쉬운 SAS 엔터프라이즈 가이드

    엑셀보다 쉬운 SAS 엔터프라이즈 가이드 기초통계분석 실전 튜토리얼: SAS EG 시작하기 연재를 시작하며 데이터 분석은 어느덧 기업 경영의 필수요소로 자리 잡고 있다. 경험과 직관에 의지했던 비즈니...
    Date2016.12.26
    Read More
  20. 2016년 구글 인기 검색어 종합, 아가씨 / 태양의 후예 등

    2016년이 한 달도 채 남지 않았습니다. 구글은 오늘 지난 한 해를 돌아볼 수 있는 2016년 글로벌 인기 검색어 순위를 발표하며 2016년 한국 인기 검색어 순위도 함께 공개했습니다. 국내에서 화...
    Date2016.12.15
    Read More
  21. 2016년 12월 마이크로소프트 보안 패치

    다음 표에는 이번 달의 보안 공지가 심각도 순으로 요약되어 있습니다. 영향받는 소프트웨어에 대한 자세한 내용은 영향받는 소프트웨어라는 다음 절을 참조하십시오. 공지 ID 공지 제목 및 요약 최...
    Date2016.12.15
    Read More
  22. Apache Tomcat Jmx 원격코드 실행 취약점 보안 업데이트 권고

    □ 개요 o 아파치 소프트웨어 재단은 Apache Tomcat Jmx에서 발생하는 원격코드 실행 취약점에 대한 보안 업데이트를 발표[1] o 영향 받는 버전의 사용자는 최신 버전으로 업데이트 권고 □ 설명 o Jmx에서 C...
    Date2016.12.10
    Read More
  23. SNS에 업로드된 사진을 이용한 랜섬웨어 유포 급증

    개요 페이스북 사진의 SVG 이미지를 통한 랜섬웨어 유포 주요내용 페이스북에서 SVG(Scalable Vector Graphics) 파일 사용이 가능해짐에 따라 SVG 파일의 코드 속성을 악용한 랜섬웨어가 급증 - SVG 파일은...
    Date2016.12.10
    Read More
  24. 2017년, 전기차 시장의 변곡점

    News - 스트라베이스 2017년이 전기차 대중화의 원년으로 전망되고 있다. 내년을 전후로 주요 전기차 업체들이 다양한 저가형 장거리 전기차를 판매 개시하면서 전기차의 대중화를 저해하는 높은 ...
    Date2016.11.29
    Read More
  25. 서버 여러대 패스워드 일괄 변경 방법

    사내또는 전산실에 서버가 수십대 또는 수백대 일경우 ad 기반으로 돌리시는 분 계시지만  소규모로 각기 서버 가 여러대 인데 아이디가 전부 틀릴경우 서버 대수에 상관없이 Administrator 최고 관리자의...
    Date2016.11.28
    Read More
  26. [리눅스 웹서버 구축] 아파치 설치하기

    What is APACHE 웹 서버를 운영하는데 있어 HTML과 같은 정적 웹 페이지가 있는가 하면 ASP, PHP, JSP 그리고 ASP.NET 과 같은 동적 웹 페이지가 있다. APACHE는 이 중 정적 웹 페이지를 서비스 해주는 웹...
    Date2016.11.28
    Read More
  27. 리눅스 웹서버 구축하기

    설치를 하기전에 먼저 리눅스에서는 프로그램을 설치하는 방법은 크게 3가지가 있습니다. 1. RPM :Redhat Package Manager(*.rpm) 2. Source (*.tar.gz) 3. Binary(*.tar.gz) * 프로그램 설치는 root 만...
    Date2016.11.28
    Read More
  28. 네트워크 성능 관련 용어 정의 - 이용률(Utilization)

    Utilization   Utilization은 주어진 시간 동안 얼마만큼의 용량이 사용되고 있는지를 나타낸다. Utilization은 실제 트래픽의 부하와 측정 시간 간격에 따라 달라지게 된다. 이러한 Utilization의 평...
    Date2016.11.09
    Read More
Board Pagination Prev 1 ... 7 8 9 10 11 12 13 14 15 16 ... 47 Next
/ 47