빅데이터 시대의 데이터마이닝
페이지 정보
작성자 최고관리자 작성일21-02-03 11:51 조회2,883회 댓글0건관련링크
본문
도서명 | : | 빅데이터 시대의 데이터마이닝 |
저자 | : | 지원철 |
발행일 | : | 2017년 4월 25일 |
판형 | : | 4×6배판 |
제본 | : | 반양장 |
페이지 | : | 592 |
정가 | : | 29,000원 |
ISBN | : | 979-11-86378-20-5 |
소개 >>
데이터마이닝이란 분야가 등장한지도 20년이 넘었다. 1995년 통계학, 데이터베이스, 인공지능/기계학습의 학자들이 모여 KDD(Knowledge Discovery and Data Mining)이라는 학회를 시작한 후, 비즈니스 인텔리전스, 비즈니스 애널리틱스, 빅데이터, 데이터 과학 등의 많은 관련 용어들이 등장하였고 일부는 관심 밖으로 사라지기도 하였다. 이는 모두 사실기반의 신속 정확한 의사결정이 기업의 경쟁력을 결정하기 때문이다. 적절한 데이터를 수집 축적하고 계속적인 분석 작업을 통해 숨겨진 패턴이나 지식을 찾아내서 경영환경의 변화를 감지하고 적절한 대처 방안을 마련하는 것이 필수적인 시대에 살고 있기 때문이다.
글로벌화된 비즈니스 환경 하에서 SNS의 보편화와 IOT의 등장은 빅데이터 분석의 중요성을 계속 강조할 것이며 더 많은 데이터를 수집하고 더 정교한 분석 방법을 동원하여 비즈니스 의사결정에 필요한 지식을 획득하려는 요구는 앞으로도 계속 커질 것이다. 하지만 이러한 요구에 효과적으로 대처하기 위해서는 데이터마이너 또는 데이터 과학자의 역할만 강조해서는 부족하다. 최근 해외에서 시티즌 데이터 과학자 또는 아마추어 애널리스트라는 표현이 자주 등장하고 있는데, 저자는 데이터마이닝 프로세스 상에서 분석가와 현업 담당자 사이의 원활한 의사소통과 긴밀한 협업이 데이터마이닝 프로젝트의 성패를 결정하기 때문이라고 생각한다. 다시 말해 현업 담당자들도 데이터마이닝 프로세스와 분석기법들에 대한 충분한 이해를 갖고 있어야 한다는 것이다.
데이터마이닝 작업 과정에서 R, Python, SAS 등과 같은 분석도구의 필요성은 말할 필요가 없지만 분석기법들에 대한 정확한 이해가 선행되어야함을 강조한다. 결국 문제해결은 분석도구가 하는 것이 아니라 데이터마이너 또는 데이터과학자가 하는 것이기 때문이다. 이를 위해 필요한 경우 수식들이 등장하지만 먼저 개념을 가능한 도표를 이용하여 설명하고 예제를 제공하기 때문에 독자에 따라서는 수식을 건너뛰어도 문제가 없도록 노력하였다. 수많은 분석기법들 중에서 주어진 문제에 적절한 분석기법을 선정하여 원하는 수준의 문제해결을 달성하려면 각 분석기법의 기본 개념 및 장단점을 잘 파악하고 있어야 함을 잊지 말아야 한다.
이 책에서는 R을 기본 분석도구로 사용하지만 Excel도 많이 활용하였다. 실제로 데이터마이닝 작업을 해보면 사전분석과 보고서 작성에 스프레드시트 즉 Excel의 활용도가 높음에 놀랄 것이다. 특히 몇몇 알고리즘의 설명은 엑셀을 이용하여 계산 과정을 보였는데 직접 따라 해보면 해당 알고리즘에 대한 이해도가 훨씬 높아질 것이다.
2장과 3장에서 R 사용에 대한 기초 내용을 설명한 후 각 장의 주요 예제와 실습 예제는 R을 이용하여 데이터마이닝 과정을 설명하였다.
목차 >>
1. 서론 1
1.1. 데이터 마이닝의 정의 2
1.2. 데이터마이닝의 학문적 성격 12
1.3. 데이터마이닝 응용분야 20
1.4. 데이터마이닝 프로세스 23
1.5. 데이터마이닝의 주요 과제 28
2. 의사결정지원시스템 31
2.1. 정보시스템의 진화 32
2.2. 의사결정지원시스템의 구조 40
2.3. 모델베이스 46
2.4. 지식베이스 54
2.5. 데이터베이스 62
2.6. R 소개 71
3. 데이터 준비 77
3.1. 데이터 계층 78
3.2. 데이터 속성 80
3.3. 데이터 세트 90
3.4. 데이터 준비 과정 100
3.5. 학습자료의 구성 106
3.6. R 데이터 처리 114
4. 데이터 탐색 119
4.1. 단변량 분석 121
4.2. 다변량 분석 144
4.3. 유사도 척도 157
4.4. 데이터 가시화 168
4.5. 피벗테이블 이용한 OLAP 실습 예제 172
5. 연관 규칙 175
5.1. 연관규칙의 개요 177
5.2. 빈발항목집합의 생성 185
5.3. 연관규칙의 확장 201
5.4. 실습 사례 203
6. 회귀분석 211
6.1. 회귀모형의 구조 212
6.2. 선형 회귀모형 215
6.3. 비선형 회귀모형 243
6.4. Regularized Regression : 회귀계수의 조정 255
6.5. 일반화 선형모형 : GLM 270
6.6. 실습 예제 : Boston Housing Data 282
7. 분류의 기본 개념 293
7.1. 분류작업의 개요 295
7.2. 단순한 분류 알고리즘들 298
7.3. 로지스틱 회귀분석을 이용한 분류 311
7.4. 분류모형의 성능척도 313
7.5. 분류모형의 성능평가 325
7.6. 실습 예제 : Pima Indian Diabetes 333
8. 분류 기법 339
8.1. 의사결정트리 341
8.2. 규칙기반 분류기 359
8.3. 앙상블 모형 368
8.4. 판별분석 378
8.5. 지지벡터머신 : SVM 383
8.6. 실습 예제 : Pima Indian Disbetes 407
9. 군집 분석 423
9.1. 군집분석의 개요 425
9.2. 계층적 군집분석 438
9.3. k-Means 군집분석 448
9.4. GMM 461
9.5. 군집분석 알고리즘의 추가적 설명 473
9.6. 군집의 평가척도 477
10. 신경망과 딥러닝 487
10.1. 신경망 개요 489
10.2. 신경망의 초기 모형들 500
10.3. 다계층 퍼셉트론 517
10.4. 딥 러닝 536
참고문헌 565
찾아보기 567
댓글목록
등록된 댓글이 없습니다.