목차 일부
옮긴이의 글 = 6
서문 = 8
감사의 글 = 15
CHAPTER 1 소개: 데이터과학이란 무엇인가?
1.1 빅데이터와 데이터과학 열풍 = 27
1.2 열풍을 넘어서 = 29
1.3 왜 지금? = 30
1.4 현재의 풍경(약간의 역사와 함께) = 32
1.5 데이터과학 프로필 = 36
1.6 사고 실험: 메타 정의 = ...
목차 전체
옮긴이의 글 = 6
서문 = 8
감사의 글 = 15
CHAPTER 1 소개: 데이터과학이란 무엇인가?
1.1 빅데이터와 데이터과학 열풍 = 27
1.2 열풍을 넘어서 = 29
1.3 왜 지금? = 30
1.4 현재의 풍경(약간의 역사와 함께) = 32
1.5 데이터과학 프로필 = 36
1.6 사고 실험: 메타 정의 = 38
1.7 데이터과학자는 정말로 어떤 직업인가? = 40
CHAPTER 2 통계적 추론, 탐색적 데이터분석과 데이터과학 과정
2.1 빅데이터 시대의 통계적 사고 = 43
2.2 탐색적 데이터분석 = 59
2.3 데이터과학 과정 = 66
2.4 사고 실험: 여러분은 혼돈을 어떻게 시뮬레이션할 것인가? = 70
2.5 사례 연구: 리얼다이렉트 = 71
CHAPTER 3 알고리즘
3.1 기계학습 알고리즘 = 78
3.2 세 가지 기본 알고리즘 = 80
3.3 연습문제: 기본적인 기계학습 알고리즘들 = 109
3.4 전체 요약 = 115
3.5 사고 실험: 통계로봇 = 115
CHAPTER 4 스팸 필터, 나이브베이즈, 경합
4.1 사고 실험: 예제로 배우기 = 117
4.2 나이브베이즈 = 121
4.3 좀 더 멋있게: 라플라스 평활 = 127
4.4 나이브베이즈와 k-NN의 비교 = 129
4.5 코드 예시 = 129
4.6 웹스크래핑: API와 기타 도구들 = 131
4.7 제이크의 연습문제: 기사분류를 위한 나이브베이즈 = 133
CHAPTER 5 로지스틱 회귀
5.1 사고 실험 = 140
5.2 분류기 = 141
5.3 M6D 로지스틱 회귀 사례연구 = 144
5.4 Media 6 Degrees 연습문제 = 154
CHAPTER 6 시간기록과 금융 모형화
6.1 카일 티그와 티비태그 = 161
6.2 시간기록 = 164
6.3 캐시 오닐 = 170
6.4 사고 실험 = 171
6.5 금융 모형화 = 172
6.6 연습문제: 티비태그와 시간기록 사건 데이터 = 189
CHAPTER 7 데이터에서 의미 추출하기
7.1 윌리엄 커키어스키 = 191
7.2 캐글모형 = 195
7.3 사고 실험: 로봇 평가자의 윤리적 함축성은 무엇인가? = 199
7.4 특징 선택 = 201
7.5 데이비드 허페이커: 사회연구에 대한 구글의 하이브리드 접근법 = 220
CHAPTER 8 추천 엔진: 대규모 사용자 대면 데이터 상품
8.1 현실 세계의 추천 엔진 = 226
8.2 사고 실험: 필터 버블(Filter Bubble) = 239
8.3 연습문제: 추천 시스템 만들기 = 239
CHAPTER 9 데이터 시각화와 사기 탐지
9.1 데이터 시각화의 역사 = 243
9.2 다시 한 번, 데이터과학이란 무엇인가? = 246
9.3 데이터 시각화 프로젝트의 사례 = 248
9.4 마크의 데이터 시각화 프로젝트 = 251
9.5 데이터과학과 위험 = 259
9.6 스퀘어의 데이터 시각화 = 272
9.7 이언의 사고 실험 = 274
9.8 참고사항 = 274
CHAPTER 10 소셜네트워크와 데이터 저널리즘
10.1 모닝사이드 애널리틱스에서의 소셜네트워크 분석 = 278
10.2 소셜네트워크 분석 = 280
10.3 소셜네트워크의 용어들 = 280
10.4 사고 실험 = 284
10.5 모닝사이드 애널리틱스 = 285
10.6 통계적 관점으로 본 소셜네트워크 분석의 배경 = 288
10.7 데이터 저널리즘 = 294
CHAPTER 11 인과성
11.1 상관은 인과관계를 함축하지 않는다 = 298
11.2 OK 큐피트의 시도 = 301
11.3 황금 기준: 확률적 임상실험 = 303
11.4 A/B 검정 = 305
11.5 차선책: 관찰 연구 = 307
11.6 세 가지의 조언 = 313
CHAPTER 12 역학
12.1 매디건의 배경 = 315
12.2 사고 실험 = 316
12.3 현대 학술 통계학 = 317
12.4 의학 문헌과 관찰 연구 = 318
12.5 층화는 교란변수 문제를 해결하지 않는다 = 318
12.6 더 나은 방법은 없을까? = 321
12.7 연구 실험(OMOP) = 322
12.8 사고 실험을 마치며 = 327
CHAPTER 13 데이터경진대회의 교훈: 데이터 누출과 모형 평가
13.1 클로디아의 데이터과학자 프로필 = 330
13.2 데이터마이닝 경진대회 = 331
13.3 좋은 모형 개발자가 되는 방법 = 333
13.4 데이터 누출 = 333
13.5 누출을 피하는 방법 = 339
13.6 모형 평가하기 = 340
13.7 알고리즘 선택 = 345
13.8 마지막 예 = 345
13.9 사고를 나누기 = 346
CHAPTER 14 데이터공학: 맵리듀스, 프리젤, 하둡
14.1 데이비드 크로셔에 대해 = 348
14.2 사고 실험 = 349
14.3 맵리듀스 = 350
14.4 단어빈도수 문제 = 351
14.5 맵리듀스의 다른 예 = 356
14.6 프리젤 = 357
14.7 조시 윌스에 대해 = 358
14.8 사고 실험 = 358
14.9 데이터과학자가 된다는 것 = 359
14.10 경제성 살펴보기: 하둡 = 360
14.11 다시 조시에게: 워크플로 = 362
14.12 하둡을 시작하려면? = 362
CHAPTER 15 수업에 대한 학생들의 소감
15.1 과정적 사고 = 365
15.2 더 이상 순진하지 않다 = 367
15.3 도와주기 = 368
15.4 여러분의 마일리지는 다를 수 있다 = 370
15.5 다리와 터널을 잇는 길들 = 373
15.6 우리 작업의 일부 = 373
CHAPTER 16 차세대 데이터과학자, 교만, 그리고 윤리
16.1 지금까지 무엇을 학습했는가? = 375
16.2 다시 한 번, 데이터과학이란 무엇인가? = 376
16.3 차세대 데이터과학자란? = 378
16.4 윤리적인 데이터과학자 되기 = 382
16.5 경력에 관한 조언 = 386
찾아보기 = 389