빅데이터 처리
빅데이터에서 유용한 정보 및 숨어 있는 지식을 찾아내기 위한
데이터 가공 및 분석 과정 지원하는 기술
처리 기술을 위한 필요 요소
1.대규모 데이터 처리를 위한 확장성
2.데이터 생성 및 처리속도를 해결하기 위한 처리 시간 단축 및 실시간 처리 지원
3.비정형 데이터 처리 지원 등
데이터 전처리 기술
수집한 데이터를 저장소에 적재하기 위한 작업
ex) 데이터 필터링, 데이터 변환, 데이터 정제
데이터 필터링
- 오류 발견, 보정, 삭제 및 중복성 확인 등의 과정을 통해 데이터 품질을 향상 시키는 기술
데이터 변환
- 데이터 유형 변환 등 데이터 분석이 용이한 형태로 변환하는 기술
데이터 정제
- 이상치를 식별 또는 제거하고, 잡음 섞인 데이터를 교정하여 데이터의 불일치성을 교정하는 기술
- 일반적으로 데이터는 불완전하고, 잡음이 섞여있고, 일관성이 없기 때문에 데이터 정제가 필요
데이터 후처리 기술
저장된 데이터를 분석이 용이하도록 가공하는 작업
ex) 데이터 통합, 데이터 변환, 데이터 축소
데이터 통합
- 데이터가 일관성있어야 되기 떄문에 여러 출처(소스)로부터의 데이터들을 결합할 수 있도록 해야합니다
- 데이터 통합 시 통합 전후의 원시 데이터의 백업을 지원, 확인 할 수 있는 기능 이 제공 되어야 한다.
- 데이터 통합을 위해 유일한 키 값을 선정하거나 자동 키(Key) 부여 및 키값(Key Value) 관리 기능이 제공 되어야 한다.
데이터 변환 (Transformation)
- 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 데이터(이상치(Outlier) 또는 특이값)를
추세에 맞게 변환 또는 자동 추천 할 수 있는 기능을 제공 하여야 한다.
- 집계 시 데이터를 요약 하는 기능이 제공 되어야 한다.
- 특정 구간에 분포하는 값을 추출 하거나 이를 사용자가 직관적으로 확인 할 수
있도록 하기 때문에 데이터 변환을 감시 할 수 있는 기능을 제공해야 한다.
- 데이터 변환 후 사전 저장된 원시 데이터 셋과 변환 후 데이터 간의 변환 로그를
저장 관리 할 수 있는 기능이 제공 되어야 한다.
데이터 축소 (Reduction)
데이터 축소를 위한 적용 기준 또는 적용 스크립트를 부여 할 수 있는 기능이 제공되어야 한다.
데이터 크기를 축소하는 경우, 원본 파일의 데이터 축소 범위와 축소가 적용된
속성에 대한 로그를 기록하여 취소 시 재 복구 할 수 있도록 하는 기능이 제공 되어야 한다.
빅데이터 개요
https://j3sung.tistory.com/441
빅데이터 수집
https://j3sung.tistory.com/442
빅데이터 저장
https://j3sung.tistory.com/443
빅데이터 처리
https://j3sung.tistory.com/444
빅데이터 분석
https://j3sung.tistory.com/445
빅데이터 표현
https://j3sung.tistory.com/446
'IT' 카테고리의 다른 글
[IT] 빅데이터 표현 (0) | 2019.11.01 |
---|---|
[IT] 빅데이터 분석 (0) | 2019.11.01 |
[IT] 빅데이터 저장 (0) | 2019.10.31 |
[IT] 빅데이터 수집 (1) | 2019.10.31 |
[IT] 빅데이터 개요 (0) | 2019.10.31 |