기획은 검정색이다.

[빅데이터] 정형 / 비정형 데이터 정의 본문

빅데이터

[빅데이터] 정형 / 비정형 데이터 정의

thinkhub 2024. 8. 22. 22:20

정형 데이터와 비정형 데이터는 데이터의 구조와 형식에 따라 구분됩니다.

 

정형 데이터 (Structured Data)

  • 정의: 정형 데이터는 고정된 필드에 따라 구조화된 형태로 저장된 데이터를 말합니다. 이 데이터는 일반적으로 테이블 형식(행과 열)으로 구성되며, 데이터베이스 관리 시스템(DBMS)에서 쉽게 저장, 검색, 분석할 수 있습니다.
  • 예시:
    • 관계형 데이터베이스: SQL 데이터베이스의 테이블
    • 스프레드시트: Excel의 표 형식 데이터
    • 기타: 고객 정보(이름, 주소, 전화번호 등), 금융 거래 기록, 재고 관리 데이터

비정형 데이터 (Unstructured Data)

  • 정의: 비정형 데이터는 특정한 구조나 형식 없이 저장된 데이터를 의미합니다. 이 데이터는 정형 데이터처럼 고정된 필드나 스키마에 맞춰져 있지 않으며, 분석하기 위해서는 별도의 전처리 과정이 필요합니다.
  • 예시:
    • 텍스트 데이터: 이메일, 문서 파일(Word, PDF), 소셜 미디어 게시물
    • 멀티미디어 데이터: 이미지, 동영상, 오디오 파일
    • 기타: 웹 페이지 콘텐츠, 로그 파일, 센서 데이터(비정형 형태로 저장된 경우)

비교

  • 구조:
    • 정형 데이터는 일정한 구조(스키마)를 따름.
    • 비정형 데이터는 고정된 구조가 없음.
  • 처리 방법:
    • 정형 데이터는 SQL과 같은 도구를 사용해 쉽게 관리 및 분석 가능.
    • 비정형 데이터는 분석 전에 텍스트 마이닝, 자연어 처리(NLP), 이미지 분석 등의 방법을 통해 구조화하거나 패턴을 추출해야 함.
  • 저장 방식:
    • 정형 데이터는 관계형 DB에 저장.
    • 비정형 데이터는 NoSQL 데이터베이스, 파일 시스템, 데이터 레이크 등에 저장.

정형 데이터와 비정형 데이터는 각각의 특성과 용도에 따라 다른 방식으로 관리되고 분석됩니다.

현대의 빅데이터 환경에서는 두 종류의 데이터를 모두 활용하여 더 심층적인 인사이트를 도출하는 것이 중요합니다

[데이터 소스의 유형과 내용]

유형
내용
정형 데이터
업무처리 , 매매거래. 로그데이터, 시계열 데이터
비정형 데이터
일반
소셜미디어, 고객서비스,품질보증, 이벤트, 이메일, 자유형식 텍스트
센서 데이터
온도,QR코드, RFID,GPS
새로운 데이터 유형
매핑과 GPS, 오디오, 정지화상/비디오

[데이터 소스 구분]

구분
상태
위치
내부 데이터
데이터베이스, 파일관리 시스템
와부 데이터
파일,멀티미디어,스트리밍
미디어
텍스트,오디오,비디오,이미지, 복합형
상태
아날로그
디지털

 

비정형 데이터를 정형 데이터로 변환하는 과정은 데이터의 구조화 과정으로, 이를 통해 비정형 데이터에서 필요한 정보를 추출하고 분석하기 쉽게 변환할 수 있습니다. 이 과정은 다양한 방법과 도구를 통해 수행될 수 있습니다.

 

비정형 데이터를 정형 데이터로 변환하는 방법

  1. 텍스트 데이터 처리
    • 텍스트 마이닝: 문서, 이메일, 소셜 미디어 포스트와 같은 텍스트 데이터를 분석하여 키워드, 주제, 감정 등의 정보를 추출합니다.
    • 자연어 처리(NLP): 텍스트에서 명사, 동사, 감정 등의 주요 요소를 식별하고 이를 표 형식의 데이터로 변환합니다.
    • 예시: 고객 리뷰를 분석하여 긍정적, 중립적, 부정적 감정으로 분류하고 이를 데이터베이스에 저장합니다.
  2. 이미지 데이터 처리
    • 이미지 분석: 이미지에서 특정 객체, 텍스트, 패턴 등을 인식하여 이를 정형 데이터로 변환합니다.
    • OCR(광학 문자 인식): 이미지 내 텍스트를 추출하여 정형 데이터로 변환합니다.
    • 예시: 스캔된 영수증 이미지를 분석하여 상품명, 가격, 날짜 등의 정보를 추출하고 이를 엑셀 또는 데이터베이스에 저장합니다.
  3. 오디오/비디오 데이터 처리
    • 음성 인식: 오디오 데이터를 텍스트로 변환한 후 이를 정형화된 데이터로 구조화합니다.
    • 비디오 분석: 비디오에서 얼굴 인식, 객체 탐지 등을 통해 구조화된 데이터를 생성합니다.
    • 예시: 고객 서비스 통화 내용을 텍스트로 변환하고, 통화 내용에서 키워드를 추출하여 대화 주제와 감정 분석을 통해 정형 데이터로 저장합니다.
  4. 로그 데이터 처리
    • 로그 파싱(Log Parsing): 로그 파일에서 중요한 필드를 추출하여 구조화된 데이터베이스에 저장합니다.
    • 정규 표현식(Regex): 비정형 로그 데이터에서 특정 패턴을 추출하여 구조화합니다.
    • 예시: 웹 서버 로그에서 IP 주소, 요청 시간, 요청 URL 등을 추출하여 이를 데이터베이스 테이블에 저장합니다.
  5. 소셜 미디어 데이터 처리
    • 소셜 미디어 분석 도구 사용: 해시태그, 좋아요 수, 댓글 등을 추출하여 이를 구조화된 형태로 저장합니다.
    • 예시: 특정 해시태그를 포함하는 트윗을 수집하고, 트윗 내용, 작성자, 작성 시간 등의 정보를 추출하여 테이블 형식으로 저장합니다.

구체적인 예시

예시 1: 고객 리뷰 분석

  • 비정형 데이터: 고객이 온라인 쇼핑몰에 남긴 텍스트 리뷰
  • 변환 과정:
    • 리뷰 텍스트에서 감정 분석을 통해 긍정, 부정, 중립으로 분류
    • 리뷰에서 특정 키워드(예: "배송", "품질", "가격")를 추출
    • 분석 결과를 테이블로 정리 (예: 리뷰 ID, 감정, 주요 키워드, 리뷰 길이)
  • 정형 데이터 결과:리뷰 ID감정주요 키워드리뷰 길이(단어 수)
    12345 긍정적 배송, 품질 20
    67890 부정적 가격, 반품 35

예시 2: 이미지 데이터 처리

  • 비정형 데이터: 상품 스캔 이미지
  • 변환 과정:
    • OCR 기술을 사용하여 이미지에서 상품명, 가격, 바코드 등을 텍스트로 추출
    • 추출된 데이터를 정형화된 테이블로 저장
  • 정형 데이터 결과:상품명가격바코드
    청바지 50,000원 123456789012
    운동화 80,000원 987654321098

이러한 방법들을 통해 비정형 데이터를 정형 데이터로 변환하면, 데이터의 분석과 활용이 훨씬 더 효율적이고 용이해집니다.


 

 

기획은 검정색입니다.

"졸업 가운의 색이 검정인 이유는 검정이 성취와 권력의 색이기 때문입니다."

 

질문 환영합니다. 댓글 남겨주세요.
thinkhub

728x90