본문 바로가기

Azure/Azure Database Services3

Azure Databricks – Delta Lake 핵심 기능 알아보기 (ACID, Time Travel, Merge) 1. 개요이전에는 Azure Databricks 환경을 구성하고, Titanic 데이터를 PySpark로 불러와 간단한 집계 분석을 진행해 보았는데요이번에는 그 연장선으로, Databricks에서 제공하는 Delta Lake의 핵심 기능들을 알아볼까 합니다Delta Lake는 기존의 Data Lake 저장소에 ACID 트랜잭션, 버전 관리, Merge(Upsert) 기능을 더해주는 친구인데요단순 저장소 수준의 데이터 처리를 넘어 데이터 신뢰성을 확보할 수 있도록 설계된 구조입니다. 또한 이번에는 Azure Blob Storage에서 데이터를 가져오는 것보다는Azure DataBbricks에서 직접 업로드한 후 실습을 진행했습니다그 데이터를 수정하고 버전 히스토리를 추적하며 Delta Lake의 구조와 동.. 2025. 7. 25.
Azure Databricks – 타이타닉 데이터로 PySpark 시작하기 1. 개요이번 포스팅에서는 Azure Blob Storage에 저장된 Titanic csv 파일을 SAS URL 방식으로 Databricks에서 불러온 후PySpark로 간단한 집계 및 분석을 해보겠습니다 2. 실습 흐름Blob Storage (CSV)를 업로드해서 → SAS URL 방식으로 → Databricks Notebook (PySpark) 적재한 뒤→ 집계, 전처리, 시각화, 모델링 3. 진행 과정:스토리지 생성 및 csv 업로드 (스토리지 생성 과정은 빠르게 넘어가겠습니다)먼저 스토리지 계정을 생성해줍니다.기본 서비스는 Blob Storage로 설정해 주고Blob Storage가 이쁘게 잘 생성되었다면 컨테이너로 들어갑니다.컨테이너 생성을 해준 뒤타이타닉 데이터셋을 다음 링크에서 받아줍니다... 2025. 7. 10.
Azure Databricks 란? 1. 개요:Azure에는 수많은 서비스들이 있지만,이번 글에서는 데이터 분석/엔지니어링 플랫폼 역할을 하는 Databricks라는 녀석을 포스팅해 보겠습니다.이다음 글에서 바로 Titanic 데이터를 이용해서 실제 PySpark 분석을 진행할 예정입니다. 이 블로그의 이름처럼 Jouney Of Cloud Data Enginner에게 필요한 플랫폼인 것 같습니다2. 구성 요소:2.1 Databricks란?Apache Spark 기반의 분석 플랫폼Apache Spark란 무엇인가요? | Google Cloud https://cloud.google.com/learn/what-is-apache-spark?hl=ko cloud.google.com 대용량 병렬 처리가 가능하고 PySpark, SQL, 머신러닝 등과.. 2025. 7. 9.