ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문 리뷰] Deep Neural Networks and Tabular Data: A Survey
    AI, DataScience 2022. 11. 15. 17:15
    728x90

    SUBMITTED TO THE IEEE, JUNE 2022

    Deep Neural Networks and Tabular Data: A Survey

    Vadim Borisov, Tobias Leemann, Kathrin Seßler, Johannes Haug, Martin Pawelczyk and Gjergji Kasnec

    논문의 목표

    1. a thorough review of existing scientific literature on deep learning for tabular data 표 형식의 데이터에 대한 딥 러닝에 대한 기존 과학 문헌의 철저한 검토
    2. a taxonomic categorization of the available approaches for classification and regression tasks on heterogeneous Tabular data 이질적인 표 형식 데이터에 대한 분류 및 회귀 작업에 사용할 수 있는 접근법의 분류학적 분류
    3. a presentation of the state of the art and promising paths towards tabular data generation 최신 기술과 표 형식의 데이터 생성을 위한 유망한 경로 제시
    4. an overview of existing explanation approaches for deep models for tabular data 표 형식의 데이터에 대한 심층 모델에 대한 기존 설명 접근법 개요
    5. an extensive empirical comparison of traditional machine learning methods and deep learning models on multiple real-world heterogeneous tabular data sets 여러 실제 이기종 테이블 데이터 세트에 대한 전통적인 기계 학습 방법과 딥 러닝 모델의 광범위한 경험적 비교
    6. a discussion on the main reasons for the limited success of deep learning on tabular data 표 형식의 데이터에 대한 딥 러닝의 제한된 성공의 주요 이유에 대한 토론
    7. a list of open challenges related to deep learning for tabular data. 표 형식의 데이터에 대한 딥 러닝과 관련된 개방형 과제 목록.

    용어 정의

    • Tabular Data
      • 표 형식 데이터
        • data points as rows and features as columns.
        • heterogeneous tabular data
        • 이기종 데이터: 여러 데이터 섞여있는 거
      • 일반적으로 많이 쓰이는 데이터
        • 의료 진단, 주택 가격 등등
      • 기존에는 GBDT(Gradient Boosted Decision Trees)로 많이 분석함
    • GBDT(Gradient Boosted Decision Trees)
      • Gradient: 경사
        • 손실 함수의 최솟값을 찾기 위한 1차 미분
        • Gradient descent: 경사하강법
      • Boosting: 앙상블 알고리즘
        • 앙상블: 약한 분류기를 결합하여 강한 분류기를 만드는 과정
        • Boosting: A 분류기를 만든 후, 그 정보를 바탕으로 B 분류기를 만들고, 다시 그 정보를 바탕으로 C 분류기를 만듭니다. 그리고 최종적으로 만들어진 분류기들을 모두 결합하여 최종 모델을 만드는 것이 Boosting의 원리입니다.
      • Decision Tree
        • 의사 결정 나무
        • 데이터를 트리 구조로 만듦 (규칙들의 조합)
        • 삽화 넣기
    • deep neural network
      • 심층 신경망
      • 뇌의 뉴런의 구조를 인공적으로 구현한 것.
      • 퍼셉트론 - 다층 퍼셉트론 - 은닉층이 많은 딥 신경망,,,,,

    History of Deep Learning on Tabular Data

    Kadra et al. called tabular data sets the last “unconquered castle” for deep neural network models

    • 프라이부르크 대학교의 Arlind Kadra 등은 딥 뉴럴 네트워크에서 마지막 정복되지 않은 성을 표 형식 데이터라고 한다.
    • Deep Learning
      • 이미지, 자연어, 소리 등에 초점
      • Tabular Data는 최근에 들어서야 다시 연구
      • 다시 연구한 이유? - 전자 상거래(e-commerce)
        • 광고, 클릭률 예측 문제 연구
    • 그동안 연구
      • regularization
      • attention-based approaches
        • transformer architectures
    • 어떤 것이 Tabular Data에 쓸만한가?

    Challenges of Learning With Tabular Data

    딥 러닝이 Tabular Data에서 성능이 안 나오는 이유

    1. Low-Quality Training Data
      • 결측값
      • 이상치
      • 데이터 자체의 오류
      • 상대적으로 적은 데이터의 수
      • 불균형
      • 현대적인 의사결정 트리 알고리즘은 이 문제 해결 가능함
    2. Missing or Complex Irregular Spatial Dependencies
      • 변수 사이에 상관 관계 없음
      • 의존성 복잡, 불규칙
        • feature 사이의 관계 처음부터 학습
      • CNN(inductive biases) 사용 불가
    3. Dependency on Preprocessing
      • 전처리에 대한 의존성
        • homogeneous data(동종 데이터 이미지 등)는 간단함.
      • 예시
        • 범주형 데이터 - 원 핫 인코딩
      • 전처리 = 정보 손실 = 성능 저하
    4. Importance of Single Features
      • 이미지는 특징 변경해도 괜찮다. 즉 클래스를 바꾸려면 많은 특징을 바꿔야한다.
      • 그러나 Tabular Data는 값 변경하면 위험함
        • 현대적인 의사결정 트리 알고리즘은 이 문제 해결 가능함

    Unified Taxonomy

    그동안 연구된 Deep Tabular 모델의 통합 분류 체계 종류별로...

    • data transformation methods
      • 데이터 변환 방법
      • 모델이 정보를 더 잘 추출할 수 있게 범주형, 수치 데이터 변환
      • 전처리 시간 오래 걸림, 고성능 필요
      • 컴퓨터 비전에서 이 방법 사용
    • specialized architectures
      • 전문 아키텍처
      • 특징
        • 가장 많은 연구
        • 새로운 deep neural network architecture 가 필요하다는 것 시사
      • hybrid models
        • 고전적인 기계 학습과 딥러닝 융합
      • transformer-based models
        • rely on attention mechanisms.
        • 어텐션 메커니즘(attention mechanism)이란?
          • 자연어 처리 등에서, 장기 의존성 문제(Long-term dependancy) 해결하는 방법
          • 예측해야할 단어와 그렇지 않은 단어 구분하여, 예측해야할 단어에 더 집중
    • regularization models
      • 정규화 모델
      • 비선형성, 모델 복잡성을 해결하기 위해 강력한 정규화 기법 적용
    • 분류 체계의 의의
      • 실무자가 적절한 모델 선택에 도움
      • data transformation methods
        • 현재 아키텍처 유지, 성능 향성
      • specialized architectures
        • 데이터 전처리 파이프라인 유지
    • 표 이미지 추가
      • 많은 종류의 아키텍처가 있다.
      • 더 이상의 자세한 설명은 생략한다.

    TABULAR DATA GENERATION

    • 목적
      • augmentation (증대)
      • imputation (대치)
      • rebalancing (재조정)
      • 개인 정보 인식 머신러닝
        •  생성된  데이터를  잠재적  으로  활용하여  개인  정보  보호  문제를  극복
    • 종류
      • Generative Adversarial Networks (GANs)
        • 이미지 생성
        • G that generates samples from the data distribution, and a discriminator D that estimates the probability that a sample came from the ground truth distribution. Both G and D are usually chosen to be non-linear functions such as a multilayer perceptrons.
      • Variational Autoencoders (VAEs)
    • 표 이미지 추가
      • 많은 종류의 Method가 있다.
      • 각각의 성능을 평가하겠다.
      • 더 이상의 자세한 설명은 생략한다.

    실험

    모델 성능 평가

    데이터셋

    • 실험에 사용할 표준화된 데이터셋
    • 컴퓨터 비전은 MNIST,  CIFAR, ImageNet 등등이 있지만,
    • heterogeneous data는 표준없다.
    • 사용할 데이터셋
      • Home Equity Line of Credit (HELOC) data set
        • FICO에서 제공
        • 주택 자산 - 은행 신용 한도
      • Adult Income data set
        • 성인 소득 데이터셋
        • 종속변수: 연령, 성별, 교육 등 개인정보
        • 독립변수: binary; it represents high and low income.
      • HIGGS
        • 힉스 입자
      • The Covertype data set
        • 육지 셀 지도 정보(표고, 경사) 저장
        • 다중 분류 데이터셋
      • California Housing data set
        • 주택 가격 예측

    공개 성능 벤치마크

    • Hyperparameter Selection
      • Optuna library
    • Data Preprocessing
      • numerical features
        • zero-mean
        • unit-variance normalization
      • categorical features
        • ordinal encoding
        • 일부는 그냥 사용 LightGBM, DeepFM, DeepGBM, TabNet, TabTransformer, and SAINT
      • missing value: 0
    • Reproducibility and Extensibility
      • docker container
      • 소스코드 공개

    Results

    표5 삽입

    • HIGSS를 제외한 모든 경우에서 boosted decision tree ensembles이 가장 좋은 결과
    • HIGGS는 SAINT가 가장 좋았다.
    • 전반적으로 SAINT가 가장 좋았다.
    • 다른 딥러닝 모델은 데이터에 따라 성능이 천차만별

    Run Time Comparison

    • gradient-boosting-based models이 다른 딥러닝 모델보다 빠름
    • HIGGS 데이터셋은 딥러닝이 더 빨랐다.

    Interpretability Assessment

    해석 가능성 평가

    • 해석 가능성이란?
      • the degree to which a human can understand the cause of a decision
      • the degree to which a human can consistently predict the model’s result
    • 모든 모델에 걸쳐 낮고 때로는 음수
      • ?

    We come to the conclusion that more profound benchmarks of the claimed interpretability characteristics and their usefulness in practice are necessary.

    DISCUSSION AND FUTURE PROSPECTS

    • Decision Tree Ensembles are still State-of-the-Art.
      • 의사결정 트리 앙상블은 여전히 최첨단이다.
      • XGBoost: 6년
      • gradient boosting: 20년
    • We think that a fundamental reorientation of the domain may be necessary.
      • 이 산이 아닌가벼
    • the question of whether the use of current deep learning techniques is beneficial for tabular data can generally be answered in the negative.
      • 표 형태 데이터를 분석할 때 딥러닝을 쓰는게 맞을까요? 아니요.

    성능 격차의 원인에 대한 분석

    • Unified Benchmarking
      • 공정하고 효율적인 비교 방법에 대한 합의가 없다.
      • 같은 데이터셋이라도 다른 결과 나타날 수도
    • Tabular Data Preprocessing
      • heterogeneity of the data
      • 수치형, 범주형 등등
    • Architectures for Deep Learning on Tabular Data
      • transformer-based solutions
      • self-supervised or unsupervised pre-training이 더 좋은 경우가 있다.
      • 테이블 형식 데이터에 대한 특수 목적 아키텍처 필요함
    • Regularization Models for Tabular Data
      • 정규화가 중요하다!
    • Deep Generative Models for Tabular Data
      • 데이터를 생성하면
        • 모델의 품질을 높일 수 있다
        • 개인정보 문제를 해결할 수 있다
      • Unfortunately, the generation task is as hard as inference in predictive models, so progress in both areas will likely go hand in hand.
    • Interpretable Deep Learning Models for Tabular Data
      • 해석 가능성 적용하면 좋을텐데....
    • Learning From Evolving Data Streams
      • 요즘 데이터는 지속적으로 변화하니 그에 대응해야한다.

    Open Research Questions

    • Information-theoretic Analysis of Encodings
    • Computational Efficiency in Hybrid Models.
    • Specialized Regularizations
    • Novel Processes for Tabular Data Generation
    • Interpretability
    • Transfer of Deep Learning Methods to Data Streams
    • Transfer Learning for Tabular Data
    • Data Augmentation for Tabular Data
    • Self-supervised Learning
    728x90

    댓글

안녕하세요? 반가워요. 광고 눌러주세요?