Research

딥러닝 시스템 보안 (Deep Learning System Security)

  최근 딥러닝 모델을 속이는 적대적인 데이터 (adversarial input) 를 생성하는 기술이 다양하게 연구되고 있습니다.  딥러닝 모델이 앞으로 매우 많은 영역에서 사용될 것이라 예상되기 때문에 이러한 적대적인 데이터를 생성 및 감지하는 것이 매우 중요해질 것입니다. 우리 연구실에서는 적대적인 테이터를 효율적으로 생성하는 기술 및 이를 빠르고 정확하게 감지하는 기술에 대해서 연구하고 있습니다.  
  We study the techniques to efficiently generate adversarial input data for various deep learning models. We also study fast and effective techniques to detect such adversarial input data.
 
Figure from C. Szegedy, et. al, “Intriguing properties of neural networks,” arXiv:1312.6199, 2013.


대용량 딥러닝 시스템 (Larg-Scale Deep Learning) 
 
  딥러닝 모델을 대용량 데이터를 사용해서 학습시킬 때에 많은 경우 네트워크가 병목이 됩니다. 네트워크 병목을 개선하고 딥러닝 모델 학습의 성능을 높이기 위해 computation/network pipelining, gradient compression, approximation 등의 기술을 연구하고 있습니다.
  We study the techniques, such as gradient compression, to improve the network bottleneck in large-scale deep learning training.


딥러닝 모델의 성능/정확도 트레이드 오프 (Trade-Offs in Deep Learning Models) 
  많은 기계학습 모델과 마찬가지로 딥러닝 모델에서도 파라미터 값들에 오차가 어느 정도 있어도 모델의 정확도가 매우 높은 편입니다. 예를 들면 파라미터 값들을 저장하는 변수가 보통 32bit float (single precision) 값으로 저장되는데 이를 8 bit 이나 5 bit 정도만 사용하여도 정확도가 1% 미만으로 차이나는 경우가 많습니다. 우리 연구실에서는 이러한 딥러닝 모델의 정확도를 약간 트레이드 오프 하면서 성능 (모델의 수행 시간)을 최적화 하는 여러가지 기술들에 대해서 연구하고 있습니다.
  We study various trade-off techniques to improve the performance (speed) of deep learning models with little to no degradation in their accuracy.
 
대용량 그래프 분석 시스템 (Graph Processing Systems)

불확정성 그래프 분석 시스템 (Uncertain Graph Processing System)


대용량 그래프(네트워크)들 중에 노드 간의 연결이 확률적으로 주어지는 경우가 많이 있습니다. 특히 생명공학에서 사용되는 그래프들이 그러한데, 이러한 불확정성 그래프를 분석할 때에는 샘플링을 하여 매우 많은 (샘플된) 그래프에 대해서 분석 알고리즘을 실행하게 됩니다. 따라서 시스템 리소스가 많이 필요한데, 우리 연구실에서는 이를 효율적으로 처리하는 여러가지 기술들에 대해서 연구하고 있습니다. 
  We study the techniques, such as compressing sampled graphs, to process large-scale uncertain graphs.
 


이전 프로젝트
 
SociaLite: High-level query language for large-scale graph processing

SociaLite Talk at Hadoop Summit

     SociaLite is a high-level query language for large-scale graph analysis. SociaLite is based on Datalog, and extended theoretically as well as practically to make large-scale graph analysis possible. For example, SociaLite is extended to support aggregate functions inside recursive queries as long as they are meet operators; the functions can prune out unnecessary computations for faster convergence. Also, its tail-nested tables can compactly store graphs for faster data access. With the two optimizations, SociaLite is more than 30 times faster than the state-of-the-art Datalog engines including LogicBlox, a commercial Datalog system. When we compare SociaLite with other distributed frameworks for graph algorithms, SociaLite is more than two orders of magnitude faster than Hadoop and Haloop, and an order of magnitude faster than Hama and Giraph.