• Cutting-edge AI research .
  • Accelerating innovations in research and service .
  • “SotA” (State-of-the-Art) .
  • Human. Machine. Experience Together .

2019 International Society for Music Information Retrieval Conference(ISMIR) 참석

2019.12.05

SK텔레콤 AI 센터는 지난 11월 3일부터 11월 10일까지 네덜란드 델프트에서 열린 음악 정보 검색 분야의 대표적인 학회인 ISMIR에 참석하였습니다. AI 센터 T-Brain의 김창현 박사는 최근 연구 결과에 대해 교육을 진행하는 튜토리얼, 선정된 논문의 구두 및 포스터 발표로 진행되는 메인 컨퍼런스에 참석하였고, 학회에 참석한 다양한 연구자들과도 최근 연구 흐름과 관심사에 관해 이야기를 나누는 시간을 가졌습니다. 또한, AI 센터 주최로 한국 연구자들을 대상으로 한인 과학자의 밤 행사를 진행하였습니다.

이번 ISMIR 학회에서는 음원 분리, 악보 기보, 음성 합성/변조, 음원 생성, 음악 추천 등 다양한 음악 AI 분야에 대한 새로운 방법들이 소개되었고, MIREX(Music Information Retrieval Evaluation eXchange)/Industry meetup을 통한 실시간 음원 분리 시연과 가사 기보를 위한 연구, 그리고 관련 연구자들의 네트워킹이 활발하게 이루어졌습니다.

학회 마지막 날 진행되었던 MIREX 챌린지에서는 T-Brain 김창현 박사와 KAIST MAC 랩 용상언 학생이 공동으로 연구한 OnsetNFrames 기반의 악보 기보 연구가 Note-tracking task mixed dataset 분야에서 1등을 달성하였습니다. 이 연구에서는 자체 출원한 학습 데이터 증강 기법에 기반한 음원 데이터 증강(audio and symbolic data augmentation) 방법을 적용하고, T-Brain에서 개발한 Meta Learner의 신경망 구조 탐색(neural architecture search) 와 Hyperparameter 최적화 기능을 사용하여 성능을 끌어 올렸으며, 모델 앙상블(ensemble)을 통하여 좋은 성과를 낼 수 있었습니다.

특히 음원 데이터 증강에서는 기존 연구 방식인 오디오를 음향학적으로 다양하게 변형하기보다, 음악 자체를 변형하는 심볼릭 데이터 증강(symbolic data augmentation)과 오디오 데이터에 가중치(weight)를 주어 합성하는 mix-up 데이터 증강을 사용하여 성능을 향상 시켰습니다.

심볼릭 데이터 증강에서는 미디 데이터(MIDI data)를 이조, 전조, 템포 변환 등으로 변형 가공하였으며, 여기에 사용되는 값 (이조/전조 키 선택, 템포 선택)의 변환 범위를 stochastic 하게 설정하였습니다. 또한 mix-up 데이터 증강에서는, 합성되는 두 개 음원의 mix ratio를 hyperparameter 최적화 작업을 통하여 선택하였습니다.


<실제 transcription 에 사용한 Mel-Spectrum의 Mix-up 이미지 예시>


마지막으로 한국 과학자의 밤 행사를 개최하여 관련 분야 연구자들과 네트워킹 시간을 가졌습니다. 이 행사로서, 국내 우수 학교 (서울대, 카이스트, 광주 과학 기술원, 강원대) 및 산업 현장 진행되는 다양한 연구정보를 공유할 수 있었고, 추후 T-Brain 에서 진행할 음악 AI의 연구 방향에 대해서도 생각할 수 있었습니다.