Home > 검색목록 > 기사상세보기
타이틀

[김정호의 AI시대의 전략] 놀라운 작곡 능력의 AI… 이제 '테일러 스위프트 신화'는 없다?

    김정호 KAIST 전기·전자공학과교수

    발행일 : 2024.02.05 / 여론/독자 A29 면

    종이신문보기
    ▲ 종이신문보기
    1970년대 초 서울 제기동 집에는 '독수리표 전축'이 있었다. 턴테이블과 스피커가 한 몸체를 이루는 '콘솔형 가구'였다. 턴테이블을 비추는 내부 조명은 울긋불긋했다. 시간이 지나 중학교 때 친구 집에 있는 '인켈(Inkel)' 전축을 처음으로 구경했다. 그리고 카세트 플레이어를 거쳐, 대학교 때는 소니 워크맨을 보았다. 다음으로 CD와 DVD를 지나 이제는 '유튜브'를 통해 헤드폰을 끼고 음악과 영상을 함께 감상한다. 시간과 장소에 구애를 받지 않고 음악을 즐길 수 있게 되었다. 옛 추억의 노래를 그 시절 생생한 공연장의 모습과 함께 감상한다. 이처럼 음악을 저장하고 재생하는 기술과 매체는 끊임없이 변화해 왔다. 이는 반도체 기술의 발전으로 가능했다. 한 걸음 더 나아가 이제는 음악 자체를 만드는 '작곡'의 영역에도 변화가 오기 시작했다. 인간을 대신해서 생성 인공지능이 작곡을 할 수 있게 되었기 때문이다.

    '음악(音樂)'은 소리를 재료로 하는 시간 예술이다. 인간이 가진 고도의 감성적, 지성적 활동의 산물이다. 이러한 음악의 3요소로는 '리듬(Beat)', '선율(Melody)', 그리고 '화성(Harmony)'이 있다. 리듬이란 음악의 시간적 요소를 표현한다. 즉 리듬은 음의 길이, 박자, 강세 등을 포함한다. 반면 선율은 음들의 높낮이가 시간에 따라 움직이는 것을 표현한다. 선율은 사람의 다양한 감성을 불러일으키며 가장 쉽게 기억되어지는 음악의 중요한 요소이다. 마지막으로 화성은 높이가 다른 2개 이상의 음이 동시에 울렸을 때의 합성음을 말한다. 소리의 조화를 위한 규칙이다. 대중음악에서는 코드(Chords)로, 클래식에서는 화음(Triads)으로 설명한다. 이러한 리듬, 선율, 화성은 모두 일정한 패턴을 갖고 있다. 다시 말해서 음악은 음의 시간에 따른 배열과 음의 주파수 배열에 대한 규칙성을 갖고 있는 것이다. 그 규칙성에서 인간은 편안함과 감동을 받는다. 인간의 심장 박동도 규칙성을 갖고 있고, 인간의 귀의 고막 진동도 규칙성을 갖고 있기 때문일 것이다. 아마 우리 뇌도 규칙성과 반복성을 좋아하는 것 같다. 인공지능은 바로 이러한 시간과 주파수와 공간에 존재하는 패턴을 통해서 학습한다. 음악은 인공지능 학습에 필요한 데이터의 조건을 잘 갖고 있다. 대표적인 생성 인공지능인 거대 언어 모델(LLM)이 글을 잘 쓰는 원리와 똑같다. 그래서 생성 인공지능이 작곡도 할 수 있는 것이다.

    생성 인공지능이 음악을 작곡하는 방법으로는 몇 가지 대표적인 알고리즘이 있다. 먼저 음악을 시각적인 이미지 파일로 변환해서 창작하는 방법이 있다. 시간에 따라 변화하는 음악 주파수 정보를 이미지로 표현한 그림을 '스펙트로그램(Spectrogram)'이라고 부른다. 이렇게 그림 패턴으로 수집한 수많은 음악 데이터들은 인공지능 학습에 사용된다. 그리고 이들을 조합하고 변형하고 융합해서 새로운 이미지 파일을 만들고 최종적으로 음악으로 변환한다. 이렇게 새로운 곡이 탄생한다. 인간처럼 인공지능도 좋은 음악을 작곡하기 위해서는 명곡을 많이 들어야 한다.

    다음으로는 챗GPT와 같은 거대 언어 모델을 사용할 수 있다. 인공지능은 글을 읽고 따라 쓰기를 반복하면서 언어를 배운다. 마찬가지로 시간에 따라 변화하는 소리를 언어처럼 배우고 따라 한다. 인공지능은 음악을 언어로 이해하는 것이다. 이러한 알고리즘을 통해서 인공지능은 확률적으로 가장 인간이 좋아하고 감동을 느끼는 음악들을 순서대로 생성해 낸다. 여기에 더해 '인간 평가단'이 추가 점수를 매기면서 곡의 완성도를 높일 수 있다. 이러한 방법을 '인간 피드백 강화 학습(RLHF, Reinforcement Learning by Human Feedback)'이라고 부른다. 인간의 과외를 받는 것이다. 세계적인 작곡가 진은숙이 함부르크 음대에서 거장 작곡가 '죄르지 리게티(Ligeti Gy?rgy)'를 사사한 것과 같은 원리이다.

    이러한 생성 인공지능 작곡은 다양한 서비스 형태로 인간에게 제공될 수 있다. 곡의 주제를 '프롬프트(Prompt)'로 입력하면 이를 이해하고 주제에 맞게 작곡을 해 준다. 가사도 쓰고 그에 맞게 작곡도 할 수 있다. 또는 새로운 무드, 텍스트, 영상을 입력하면 그에 맞는 음악을 작곡하고 연주도 해 준다. 여기에 더해 간단한 음악 샘플링을 들려주면 완전한 음악으로 생성해 준다. 마지막으로 기존의 음악을 들려주고 이를 새로운 형태로 변형을 하도록 요구할 수도 있다. 예를 들어 교향곡을 들려주고 이를 트로트로 변형해 달라고 할 수도 있다. 이렇게 인공지능을 사용하면 초 단위로 새로운 작곡을 할 수 있다. 그 숫자에도 제한이 없다. 곡의 길이에 대한 제한도 없다. 전기만 공급되면 24시간 동안 작곡을 한다. 미래에는 인간 작곡가가 사라질 수도 있다.

    인간이 창작한 음악의 가치를 인정하고 이를 보호하기 위해서 저작권 제도가 있다. 저작권을 가진 작곡가에게는 음원 수입이 제공된다. 현재 미국의 싱어송라이터인 '테일러 스위프트(Taylor Swift)'가 음원 수입 1위 가수이다. 테일러 스위프트는 자신의 곡 모두를 자신이 단독 또는 공동으로 작사, 작곡 및 프로듀싱을 한 가수다. 국내 음원 수익 1위는 방탄소년단 프로듀서로 알려진 '피독(PDOGG, 강효원)'이다. 미래에는 생성 인공지능이 이들을 대체할 수도 있다. 목소리, 얼굴 표정, 춤까지도 인공지능이 대신할 수 있다. 그러면 새로운 테일러 스위프트는 볼 수 없게 될지도 모른다. 그리고 인공지능은 대중음악을 넘어서 동요, 자장가, 교가, 군가를 작곡할 수 있다. 하지만 아직 인공지능이 만든 노래에는 인간적인 감동의 스토리가 없다. 소리만 있다. 우리의 가슴을 울리지는 못한다. '미스트롯3'에 나온 빈예서 양이 부른 '모정'을 들으면서 잠시 눈시울이 젖는다. 이런 노래가 더 좋다.

    [그래픽] 생성 인공지능을 이용한 음악 작곡 방식의 분류
    기고자 : 김정호 KAIST 전기·전자공학과교수
    장르 : 고정물
    본문자수 : 2903
    표/그림/사진 유무 : 있음
    웹편집 : 보기
    인쇄 라인 위로가기