ЗАСТОСУВАННЯ ТА МЕТОДИ СЛІПОГО РОЗДІЛЕННЯ СИГНАЛІВ
DOI:
https://doi.org/10.20998/2313-8890.2024.04.03Ключові слова:
сліпе розділення сигналів, машинне навчанняАнотація
Сліпе розділення сигналів полягає в розділенні даного сигналу суміші на два або більше відповідних джерел. Результати сліпого розділення сигналів знаходить застосування в багатьох сферах людської діяльності, таких як медицина, телекомунікації, мистецтво та багато інших, і є ключовим завданням в обробці сигналів. Однак саме завдання видається досить складним через те, що є некоректно визначеним. Незважаючи на те, що багато сучасних підходів, заснованих на машинному навчанні, досягають найсучасніших результатів у різних завданнях сліпого розділення джерел (наприклад, розділення джерел звуку чи музики), однак ці методи можуть страждати від небажаних артефактів в оцінках сигналів джерела. У цьому документі представлено огляд методів сліпого розділення джерел, що охоплює методи від традиційних статистичних до сучасних підходів на основі машинного навчання та застосування результатів сліпого розділення джерел. Крім того, ми обговорюємо деякі потенційні напрямки досліджень у сфері сліпого розділення джерел, щоб полегшити подальші дослідження та розробити потужні рішення для цього завдання.
Посилання
E. Colin Cherry. Some experiments on the recognition of speech, with one and with two ears / E. Colin Cherry // The Journal of the Acoustic Society of America. – 1953.
Hyvarinen A. Independent component analysis: algorithms and applications / A. Hyvarinen, E. Oja. // Neural Networks. – 2000. – vol. 13. – pp. 411–430.
Daniel L. Algorithms for Non-negative Matrix Factorization / L. Daniel, S. Hyunjune // Adv. Neural Inform. Process. Syst. – 2001. – vol. 13.
Mariani G. Multi-source diffusion models for simultaneous music generation and separation / G. Mariani, I. Tallini, E. Postolache, M. Mancusi, L. Cosmo, E. Rodola. – 2023. – (arXiv preprint arXiv:2302.02257).
Stöter F. Open-Unmix - A Reference Implementation for Music Source Separation / F. Stöter, S. Uhlich, A. Liutkus, Y. Mitsufuji // Journal of Open Source Software. – 2019. – vol. 4. – p. 1667.
Hershey J. R. Deep clustering: Discriminative embeddings for segmentation and separation / J. R. Hershey, Z. Chen, J. Le Roux, S. Watanabe // Proc. ICASSP. – 2016.
Luo Y. Deep clustering and conventional networks for music separation: Stronger together / Y. Luo, Z. Chen, J. Hershey, J. Le Roux, N. Mesgarani // Proceedings of the ... IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP (Conference). – 2017. – pp. 61–65.
Luo Y. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation / Y. Luo, N. Mesgarani // IEEE/ACM transactions on audio, speech, and language processing. – 2019. – 27(8). – pp. 1256–1266.
Ronneberger O. U-net: Convolutional networks for biomedical image segmentation / O. Ronneberger, P. Fischer, T. Brox // Medical Image Computing and Computer-Assisted Intervention–MICCAI. – 2015. – vol. 18. – pp. 234–241.
Stoller D. Wave-u-net: a multi-scale neural network for end-to-end audio source separation / D. Stoller, S. Ewert, S. Dixon. – 2018. – (arXiv preprint arXiv:1806.03185).
Défossez A. Music source separation in the waveform domain / A. Défossez, N. Usunier, L. Bottou, F. Bach. – 2019. – (arXiv preprint arXiv:1911.13254).
Takahashi N. Multi-scale multi-band densenets for audio source separation / N. Takahashi, Y. Mitsufuji // 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). – 2017. – pp. 21–25.
Takahashi N. D3net: Densely connected multidilated densenet for music source separation / N. Takahashi, Y. Mitsufuji. – 2020. – (arXiv preprint arXiv:2010.01733).
Rouard S. Hybrid transformers for music source separation / S. Rouard, F. Massa, A. Défossez // ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2023. – pp. 1–5.
Rafii Z. The musdb18 corpus for music separation / Z. Rafii, A. Liutkus, F. Stoter. – 2017.
Venkatesh S. Real-time Low-latency Music Source Separation using Hybrid Spectrogram-TasNet / S. Venkatesh, A. Benilov, P. Coleman, F. Roskam. – 2024. – (arXiv preprint arXiv:2402.17701).
Luo Y. Tasnet: time-domain audio separation network for real-time, single-channel speech separation / Y. Luo, N. Mesgarani // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2018. – pp. 696–700.
Nakano T. Music Source Separation With MLP Mixing of Time, Frequency, and Channel / T. Nakano, M. Goto // Proceedings of the 24th International Society for Music Information Retrieval Conference. – 2023. – pp. 840–847.
Mansour Y. Image-to-image MLP-mixer for image reconstruction / Y. Mansour, K. Lin, R. Heckel. – 2022. – (arXiv preprint arXiv:2202.02018).
Stoller D. Adversarial semi-supervised audio source separation applied to singing voice extraction / D. Stoller, S. Ewert, S. Dixon // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2018. – pp. 2391-2395.
Zhu G. Music source separation with generative flow / G. Zhu, J. Darefsky, F. Jiang, A. Selitskiy, Z. Duan // IEEE Signal Processing Letters. – 2022. – vol. 29, – pp. 2288–2292.
Kong Z. Diffwave: A versatile diffusion model for audio synthesis / Z. Kong, W. Ping, J. Huang, K. Zhao, B. Catanzaro. – 2020. – (arXiv preprint arXiv:2009.09761).
Plaja-Roglans G. A diffusion-inspired training strategy for singing voice extraction in the waveform domain / G. Plaja-Roglans, M. Marius, X. Serra // Proc. of the 23rd Int. Society for Music Information Retrieval. – 2022.
Le Roux J. Sdr–half-baked or well done? / J. Le Roux, S. Wisdom, H. Erdogan, J. R Hershey // ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2019. – pp. 626–630.
Cartwright M. Fast and easy crowdsourced perceptual audio evaluation / M. Cartwright, B. Pardo, G. J Mysore, M. Hoffman // 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2016. – pp. 619–623.
Schoeffler M. Webmushra—a comprehensive framework for web-based listening tests / M. Schoeffler, S. Bartoschek, F. Stöter, M. Roess, S. Westphal, B. Edler, J. Herre // Journal of Open Research Software. – 2018.
Borsos Z. Audiolm: a language modeling approach to audio generation / Z. Borsos, R. Marinier, D. Vincent, E. Kharitonov, O. Pietquin, M. Sharifi, ... N. Zeghidour // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2023.
Agostinelli A. Musiclm: Generating music from text / A. Agostinelli, T. I. Denk, Z. Borsos, J. Engel, M. Verzetti, A. Caillon, ... C. Frank. – 2023. – (arXiv preprint arXiv:2301.11325).
Li P. Jen-1: Text-guided universal music generation with omnidirectional diffusion models / P. Li, B. Chen, Y. Yao, Y. Wang, A. Wang, A. Wang. – 2023. – (arXiv preprint arXiv:2308.04729).
Chen K. MusicLDM: Enhancing novelty in text-to-music generation using beat-synchronous mixup strategies / K. Chen, Y. Wu, H. Liu, M. Nezhurina, T. Berg-Kirkpatrick, S. Dubnov // ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2024. – pp. 1206–1210.
Schneider F. Mo^ usai: Text-to-music generation with long-context latent diffusion / F. Schneider, O. Kamal, Z. Jin, B. Schölkopf. – 2023. – (arXiv preprint arXiv:2301.11757).
Gong Y. Ast: Audio spectrogram transformer / Y. Gong, Y. A. Chung, J. Glass. – 2021. – (arXiv preprint arXiv:2104.01778).
Dosovitskiy A. An image is worth 16x16 words: Transformers for image recognition at scale / A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, ... N. Houlsby. – 2020. – (arXiv preprint arXiv:2010.11929).
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами: Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи, яка через [6 місяців] з дати публікації автоматично стає доступною на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).