ЗАСТОСУВАННЯ ТА МЕТОДИ СЛІПОГО РОЗДІЛЕННЯ СИГНАЛІВ

Автор(и)

  • Mykyta Monastyrskyi Національний технічний університет «Харківський політехнічний інститут», Україна

DOI:

https://doi.org/10.20998/2313-8890.2024.04.03

Ключові слова:

сліпе розділення сигналів, машинне навчання

Анотація

Сліпе розділення сигналів полягає в розділенні даного сигналу суміші на два або більше відповідних джерел. Результати сліпого розділення сигналів знаходить застосування в багатьох сферах людської діяльності, таких як медицина, телекомунікації, мистецтво та багато інших, і є ключовим завданням в обробці сигналів. Однак саме завдання видається досить складним через те, що є некоректно визначеним. Незважаючи на те, що багато сучасних підходів, заснованих на машинному навчанні, досягають найсучасніших результатів у різних завданнях сліпого розділення джерел (наприклад, розділення джерел звуку чи музики), однак ці методи можуть страждати від небажаних артефактів в оцінках сигналів джерела. У цьому документі представлено огляд методів сліпого розділення джерел, що охоплює методи від традиційних статистичних до сучасних підходів на основі машинного навчання та застосування результатів сліпого розділення джерел. Крім того, ми обговорюємо деякі потенційні напрямки досліджень у сфері сліпого розділення джерел, щоб полегшити подальші дослідження та розробити потужні рішення для цього завдання.

Посилання

E. Colin Cherry. Some experiments on the recognition of speech, with one and with two ears / E. Colin Cherry // The Journal of the Acoustic Society of America. – 1953.

Hyvarinen A. Independent component analysis: algorithms and applications / A. Hyvarinen, E. Oja. // Neural Networks. – 2000. – vol. 13. – pp. 411–430.

Daniel L. Algorithms for Non-negative Matrix Factorization / L. Daniel, S. Hyunjune // Adv. Neural Inform. Process. Syst. – 2001. – vol. 13.

Mariani G. Multi-source diffusion models for simultaneous music generation and separation / G. Mariani, I. Tallini, E. Postolache, M. Mancusi, L. Cosmo, E. Rodola. – 2023. – (arXiv preprint arXiv:2302.02257).

Stöter F. Open-Unmix - A Reference Implementation for Music Source Separation / F. Stöter, S. Uhlich, A. Liutkus, Y. Mitsufuji // Journal of Open Source Software. – 2019. – vol. 4. – p. 1667.

Hershey J. R. Deep clustering: Discriminative embeddings for segmentation and separation / J. R. Hershey, Z. Chen, J. Le Roux, S. Watanabe // Proc. ICASSP. – 2016.

Luo Y. Deep clustering and conventional networks for music separation: Stronger together / Y. Luo, Z. Chen, J. Hershey, J. Le Roux, N. Mesgarani // Proceedings of the ... IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP (Conference). – 2017. – pp. 61–65.

Luo Y. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation / Y. Luo, N. Mesgarani // IEEE/ACM transactions on audio, speech, and language processing. – 2019. – 27(8). – pp. 1256–1266.

Ronneberger O. U-net: Convolutional networks for biomedical image segmentation / O. Ronneberger, P. Fischer, T. Brox // Medical Image Computing and Computer-Assisted Intervention–MICCAI. – 2015. – vol. 18. – pp. 234–241.

Stoller D. Wave-u-net: a multi-scale neural network for end-to-end audio source separation / D. Stoller, S. Ewert, S. Dixon. – 2018. – (arXiv preprint arXiv:1806.03185).

Défossez A. Music source separation in the waveform domain / A. Défossez, N. Usunier, L. Bottou, F. Bach. – 2019. – (arXiv preprint arXiv:1911.13254).

Takahashi N. Multi-scale multi-band densenets for audio source separation / N. Takahashi, Y. Mitsufuji // 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). – 2017. – pp. 21–25.

Takahashi N. D3net: Densely connected multidilated densenet for music source separation / N. Takahashi, Y. Mitsufuji. – 2020. – (arXiv preprint arXiv:2010.01733).

Rouard S. Hybrid transformers for music source separation / S. Rouard, F. Massa, A. Défossez // ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2023. – pp. 1–5.

Rafii Z. The musdb18 corpus for music separation / Z. Rafii, A. Liutkus, F. Stoter. – 2017.

Venkatesh S. Real-time Low-latency Music Source Separation using Hybrid Spectrogram-TasNet / S. Venkatesh, A. Benilov, P. Coleman, F. Roskam. – 2024. – (arXiv preprint arXiv:2402.17701).

Luo Y. Tasnet: time-domain audio separation network for real-time, single-channel speech separation / Y. Luo, N. Mesgarani // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2018. – pp. 696–700.

Nakano T. Music Source Separation With MLP Mixing of Time, Frequency, and Channel / T. Nakano, M. Goto // Proceedings of the 24th International Society for Music Information Retrieval Conference. – 2023. – pp. 840–847.

Mansour Y. Image-to-image MLP-mixer for image reconstruction / Y. Mansour, K. Lin, R. Heckel. – 2022. – (arXiv preprint arXiv:2202.02018).

Stoller D. Adversarial semi-supervised audio source separation applied to singing voice extraction / D. Stoller, S. Ewert, S. Dixon // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2018. – pp. 2391-2395.

Zhu G. Music source separation with generative flow / G. Zhu, J. Darefsky, F. Jiang, A. Selitskiy, Z. Duan // IEEE Signal Processing Letters. – 2022. – vol. 29, – pp. 2288–2292.

Kong Z. Diffwave: A versatile diffusion model for audio synthesis / Z. Kong, W. Ping, J. Huang, K. Zhao, B. Catanzaro. – 2020. – (arXiv preprint arXiv:2009.09761).

Plaja-Roglans G. A diffusion-inspired training strategy for singing voice extraction in the waveform domain / G. Plaja-Roglans, M. Marius, X. Serra // Proc. of the 23rd Int. Society for Music Information Retrieval. – 2022.

Le Roux J. Sdr–half-baked or well done? / J. Le Roux, S. Wisdom, H. Erdogan, J. R Hershey // ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2019. – pp. 626–630.

Cartwright M. Fast and easy crowdsourced perceptual audio evaluation / M. Cartwright, B. Pardo, G. J Mysore, M. Hoffman // 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2016. – pp. 619–623.

Schoeffler M. Webmushra—a comprehensive framework for web-based listening tests / M. Schoeffler, S. Bartoschek, F. Stöter, M. Roess, S. Westphal, B. Edler, J. Herre // Journal of Open Research Software. – 2018.

Borsos Z. Audiolm: a language modeling approach to audio generation / Z. Borsos, R. Marinier, D. Vincent, E. Kharitonov, O. Pietquin, M. Sharifi, ... N. Zeghidour // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2023.

Agostinelli A. Musiclm: Generating music from text / A. Agostinelli, T. I. Denk, Z. Borsos, J. Engel, M. Verzetti, A. Caillon, ... C. Frank. – 2023. – (arXiv preprint arXiv:2301.11325).

Li P. Jen-1: Text-guided universal music generation with omnidirectional diffusion models / P. Li, B. Chen, Y. Yao, Y. Wang, A. Wang, A. Wang. – 2023. – (arXiv preprint arXiv:2308.04729).

Chen K. MusicLDM: Enhancing novelty in text-to-music generation using beat-synchronous mixup strategies / K. Chen, Y. Wu, H. Liu, M. Nezhurina, T. Berg-Kirkpatrick, S. Dubnov // ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2024. – pp. 1206–1210.

Schneider F. Mo^ usai: Text-to-music generation with long-context latent diffusion / F. Schneider, O. Kamal, Z. Jin, B. Schölkopf. – 2023. – (arXiv preprint arXiv:2301.11757).

Gong Y. Ast: Audio spectrogram transformer / Y. Gong, Y. A. Chung, J. Glass. – 2021. – (arXiv preprint arXiv:2104.01778).

Dosovitskiy A. An image is worth 16x16 words: Transformers for image recognition at scale / A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, ... N. Houlsby. – 2020. – (arXiv preprint arXiv:2010.11929).

##submission.downloads##

Опубліковано

2024-07-14

Номер

Розділ

ЕНЕРГЕТИКА, ЕЛЕКТРОНІКА ТА ЕЛЕКТРОМЕХАНІКА