Journal Articles

Deep Cross-Modal Retrieval Between Spatial Image and Acoustic Speech
Xinyuan Qian, Wei Xue, Qiquan Zhang, Ruijie Tao, Haizhou Li
IEEE Transactions on Multimedia, 2023. [pdf]
Deep Audio-visual Beamforming for Speaker Localization
Xinyuan Qian, Qiquan Zhang, Guohui Guan, Wei Xue
IEEE Signal Processing Letters, 2022. [pdf]
Pathway to Future Symbiotic Creativity
Yike Guo, Qifeng Liu, Jie Chen, Wei Xue, Henrik Jensen, Fernando Rosas, Jeffrey Shaw, Xing Wu, Jiji Zhang, Jianliang Xu
Arxiv, 2022. [pdf]
Speech Recognition with a Hearing-aid Processing Scheme Combining Beamforming with Mask-informed Speech Enhancement
Tim Green, Gaston Hilkhuysen, Mark Huckvale, Stuart Rosen, Mike Brookes, Alastair H. Moore, Patrick A. Naylor, Leo Lightburn, Wei Xue
Trends in Hearing, 26:1-16, 2022. [pdf]
Speech Enhancement Based on Modulation-Domain Parametric Multichannel Kalman Filtering
Wei Xue, Alastair H. Moore, Patrick A. Naylor, Mike Brookes
IEEE/ACM Transactions on Audio, Speech and Language Processing, 29:393-405, 2020. [pdf]
Noise Covariance Matrix Estimation for Rotating Microphone Arrays
Alastair H. Moore, Wei Xue, Patrick A. Naylor, Mike Brookes
IEEE/ACM Transactions on Audio, Speech and Language Processing, 27(3):519-530, 2018. [pdf]
Modulation-Domain Multichannel Kalman Filtering for Speech Enhancement
Wei Xue, Alastair H. Moore, Mike Brookes, Patrick A. Naylor
IEEE/ACM Transactions on Audio, Speech and Language Processing, 26(10): 1833-1847, 2018. [pdf]
Noise Robust Direction of Arrival Estimation for Speech Source with Weighted Bispectrum Spatial Correlation Matrix
Wei Xue, Wenju Liu, Shan Liang
IEEE Journal of Selected Topics in Signal Processing, 9(5): 837-851, 2015. [pdf]
The Analysis of the Simplification from the Ideal Ratio to Binary Mask in Signal-to-Noise Ratio Sense
Shan Liang, Wenju Liu, Wei Jiang, Wei Xue
Speech Communication, Vol. 59, pp. 22-30, 2014. [pdf]
The Optimal Ratio Time-Frequency Mask for Speech Separation in Terms of the Signal-to-Noise Ratio
Shan Liang, Wenju Liu, Wei Jiang, Wei Xue
The Journal of the Acoustical Society of America, 134(5): EL452-458, 2013. [pdf]

Conference Articles

FM-OV3D: Foundation Model-based Cross-modal Knowledge Blending for Open-Vocabulary 3D Detection
Dongmei Zhang, Chang Li, Ray Zhang, Shenghao Xie, Wei Xue, Xiaodong Xie, Shanghang Zhang
AAAI Conference on Artificial Intelligence (AAAI), 2024.
MARBLE: Music Audio Representation Benchmark for Universal Evaluation
Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger B. Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu
Conference on Neural Information Processing Systems (NeurIPS), 2023.
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
Zhen Ye, Wei Xue*, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo*
ACM Multimedia (ACM MM), 2023.
LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT
Le Zhuo, Ruibin Yuan, Jiahao Pan, Yinghao Ma, Yizhi LI, Ge Zhang, Si Liu, Roger Dannenberg, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wenhu Chen, Wei Xue, Yike Guo
International Society for Music Information Retrieval (ISMIR), 2023. [pdf]
NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound Synthesis based on Frequency Modulation
Zhen Ye, Wei Xue*, Xu Tan, Qifeng Liu, Yike Guo*
International Joint Conference on Artificial Intelligence (IJCAI), 2023. [pdf]
GCC-speaker: Target Speaker Localization with Optimal Speaker-dependent Weighting in Multi-speaker Scenarios
Guanjun Li, Wei Xue, Wenju Liu, JiangYan Yi, Jianhua Tao
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023. [pdf]
Learn to Sing by Listening: Building Controllable Virtual Singer by Unsupervised Learning from Voice Recordings
Wei Xue, Yiwen Wang, Qifeng Liu, Yike Guo
arXiv preprint arXiv:2305.05401), 2023.
MoMusic: A Motion-Driven Human-AI Collaborative Music Composition and Performing System
Weizhen Bian, Yijin Song, Nianzhen Gu, Tin Yan Chan, Tsz To Lo, Tsun Sun Li, King Chak Wong, Wei Xue*, Roberto Alonso Trillo*
AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI), 2023. [pdf]
Improving Low-resource Sound Event Localization and Detection via Active Learning with Domain Adaptation
Yuhao Wang, Yuxin Duan, Pingjie Wang, Yu Wang*, Wei Xue*
Tech Report, Detection and Classification of Acoustic Scenes and Events (DCASE) Challenge, 2022. [pdf]
Causal System Identification based Compensation for Reverberation-Robust DOA Estimation
Li He, Wei Xue
European Signal Processing Conference (EUSIPCO), 2021. [pdf]
Neural Kalman Filtering for Speech Enhancement
Wei Xue, Gang Quan, Chao Zhang, Guohong Ding, Xiaodong He, Bowen Zhou
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021. [pdf]
Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-Task Learning
Wei Xue, Ying Tong, Chao Zhang, Guohong Ding, Xiaodong He, Bowen Zhou
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2020. [pdf]
The JD AI Speaker Verification System For the FFSVC Challenge
Ying Tong, Wei Xue, Shanluo Huang, Lu Fan, Chao Zhang, Guohong Ding, Xiaodong He
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2020. [pdf]
SkipConvNet: Skip Convoultional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping
Vinay Kothapally, Wei Xia, Suahram Ghorbani, John H.L. Hansen, Wei Xue, Jing Huang
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2020. [pdf]
Multi-beam and Multi-task Learning for Joint Sound Event Detection and Localization
Wei Xue, Ying Tong, Chao Zhang, Guohong Ding
Tech Report, Detection and Classification of Acoustic Scenes and Events (DCASE) Challenge, 2019. [pdf]
Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation
Wei Xue, Ying Tong, Guohong Ding, Chao Zhang, Tao Ma, Xiaodong He and Bowen Zhou
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2019. [pdf]
Modulation-Domain Parametric Multichannel Kalman Filtering for Speech Enhancement
Wei Xue, Alastair H. Moore, Mike Brookes, Patrick A. Naylor
European Signal Processing Conference (EUSIPCO), 2018. [pdf]
Multichannel Kalman Filtering for Speech Enhancement
Wei Xue, Alastair H. Moore, Mike Brookes, Patrick A. Naylor
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018. [pdf]
Binaural Mask-informed Speech Enhancement For Hearing Aids With Head Tracking
Alastair H. Moore, Leo Lightburn, Wei Xue, Mike Brookes, Patrick A. Naylor
IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), 2018. [pdf]
Estimation of the Noise Covariance Matrix for Rotating Sensor Arrays
Alastair H. Moore, Wei Xue, Mike Brookes, Patrick A. Naylor
Asilomar Conference on Signals, Systems and Computers (ACSSC), 2018. [pdf]
Frequency-Domain Under-Modelled Blind System Identification Based on Cross Power Spectrum and Sparsity Regularization
Wei Xue, Mike Brookes, Patrick A. Naylor
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017. [pdf]
Multilingual I-Vector based Statistical Modeling for Music Genre Classification
Jia Dai, Wei Xue, Wenju Liu
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2017. [pdf]
Under-Modelled Blind System Identification for Time Delay Estimation in Reverberant Environments
Wei Xue, Mike Brookes, Patrick A. Naylor
IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), 2016. [pdf]
Cross-Correlation Based Under-Modelled Multichannel Blind Acoustic System Identification with Sparsity Regularization
Wei Xue, Mike Brookes, Patrick A. Naylor
European Signal Processing Conference (EUSIPCO), 2016. [pdf]
Semi-supervised Learning of Bottleneck Feature for Music Genre Classification
Jia Dai, Wenju Liu, Hao Zheng, Wei Xue, Chongjia Ni
Chinese Conference on Pattern Recognition (CCPR), 2016. [pdf]
Fusional Segment Feature based on Long Short-term Memory Recurrent Neural Network for Music Genre Classification
Jia Dai, Shan Liang, Wei Xue, Chongjia Ni, Wenju Liu
International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016. [pdf]
A Novel Codebook Representation Method and Encoding Strategy For Bag-of-Words Based Acoustic Event Classification
Jia Dai, Chongjia Ni, Wei Xue, Wenju Liu
Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2015. [pdf]
Joint Optimization of Recurrent Networks Exploiting Source Auto-Regression for Source Separation
Shuai Nie, Wei Xue, Shan Liang, Xueliang Zhang, Wenju Liu, Liwei Qiao, JianPing Li
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2015. [pdf]
Two-Stage Multi-Target Joint Learning for Monaural Speech Separation
Shuai Nie, Shan Liang, Wei Xue, Xueliang Zhang, Wenju Liu, Like Dong, Hong Yang
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2015. [pdf]
Weighted Spatial Bispectrum Correlation Matrix for DOA Estimation in the Presence of Interferences
Wei Xue, Shan Liang, Wenju Liu
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2014. [pdf]
DOA Estimation of Speech Source in Noisy Environments with Weighted Spatial Bispectrum Correlation Matrix
Wei Xue, Shan Liang, Wenju Liu
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014. [pdf]
Interference Robust DOA Estimation of Human Speech by Exploiting Historical Information and Temporal Correlation
Wei Xue, Shan Liang, Wenju Liu
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2013. [pdf]
Direction of Arrival Estimation Based on Subband Weighting for Noisy Conditions
Wei Xue, Wenju Liu
Annual Conference of the International Speech Communication Association (INTERSPEECH), 2012. [pdf]