Mana Ihori

Publication Activity (10 Years)

Years Active: 2019-2024
Publications (10 Years): 49

Top Topics

Speech Recognition

Sequence Labeling

Top Venues

Publications

Saki Mizuno, Nobukatsu Hojo, Kazutoshi Shinoda, Keita Suzuki, Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Naotaka Kawata, Satoshi Kobashikawa, Ryo Masumura
Talking Face Generation for Impression Conversion Considering Speech Semantics. ICASSP (2024)
Nobukatsu Hojo, Saki Mizuno, Satoshi Kobashikawa, Ryo Masumura, Mana Ihori, Hiroshi Sato, Tomohiro Tanaka
Audio-Visual Praise Estimation for Conversational Video based on Synchronization-Guided Multimodal Transformer. INTERSPEECH (2023)
Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura, Saki Mizuno, Nobukatsu Hojo
Transcribing Speech as Spoken and Written Dual Text Using an Autoregressive Model. INTERSPEECH (2023)
Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando
End-to-End Joint Target and Non-Target Speakers ASR. CoRR (2023)
Hiroshi Sato, Ryo Masumura, Tsubasa Ochiai, Marc Delcroix, Takafumi Moriya, Takanori Ashihara, Kentaro Shinayama, Saki Mizuno, Mana Ihori, Tomohiro Tanaka, Nobukatsu Hojo
Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss. INTERSPEECH (2023)
Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando
End-to-End Joint Target and Non-Target Speakers ASR. INTERSPEECH (2023)
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi
Text-to-Text Pre-Training with Paraphrasing for Improving Transformer-Based Image Captioning. EUSIPCO (2023)
Hiroshi Sato, Ryo Masumura, Tsubasa Ochiai, Marc Delcroix, Takafumi Moriya, Takanori Ashihara, Kentaro Shinayama, Saki Mizuno, Mana Ihori, Tomohiro Tanaka, Nobukatsu Hojo
Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss. CoRR (2023)
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Hiroshi Sato, Taiga Yamane, Takanori Ashihara, Kohei Matsuura, Takafumi Moriya
Leveraging Language Embeddings for Cross-Lingual Self-Supervised Speech Representation Learning. ICASSP (2023)
Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura
Retrieval, Masking, and Generation: Feedback Comment Generation using Masked Comment Examples. INLG (Generation Challenges) (2023)
Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Takafumi Moriya, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Ryo Masumura
Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations. CoRR (2022)
Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura
Multi-Perspective Document Revision. COLING (2022)
Ryo Masumura, Yoshihiro Yamazaki, Saki Mizuno, Naoki Makishima, Mana Ihori, Mihiro Uchida, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Shota Orihashi, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando
End-to-End Joint Modeling of Conversation History-Dependent and Independent ASR Systems with Multi-History Training. INTERSPEECH (2022)
Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Takafumi Moriya, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Ryo Masumura
Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations. INTERSPEECH (2022)
Tomohiro Tanaka, Ryo Masumura, Hiroshi Sato, Mana Ihori, Kohei Matsuura, Takanori Ashihara, Takafumi Moriya
Domain Adversarial Self-Supervised Speech Representation Learning for Improving Unknown Domain Downstream Tasks. INTERSPEECH (2022)
Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura
Enrollment-Less Training for Personalized Voice Activity Detection. Interspeech (2021)
Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura
Hierarchical Knowledge Distillation for Dialogue Sequence Labeling. ASRU (2021)
Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura
MAPGN: MAsked Pointer-Generator Network for sequence-to-sequence pre-training. CoRR (2021)
Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura
Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss. ICASSP (2021)
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Takafumi Moriya, Takanori Ashihara, Shota Orihashi, Naoki Makishima
Cross-Modal Transformer-Based Neural Correction Models for Automatic Speech Recognition. Interspeech (2021)
Ryo Masumura, Daiki Okamura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi
Unified Autoregressive Modeling for Joint End-to-End Multi-Talker Overlapped Speech Recognition and Speaker Attribute Estimation. CoRR (2021)
Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura
Zero-Shot Joint Modeling of Multiple Spoken-Text-Style Conversion Tasks Using Switching Tokens. Interspeech (2021)
Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura
Hierarchical Knowledge Distillation for Dialogue Sequence Labeling. CoRR (2021)
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi
Large-Context Conversational Representation Learning: Self-Supervised Learning For Conversational Documents. SLT (2021)
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi
Large-Context Conversational Representation Learning: Self-Supervised Learning for Conversational Documents. CoRR (2021)
Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura
Utilizing Resource-Rich Language Datasets for End-to-End Scene Text Recognition in Resource-Poor Languages. MMAsia (2021)
Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura
Utilizing Resource-Rich Language Datasets for End-to-End Scene Text Recognition in Resource-Poor Languages. CoRR (2021)
Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura
MAPGN: Masked Pointer-Generator Network for Sequence-to-Sequence Pre-Training. ICASSP (2021)
Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura
Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss. CoRR (2021)
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi
Hierarchical Transformer-Based Large-Context End-To-End ASR with Large-Context Knowledge Distillation. ICASSP (2021)
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Takafumi Moriya, Takanori Ashihara, Shota Orihashi, Naoki Makishima
Cross-Modal Transformer-Based Neural Correction Models for Automatic Speech Recognition. CoRR (2021)
Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura
Zero-Shot Joint Modeling of Multiple Spoken-Text-Style Conversion Tasks using Switching Tokens. CoRR (2021)
Ryo Masumura, Daiki Okamura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi
Unified Autoregressive Modeling for Joint End-to-End Multi-Talker Overlapped Speech Recognition and Speaker Attribute Estimation. Interspeech (2021)
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Shota Orihashi, Naoki Makishima
End-to-End Rich Transcription-Style Automatic Speech Recognition with Semi-Supervised Learning. Interspeech (2021)
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi
Hierarchical Transformer-based Large-Context End-to-end ASR with Large-Context Knowledge Distillation. CoRR (2021)
Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Shota Orihashi, Naoki Makishima
End-to-End Rich Transcription-Style Automatic Speech Recognition with Semi-Supervised Learning. CoRR (2021)
Ryo Masumura, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Takanori Ashihara
End-to-End Automatic Speech Recognition with Deep Mutual Learning. CoRR (2021)
Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi, Ryo Masumura
Enrollment-less training for personalized voice activity detection. CoRR (2021)
Akihiko Takashima, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura
Unsupervised Domain Adversarial Training in Angular Space for Facial Expression Recognition. APSIPA (2020)
Mana Ihori, Akihiko Takashima, Ryo Masumura
Large-Context Pointer-Generator Networks for Spoken-to-Written Style Conversion. ICASSP (2020)
Mana Ihori, Ryo Masumura, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi
Memory Attentive Fusion: External Language Model Integration for Transformer-based Sequence-to-Sequence Model. CoRR (2020)
Mana Ihori, Akihiko Takashima, Ryo Masumura
Parallel Corpus for Japanese Spoken-to-Written Style Conversion. LREC (2020)
Ryo Masumura, Mana Ihori, Akihiko Takashima, Takafumi Moriya, Atsushi Ando, Yusuke Shinohara
Sequence-Level Consistency Training for Semi-Supervised End-to-End Automatic Speech Recognition. ICASSP (2020)
Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Ryo Masumura
Unsupervised Domain Adaptation for Dialogue Sequence Labeling Based on Hierarchical Adversarial Training. INTERSPEECH (2020)
Mana Ihori, Ryo Masumura, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi
Memory Attentive Fusion: External Language Model Integration for Transformer-based Sequence-to-Sequence Model. INLG (2020)
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi
Phoneme-to-Grapheme Conversion Based Large-Scale Pre-Training for End-to-End Automatic Speech Recognition. INTERSPEECH (2020)
Ryo Masumura, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Takanori Ashihara
End-to-End Automatic Speech Recognition with Deep Mutual Learning. APSIPA (2020)
Ryo Masumura, Mana Ihori, Tomohiro Tanaka, Atsushi Ando, Ryo Ishii, Takanobu Oba, Ryuichiro Higashinaka
Improving Speech-Based End-of-Turn Detection Via Cross-Modal Representation Learning with Punctuated Text Data. ASRU (2019)
Ryo Masumura, Mana Ihori, Tomohiro Tanaka, Itsumi Saito, Kyosuke Nishida, Takanobu Oba
Generalized Large-Context Language Models Based on Forward-Backward Hierarchical Recurrent Encoder-Decoder Models. ASRU (2019)