Research

Journal Papers

Kentaro Seki, Yuki Saito, Shinnosuke Takamichi, Takaaki Saeki and Hiroshi Saruwatari, “Toward Data-Efficient Speech Synthesis: Active Learning-Based Corpus Construction for Multi-Speaker Text-to-Speech Synthesis,” IEEE Access, Vol. 13, pp. 217900–217912, Dec. 2025. [OPEN ACCESS]
Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki and Hiroshi Saruwatari, “TTSOps: A Closed-Loop Corpus Optimization Framework for Training Multi-Speaker TTS Models from Dark Data,” IEEE Transactions on Audio, Speech, and Language Processing, Vol. 33, pp. 4956–4970, Nov. 2025. [arXiv preprint] [OPEN ACCESS]
Kentaro Seki, Nobutaka Ito, Kazuki Yamauchi, Yuki Okamoto, Kouei Yamaoka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, “Language-queried target speech extraction using para-linguistic and non-linguistic prompts,” Acoustical Science and Technology, Vol. 46, No. 6, pp. 671–675, Nov. 2025. [OPEN ACCESS]

International Conference Proceedings

Wataru Nakata*, Kentaro Seki*, Hitomi Yanaka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, “J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling,” in Proc. LREC, 2026. [arXiv preprint] [Proceedings]
Kentaro Seki, Yuki Okamoto, Kouei Yamaoka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, “Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings for Multi-Source Conditions,” in Proc. ICASSP, 2026. [arXiv preprint]
Kentaro Seki, Natsuhiro Tsuboi, Toshiki Kaisaki, Yuto Ishikawa, Yuki Saito, Kouei Yamaoka, and Hiroshi Saruwatari, “Real-Time Hearing Assistance System Combining Multichannel Speech Enhancement and Voice Conversion for Improved Listening Comfort,” in Sixth Joint Meeting: Acoustical Society of America and Acoustical Society of Japan, Dec. 2025. (abstract reviewed)
Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki and Hiroshi Saruwatari, “Active Learning for Text-to-Speech Synthesis with Informative Sample Collection" in Proc. APSIPA ASC, 2025. [arXiv preprint]
Kentaro Seki, Shinnosuke Takamichi, Norihiro Takamune, Yuki Saito, Kanami Imamura, and Hiroshi Saruwatari, “Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals" in Proc. Interspeech, 2024. [arXiv preprint]
Takuto Igarashi, Yuki Saito, Kentaro Seki, Shinnosuke Takamichi, Ryuichi Yamamoto, and Kentaro Tachibana and Hiroshi Saruwatari, “Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment" in Proc. Interspeech, 2024.
Yuki Saito, Takuto Igarashi, Kentaro Seki, Shinnosuke Takamichi, Ryuichi Yamamoto, Kentaro Tachibana, and Hiroshi Saruwatari. “SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark" in Proc. Interspeech, 2024.
Osamu Take, Shinnosuke Takamichi, Kentaro Seki, Yoshiaki Bando, and Hiroshi Saruwatari, “SaSLaW: Dialogue Speech Corpus with Audio-visual Egocentric Information Toward Environment-adaptive Dialogue Speech Synthesis" in Proc. Interspeech, 2024.
Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki and Hiroshi Saruwatari, “Diversity-based core-set selection for text-to-speech with linguistic and acoustic features" in Proc. ICASSP, 2024.[arXiv preprint]
Joonyong Park, Shinnosuke Takamichi, Tomohiko Nakamura, Kentaro Seki, Detai Xin and Hiroshi Saruwatari, “How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics" in Proc. Interspeech, 2023. [arXiv preprint]
Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki and Hiroshi Saruwatari, “Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection" in Proc. ICASSP, 5 pages, 2023.[arXiv preprint]

Preprint

Wataru Nakata, Kentaro Seki, Hitomi Yanaka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, “J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling”, 2024. [arXiv preprint]

Domestic Conference Proceedings

関健太郎, 岡本悠希, 山岡洸瑛, 齋藤佑樹, 高道慎之介, and 猿渡洋, “Spatial Audio Captioning: 複数音源状況下における空間情報を伴う説明文の生成とその評価,” in 日本音響学会第155回(2026年春季)研究発表会, Mar. 2026.
関健太郎, 齋藤佑樹, 高道慎之介, 佐伯高明, and 猿渡洋, “TTSOps 2.0: テキスト音声合成におけるデータ収集・前処理・学習プロセスの統合的最適化,” in 日本音響学会第155回(2026年春季)研究発表会, Mar. 2026.
早崎勇輝, 関健太郎, 岡本悠希, 山岡洸瑛, 齋藤佑樹, and 猿渡洋, “Moving-CLAP：移動音源に対応した音響言語モデルの提案,” in SPEASIP2026ワークショップ, Mar. 2026.
関健太郎, 岡本悠希, 山岡洸瑛, 齋藤佑樹高道慎之介, and 猿渡洋, “ステレオ信号に対する空間情報を伴う音響キャプショニング,” in 第20回言語処理若手シンポジウム（YANS2025）, Sep. 2025.
中田亘, 山内一輝, 関健太郎, 齋藤佑樹, 猿渡洋, 中村友彦, 坂東宜昭, and 深山覚, “BigGSE: 自己教師ありモデル特徴量空間でのFlow Matchingに基づく生成的音声強調,” in 日本音響学会第154回(2025年秋季)研究発表会, Sep. 2025.
関健太郎, 伊藤信貴, 山内一輝, 岡本悠希, 山岡洸瑛, 齋藤佑樹, 高道慎之介, and 猿渡洋, “パラ言語・非言語情報の記述文をクエリとした目的音声抽出,” in 日本音響学会第154回(2025年秋季)研究発表会, Sep. 2025.
関健太郎, 岡本悠希, 山岡洸瑛, 齋藤佑樹, 高道慎之介, and 猿渡洋, “空間情報を伴う音響言語モデルの検討,” in 日本音響学会第154回(2025年秋季)研究発表会, Sep. 2025.
有田諒子, 中田亘, 山内一輝, 関健太郎, 楊棟, 齋藤佑樹, and 猿渡洋, “歌声合成システムの開発に向けた音響モデルと特徴量の検討,” in 音学シンポジウム2025, Jun. 2025.
関健太郎, 高道慎之介, 佐伯高明, 猿渡洋, “データ単位前処理自動選択による音声合成コーパスのデータクレンジング,” 日本音響学会第153回(2025年春季)研究発表会, Mar. 2025.
関健太郎, 李莉, 関翔悟, 山岡洸瑛, “分散マイクロフォンアレイを用いたスポットフォーミングにおける空間フィルタと時間周波数マスクの同時最適化,” 日本音響学会第153回(2025年春季)研究発表会, Mar. 2025.
高道慎之介, 和田仰, 小川諒, 山岡洸瑛, 中田亘, 淺井航平, 関健太郎, 岡本悠希, 齋藤佑樹, 小川哲司, 猿渡洋, 中村友彦, and 深山覚, “音声・音響・音楽を扱うオープン基盤モデルの構築に向けたデータセット策定,” in 言語処理学会第31回年次大会(NLP2025), Mar. 2025.
淺井航平, 齋藤佑樹, 中田亘, 関健太郎, 猿渡洋, “話者オーバーラップ音声からの特徴抽出に向けた自己教師あり学習モデルの検討,” 日本音響学会第153回(2025年春季)研究発表会, Mar. 2025.
濱田誉輝, 齋藤佑樹, 中田亘, 山内一輝, 関健太郎, 岡本悠希, 猿渡洋, “ペルソナ説明文を利用した合成音声の話者性制御手法の検討,” 日本音響学会第153回(2025年春季)研究発表会, Mar. 2025.
武伯寒, 高道慎之介, 関健太郎, 猿渡洋, “音環境に適応する音声合成能力を搭載した音声対話システムの構築と実証実験に基づく検討,” 情報処理学会第155回音声言語情報処理研究発表会, Mar. 2025.
高田賢太, 関健太郎, 齋藤佑樹, 山岡洸瑛, 石川悠人, 猿渡洋, “オンライン空間音声変換に向けたBSS・VC・リミックスの統合,” 音声研究会, Mar. 2025.
関健太郎, 高道慎之介, 佐伯高明, 猿渡洋, “データ重要度評価に基づく能動学習を用いた音声合成,” 第27回情報論的学習理論ワークショップ, Nov. 2024.
武伯寒, 高道慎之介, 関健太郎, 坂東宜昭, 猿渡洋, “音環境に適応するテキスト音声合成のための一人称視点コーパス構築,” 情報処理学会第151回音声言語情報処理研究発表会, Mar. 2024.
五十嵐琢斗, 齋藤佑樹, 関健太郎, 高道慎之介, 山本龍一, 橘健太郎, 猿渡洋, “音声品質と音響環境の潜在変数で条件付けた Denoising Trainingによるノイズロバスト音声変換,” 電子情報通信学会研究報告, Mar. 2024.
齋藤佑樹, 五十嵐琢斗, 関健太郎, 高道慎之介, 山本龍一, 橘健太郎, 猿渡洋, “SRC4VCデータセット：多話者音声変換モデルのベンチマークを目的とした実デバイス収録音声コーパス,” 電子情報通信学会研究報告, Mar. 2024.
岡本美柚, 関健太郎, 高道慎之介, 齋藤佑樹, 伊藤貴之, “ImTTS：印象推定の可視化を用いた多話者音声合成システム,” 情報処理学会第201回ヒューマンコンピュータインタラクション研究会, Jan. 2024.
岡本美柚, 関健太郎, 高道慎之介, 齋藤佑樹, 伊藤貴之, “ImTTS：印象推定の可視化を用いた多話者音声合成システム,” NICOGRAPH 2023, Dec. 2024（査読あり）.
関健太郎, 高道慎之介, 佐伯高明, 猿渡洋, “テキスト音声合成におけるデータサブセット選択のための指標検討,” 日本音響学会第150回(2023年秋季)研究発表会, Sep. 2023.
朴浚溶, 高道慎之介, 中村友彦, 関健太郎, 辛德泰, 猿渡洋, “Generative Spoken Language Model を用いた劣化雑音音声の分析と他言語への適用,” 日本音響学会第149回(2023年春季)研究発表会, Sep. 2023.
関健太郎, 高道慎之介, 佐伯高明, 猿渡洋, “学習・評価ループを用いたデータ選択によるダークデータからの音声合成,” 日本音響学会第149回(2023年春季)研究発表会, Mar. 2023.[論文][スライド]

Invited talk

Kentaro Seki, “Data Selection for Text-to-speech with Feedback from Automatic Evaluation of Naturalness on Synthetic Speech”, in Joint Workshop of VoicePersonae and ASVspoof (VoiceMOS mini workshop) 2023, Nov. 2023.

Others

関健太郎, “国際会議報告 INTERSPEECH”, 人工知能学会第15回対話システムシンポジウム, 2024年11月.

Award


2026.03	電気通信普及財団海外渡航旅費援助 (ICASSP 2026)
2026.03	IEEE SPS Japan Student Conference Paper Award
2025.09	第20回YANSシンポジウムスポンサー賞 (PKSHA Technology 賞)
2024.03	Google Travel Grants for Students in East Asia 受賞
2023.09	日本音響学会学生優秀発表賞受賞
2023.03	IEEE SPS Travel Grant for IEEE ICASSP 2023 受賞

Journal Papers#

International Conference Proceedings#

Preprint#

Domestic Conference Proceedings#

Invited talk#

Others#

Award#

Journal Papers

International Conference Proceedings

Preprint

Domestic Conference Proceedings

Invited talk

Others

Award