発表文献(国内)
2025
- ASJ状態空間モデルMambaに基づくend-to-endニューラル話者ダイアライゼーションモデル俵直弘, PlaquetAlexis, デルクロアマーク, 堀口翔太, 安藤厚志, 荒木章子日本音響学会 第153回(2025年春季)研究発表会, 2025年3月
@inproceedings{tawara2025joutai, title = {状態空間モデルMambaに基づくend-to-endニューラル話者ダイアライゼーションモデル}, booktitle = {日本音響学会 第153回(2025年春季)研究発表会}, author = {俵, 直弘 and Plaquet, Alexis and デルクロア, マーク and 堀口, 翔太 and 安藤, 厚志 and 荒木, 章子}, year = {2025}, month = mar, date = {19}, location = {埼玉} }
- ASJEnd-to-endニューラル話者ダイアライゼーションのためのマルチチャネル話者数推定俵直弘, 安藤厚志, 堀口翔太, デルクロアマーク日本音響学会 第153回(2025年春季)研究発表会, 2025年3月
@inproceedings{tawara2025end, title = {End-to-endニューラル話者ダイアライゼーションのためのマルチチャネル話者数推定}, booktitle = {日本音響学会 第153回(2025年春季)研究発表会}, author = {俵, 直弘 and 安藤, 厚志 and 堀口, 翔太 and デルクロア, マーク}, year = {2025}, month = mar, date = {17}, location = {埼玉} }
- SP目的話者音声処理のための話者埋込の分析芦原孝典, 森谷崇史, 堀口翔太, 彭俊逸, 落合翼, デルクロアマーク, 松浦孝平, 佐藤宏情報処理学会 音声言語情報処理研究会 (IPSJ-SLP), 2025年3月
目的話者音声処理タスク (TSタスク) には,目的話者音声認識 (TS-ASR),目的話者音声抽出 (TSE),目的話者音声区間検出 (p-VAD) などがあり,複数話者が同時に発話するような日常的環境において目的話者の情報を抽出する際に効果的である.これまでのTSタスクの主な研究では,タスク毎の学習法やシステム構成などに焦点が当てられてきた.一方で,TSタスクを解く際の手がかりとなる目的話者の埋込表現については,タスク横断で包括的に分析されていない.そこで本研究では,TSタスクにとって最適な話者埋込はどのような表現なのか明らかにすることを目的とし,事前登録発話に基づく話者エンコーダ (自己教師ありモデル・話者認識モデル) と,各話者のIDに対応するone-hotベクトルに基づく話者エンコーダとを比較した.また,それらの話者埋込を正解ラベルに対する勾配を用いて直接最適化する手法を提案し,得られた表現を分析した.結果から,one-hotベクトルによる埋込が事前登録発話に基づく埋込よりもTSタスクの精度で上回り,最適な話者埋込は混合発話ごとに異なることを見出した.
@inproceedings{ashihara2025mokuteki, title = {目的話者音声処理のための話者埋込の分析}, booktitle = {情報処理学会 音声言語情報処理研究会 (IPSJ-SLP)}, author = {芦原, 孝典 and 森谷, 崇史 and 堀口, 翔太 and 彭, 俊逸 and 落合, 翼 and デルクロア, マーク and 松浦, 孝平 and 佐藤, 宏}, year = {2025}, month = mar, date = {4}, location = {沖縄}, }
- IPSJ-SLP音声因子句による条件付けを用いた発話スタイルキャプショニング安藤厚志, 森谷崇史, 堀口翔太, 増村亮情報通信学会 音声言語処理研究会 (IPSJ-SP), 2025年3月
本稿では,発話スタイルに関する情報(話者性別,音量,音高,...)を正確に認識しながら多様な表現を生成する,新たな発話スタイルキャプショニング手法を提案する.従来手法では,発話スタイルに関する語だけでなく構文に関する語も含むキャプションをそのまま正解文として学習するため,音声からの発話スタイル情報の学習が難しく,文法は正しいが発話スタイル情報に誤りがある文を生成しやすいという課題があった.この問題を解決するため,提案手法では発話スタイル情報を表す音声因子句を導入し,音声因子句を生成させたのちキャプションを生成させるようモデル学習を行うことで,発話スタイル情報を明示的に学習させる.さらに,発話スタイル情報を正確に認識しながら多様なキャプションを生成させるための新たなデコーディング手法も提案する.実験の結果,提案手法は従来手法に比べて発話スタイル情報をより高精度に認識しつつ,より多様なキャプションを生成できることが確認された.
@inproceedings{ando2025onsei, title = {音声因子句による条件付けを用いた発話スタイルキャプショニング}, booktitle = {情報通信学会 音声言語処理研究会 (IPSJ-SP)}, author = {安藤, 厚志 and 森谷, 崇史 and 堀口, 翔太 and 増村, 亮}, year = {2025}, month = mar, date = {4}, location = {沖縄}, }
- SP発話区間を用いた目的話者特徴量抽出堀口翔太, 森谷崇史, 安藤厚志, 芦原孝典, 佐藤宏, 俵直弘, デルクロアマーク電子情報通信学会 音声研究会 (SP), 2025年3月
本稿では,複数話者が発話する音声から,各話者の発話区間を手掛かりに特定の話者の特徴量を抽出する手法を提案する.重複を含む長尺の複数話者音声に対する音声処理方法として,まずセグメント単位で話者毎の発話区間付きの結果を求め,その後セグメント間の話者同一性を判定するという2段階の処理が広く用いられている.後者では話者特徴量がしばしば利用されるが,抽出対象でない話者の音声による悪影響を防ぐため,抽出対象話者の単独発話区間のみを利用して話者特徴量を抽出することが主流であった.しかし,十分に長い単独発話区間が存在しない場合には,高品質な話者特徴量の抽出が困難となる.本稿では,話者の発話区間情報を利用して,複数話者音声から特定の話者の特徴量を直接抽出する手法を提案する.具体的には,抽出対象話者および非対象話者の発話区間情報を音響特徴量に統合して話者特徴量抽出器に入力し,またプーリングにおいて非発話区間由来の埋め込みを利用しないようにする.話者照合と話者ダイアライゼーションにおける評価実験により,複数のタスクにおいて提案手法の有効性を示す.
@inproceedings{horiguchi2025hatsuwa, title = {発話区間を用いた目的話者特徴量抽出}, booktitle = {電子情報通信学会 音声研究会 (SP)}, author = {堀口, 翔太 and 森谷, 崇史 and 安藤, 厚志 and 芦原, 孝典 and 佐藤, 宏 and 俵, 直弘 and デルクロア, マーク}, year = {2025}, month = mar, date = {2}, pages = {46--51}, location = {沖縄}, }
2024
- ASJEnd-to-Endダイアライゼーションのための自然な会話データのシミュレーション手法山下夏生, 堀口翔太, 本間健日本音響学会 第152回(2024年秋季)研究発表会, 2024年9月
@inproceedings{yamashita2024endtoend, title = {End-to-Endダイアライゼーションのための自然な会話データのシミュレーション手法}, booktitle = {日本音響学会 第152回(2024年秋季)研究発表会}, author = {山下, 夏生 and 堀口, 翔太 and 本間, 健}, year = {2024}, month = sep, date = {4}, pages = {1091--1094}, location = {大阪} }
- ASJ複数話者音声からの話者特徴量抽出堀口翔太, 安藤厚志, 森谷崇史, 芦原孝典, 佐藤宏, 俵直弘, デルクロアマーク日本音響学会 第152回(2024年秋季)研究発表会, 2024年9月
@inproceedings{horiguchi2024fukusuu, title = {複数話者音声からの話者特徴量抽出}, booktitle = {日本音響学会 第152回(2024年秋季)研究発表会}, author = {堀口, 翔太 and 安藤, 厚志 and 森谷, 崇史 and 芦原, 孝典 and 佐藤, 宏 and 俵, 直弘 and デルクロア, マーク}, year = {2024}, month = sep, date = {4}, pages = {1087--1090}, location = {大阪} }
2023
- IBISRegression via Classificationを用いた回帰問題に対するストリーム型能動学習堀口翔太, 土肥宏太, 川口洋平第26回情報論的学習理論ワークショップ (IBIS2023), 2023年10月
ストリーム型能動学習では,逐次到着するサンプルに対して予測を行うとともにその不確実性を評価し,不確実性が高いサンプルにはラベルを付与してモデルを再学習する。分類問題に対しては予測クラスへの帰属確率に基づく不確実性評価を用いた様々な手法が提案されてきたが,回帰問題に対する検討は少ない。本研究では回帰問題を分類問題に変換し,分類問題向けに提案された能動学習の手法を回帰問題にも直接適用可能にした。
@inproceedings{horiguchi2023regression, title = {Regression via Classificationを用いた回帰問題に対するストリーム型能動学習}, booktitle = {第26回情報論的学習理論ワークショップ (IBIS2023)}, author = {堀口, 翔太 and 土肥, 宏太 and 川口, 洋平}, year = {2023}, month = oct, date = {30}, location = {福岡} }
- ASJ自己教師あり学習モデルに基づくなりすまし攻撃が話者照合システムに与えるリスクの評価伊藤葵, 堀口翔太日本音響学会 第150回(2023年秋季)研究発表会, 2023年9月🏆 日本音響学会 学生優秀発表賞
@inproceedings{ito2023jiko, title = {自己教師あり学習モデルに基づくなりすまし攻撃が話者照合システムに与えるリスクの評価}, booktitle = {日本音響学会 第150回(2023年秋季)研究発表会}, author = {伊藤, 葵 and 堀口, 翔太}, year = {2023}, month = sep, date = {29}, pages = {1151--1154}, location = {愛知}, }
- ASJ話者数無制限ブロックオンラインダイアライゼーション堀口翔太, 渡部晋治, GarciaPaola, 高島悠樹, 川口洋平日本音響学会 第150回(2023年秋季)研究発表会, 2023年9月
@inproceedings{horiguchi2023washasu, title = {話者数無制限ブロックオンラインダイアライゼーション}, booktitle = {日本音響学会 第150回(2023年秋季)研究発表会}, author = {堀口, 翔太 and 渡部, 晋治 and Garcia, Paola and 高島, 悠樹 and 川口, 洋平}, year = {2023}, month = sep, date = {28}, pages = {1239--1242}, location = {愛知} }
- ASJ1チャンネルおよび多チャンネル話者ダイアライゼーションモデルの相互学習堀口翔太, 高島悠樹, 渡部晋治, GarciaPaola日本音響学会 第149回(2023年春季)研究発表会, 2023年3月
@inproceedings{horiguchi2023mutual, title = {1チャンネルおよび多チャンネル話者ダイアライゼーションモデルの相互学習}, booktitle = {日本音響学会 第149回(2023年春季)研究発表会}, author = {堀口, 翔太 and 高島, 悠樹 and 渡部, 晋治 and Garcia, Paola}, year = {2023}, month = mar, date = {17}, pages = {745--748}, location = {オンライン} }
2022
- ASJEnd-to-End音声認識の継続学習における部分パラメータ更新による破滅的忘却の防止高島悠樹, 堀口翔太, 渡部晋治, GarciaPaola, 川口洋平日本音響学会 2022年秋季研究発表会, 2022年9月
@inproceedings{takashima2022endtoend, title = {End-to-End音声認識の継続学習における部分パラメータ更新による破滅的忘却の防止}, booktitle = {日本音響学会 2022年秋季研究発表会}, author = {高島, 悠樹 and 堀口, 翔太 and 渡部, 晋治 and Garcia, Paola and 川口, 洋平}, year = {2022}, month = sep, date = {16}, pages = {1309--1312}, location = {北海道} }
- ASJ分散マイクを用いた多チャンネルニューラルダイアライゼーション堀口翔太, 高島悠樹, GarciaPaola, 渡部晋治, 川口洋平日本音響学会 2022年秋季研究発表会, 2022年9月
@inproceedings{horiguchi2022multichannel, title = {分散マイクを用いた多チャンネルニューラルダイアライゼーション}, booktitle = {日本音響学会 2022年秋季研究発表会}, author = {堀口, 翔太 and 高島, 悠樹 and Garcia, Paola and 渡部, 晋治 and 川口, 洋平}, year = {2022}, month = sep, date = {15}, pages = {1261--1264}, location = {北海道} }
- ASJ擬音語を用いた環境音抽出岡本悠希, 堀口翔太, 山本正明, 井本桂右, 川口洋平日本音響学会 2022年春季研究発表会, 2022年3月
@inproceedings{okamoto2022onomatopoe, title = {擬音語を用いた環境音抽出}, booktitle = {日本音響学会 2022年春季研究発表会}, author = {岡本, 悠希 and 堀口, 翔太 and 山本, 正明 and 井本, 桂右 and 川口, 洋平}, year = {2022}, month = mar, date = {10}, pages = {247--250}, location = {オンライン} }
- ASJ疑似ラベルを用いた話者ダイアライゼーションの半教師あり適応高島悠樹, 藤田雄介, 堀口翔太, 渡部晋治, GarciaPaola, 永松健司日本音響学会 2022年春季研究発表会, 2022年3月
@inproceedings{takashima2022pseudolabel, title = {疑似ラベルを用いた話者ダイアライゼーションの半教師あり適応}, booktitle = {日本音響学会 2022年春季研究発表会}, author = {高島, 悠樹 and 藤田, 雄介 and 堀口, 翔太 and 渡部, 晋治 and Garcia, Paola and 永松, 健司}, year = {2022}, month = mar, date = {9}, pages = {919--922}, location = {オンライン} }
- ASJグローバルアトラクタとローカルアトラクタに基づく話者数無制限ニューラルダイアライゼーション堀口翔太, 渡部晋治, GarciaPaola, 薛雅文, 高島悠樹, 川口洋平日本音響学会 2022年春季研究発表会, 2022年3月
@inproceedings{horiguchi2022global, title = {グローバルアトラクタとローカルアトラクタに基づく話者数無制限ニューラルダイアライゼーション}, booktitle = {日本音響学会 2022年春季研究発表会}, author = {堀口, 翔太 and 渡部, 晋治 and Garcia, Paola and 薛, 雅文 and 高島, 悠樹 and 川口, 洋平}, year = {2022}, month = mar, date = {9}, pages = {915--918}, location = {オンライン} }
2017
- ME深層特徴の比較評価 ~ 分類器学習 vs. 距離計量学習 ~堀口翔太, 伊神大貴, 相澤清晴映像情報メディア学会 メディア工学研究会(ME), 2017年2月🏆 映像情報メディア学会 優秀研究発表賞
有用な深層特徴を得ることは画像に関わる全ての課題において重要である.分類器の中間層から抽出した特徴量が有用であることが知られている一方で,end-to-end の距離計量学習によって特徴抽出器自体を学習しようという研究も行われている.しかし距離計量学習の研究の多くは分類器ベースの特徴量を正しく比較していない場合が多く,どちらが優れているのかということは明らかになっていない.本稿では分類器学習ベースの特徴量と距離計量学習ベースの特徴量を比較し,特にデータセット規模が大きい場合に分類器学習の方が特徴量学習に適していることを示す.
@inproceedings{horiguchi2017deepfeature, title = {深層特徴の比較評価 ~ 分類器学習 vs. 距離計量学習 ~}, booktitle = {映像情報メディア学会 メディア工学研究会(ME)}, author = {堀口, 翔太 and 伊神, 大貴 and 相澤, 清晴}, year = {2017}, month = feb, date = {21}, pages = {197--202}, location = {北海道}, }
- PRMU画像認識器の逐次個人適応堀口翔太, 天野宗佑, 相澤清晴, 小川誠電子情報通信学会 パターン認識・メディア理解研究会 (PRMU), 2017年2月
近年の画像認識タスクは固定データセット内でのパフォーマンスを評価するのが一般的である.しかしこの問題設定は,サンプルやクラスの増加や個人間でのクラス定義の齟齬を考慮しておらず,また画像がクラスごとに十分な枚数あることを仮定してしまっているという点で現実世界を反映しているとは言い難い.本稿では現実世界の画像認識として,逐次学習,ドメイン適応,ワンショット学習の3つの問題を同時に扱う.この問題に対して我々は共通の認識器を逐次的に個人適応させていくSequential Personalized Classifier(SPC)を提案する.SPCは,個人のデータが存在しない初期状態では固定クラスの畳み込みニューラルネットワークと同等の分類精度を出し,個人データを逐次的に学習することでさらに精度を向上させることができる.現実世界でのパフォーマンスを正しく評価するため,個人が日々の食事を記録した画像データセットを用いた.我々の提案するSPCは既存の固定クラス認識手法や逐次的学習手法を大きく上回る精度を達成した.
@inproceedings{horiguchi2017personalization, title = {画像認識器の逐次個人適応}, booktitle = {電子情報通信学会 パターン認識・メディア理解研究会 (PRMU)}, author = {堀口, 翔太 and 天野, 宗佑 and 相澤, 清晴 and 小川, 誠}, year = {2017}, month = feb, date = {19}, pages = {149--154}, location = {北海道}, }
2016
- MIRU個人傾向を考慮した大規模食事画像認識堀口翔太, 天野宗佑, 相澤清晴, 小川誠画像の認識・理解シンポジウム (MIRU), 2016年8月
@inproceedings{horiguchi2016personalization, title = {個人傾向を考慮した大規模食事画像認識}, booktitle = {画像の認識・理解シンポジウム (MIRU)}, author = {堀口, 翔太 and 天野, 宗佑 and 相澤, 清晴 and 小川, 誠}, year = {2016}, month = aug, date = {3}, location = {大阪} }
2015
- ITE画像認識における未知クラス識別の検討水野倫宏, 竹木章人, 堀口翔太, 山﨑俊彦, 相澤清晴映像情報メディア学会 冬季大会, 2015年12月🏆 映像情報メディア学会 学生優秀発表賞
We present a new method of novelty detection in image recognition based on convolutional neural network (CNN). We use Sigmoid Layer as the last layer of a CNN instead of Softmax Layer. As a result, we discovered that a CNN with Sigmoid Layer can detect novelties in an easy dataset better than that with Softmax Layer, but worse in a difficult dataset.
@inproceedings{mizuno2015unknown, title = {画像認識における未知クラス識別の検討}, booktitle = {映像情報メディア学会 冬季大会}, author = {水野, 倫宏 and 竹木, 章人 and 堀口, 翔太 and 山﨑, 俊彦 and 相澤, 清晴}, year = {2015}, month = dec, date = {21}, location = {東京}, }
- DE階層的な食事分類に関する基礎検討加賀谷北斗, 堀口翔太, 天野宗佑, 相澤清晴電子情報通信学会 データ工学研究会 (DE), 2015年9月
食事を自動的に認識・分類するというのは非常に難しい問題である.その最大の理由は,料理の数が非常に莫大であるため,単一のラベルをつけるのが難しいことである.我々はその解決策として,階層的に食事を分類する手法の検討を行っている.本稿では,その基礎的な検討として階層性を導入することの利点について整理し,実際に食事名の分散表現から自動的に階層構造を構築した.結果として,データの違いによるクラスタリング結果の違いも見られた.
@inproceedings{kagaya2015hierarchical, title = {階層的な食事分類に関する基礎検討}, booktitle = {電子情報通信学会 データ工学研究会 (DE)}, author = {加賀谷, 北斗 and 堀口, 翔太 and 天野, 宗佑 and 相澤, 清晴}, year = {2015}, month = sep, date = {25}, pages = {59--64}, location = {神奈川}, }
- MIRUGrabCutを用いた検出窓候補の選択的削減堀口翔太, 相澤清晴, 小川誠画像の認識・理解シンポジウム (MIRU), 2015年7月
@inproceedings{horiguchi2015grabcut, title = {GrabCutを用いた検出窓候補の選択的削減}, booktitle = {画像の認識・理解シンポジウム (MIRU)}, author = {堀口, 翔太 and 相澤, 清晴 and 小川, 誠}, year = {2015}, month = jul, date = {29}, location = {大阪} }
- PRMU物体の画像中の大きさの対数正規性と物体検出への応用 ~ 一般画像データと食事画像データの対比 ~堀口翔太, 相澤清晴, 小川誠電子情報通信学会 パターン認識・メディア理解研究会(PRMU), 2015年3月
多数の検出窓候補に対して分類器を適用して行う物体検出を行う際には,検出枠の縦横比や大きさといったパラメータをあらかじめ決定する必要がある.本稿では,画像中に写る物体のサイズ分布についてモデルを立て,特に食事画像において画像の辺長に対する料理領域のバウンディングボックスの辺長の割合は対数正規分布に従うことを明らかにする.またその分布をselective searchを用いた検出窓候補生成時のパラメータ決定に応用し,食事記録サービス『FoodLog』に登録された画像から作成したデータセットにおいて,少ない検出窓候補数で高いMean Average Best Overlapを実現できることを示す.
@inproceedings{horiguchi2015lognormal, title = {物体の画像中の大きさの対数正規性と物体検出への応用 ~ 一般画像データと食事画像データの対比 ~}, booktitle = {電子情報通信学会 パターン認識・メディア理解研究会(PRMU)}, author = {堀口, 翔太 and 相澤, 清晴 and 小川, 誠}, year = {2015}, month = mar, date = {19}, pages = {135--140}, location = {神奈川}, }