Skip to content

Respaired/Project-Kanade

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 

Repository files navigation

under-construction

This is a personal project, mainly focusing on Japanese Speech processing. also occasionally LLMs.

i post the links to some models i trained based on various papers and cool architectures i found. sometimes i modify the architectures to improve them where i can. in case you didn't find the inference code, i will post them at a later date. i'm sorry but please check again later. Some of these models are experimental, so i apologize in advance in case they don't work well for you. but i'm still going to share so perhaps somebody can improve upon them.

Feel free to check:

  • Tsukasa Speech -- an advanced speech generation model focused on performance and rich expressions, it's also very fast.

  • Bandwidth Extention -- a fast bandwidth extention module, which focuses on upsampling and increase the quality of low resolution vocal audio. it was trained on a large japanese dataset. you can check the samples at the end of English - Colab.

  • low bit reconstruction -- a diffusion model that tries to remove the compression artifacts from over compressed vocal audio. you can listen to the samples from the same notebook.

  • Phonemization Script -- a new phonemization script that will map the Japanese to IPA.

  • Phoneme to Grapheme -- a large language model to reverse the process of Phonemization back to normal Japanese. it mostly works well for the phonemes generated by the above script.

  • Hibiki ASR -- a Whisper Finetune, but it outputs japanese phonemes instead of regular text. it's not foolproof, but works better than any normal text mapping.

  • Gradio Themes -- some anime gradio themes i made.


これは個人的なプロジェクトで、主に日本語音声処理の一部の側面の改善に焦点を当てています。時折、LLMsについても取り組んでいます。 私は様々な論文やクールなアーキテクチャを見つけて、それらに基づいて学習したモデルのリンクをいくつか投稿します。 inferenceコードが見つからなかった場合、多分後日投稿する予定です。申し訳ありませんが、後でもう一度確認してください。 これらのモデルの一部は実験的なものであるため、うまく機能しない場合がありますが、どなたかが改善できるかもしれないので、あえて共有します。

以下のリンクを自由にチェックしてください:

  • Tsukasa Speech -- パフォーマンスと豊かな表現に焦点を当てた音声生成モデル。

  • Bandwidth Extention -- 高速な帯域拡張モジュールで、低解像度のボーカルオーディオのアップサンプリングと品質向上に重点を置いています。大規模な日本語データセットでトレーニングされています。サンプルはEnglish - Colabの最後で確認できます。

  • low bit reconstruction -- 過度に圧縮されたボーカルオーディオから圧縮アーティファクトを除去しようとする拡散モデル。同じノートブックからサンプルを聴くことができます。

  • Phonemization Script -- 日本語をIPAに正確にマッピングする新しい音素化スクリプト。

  • Phoneme to Grapheme -- 音素化のプロセスを通常の日本語に戻すための大規模言語モデル。上記のスクリプトで生成された音素に対してほとんどうまく機能します。

  • Hibiki ASR -- Whisperのファインチューンで、通常のテキストではなく日本語の音素を出力します。完全ではありませんが、通常のテキストマッピングよりも優れています。

  • Gradio Themes -- 自分が作ったアニメっぽいGradioテーマ

About

under-construction

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published