Spaces:

Archime
/

canary_aed_streaming

Running on Zero

App Files Files Community

Archime commited on Nov 19

Commit

fc64c8b

1 Parent(s): 799a0f6

add custom style

Browse files

Files changed (5) hide show

app/canary_speech_engine.py +3 -3
app/supported_languages.py +8 -0
app/ui_utils.py +73 -11
app/utils.py +11 -8
assets/custom_style.css +48 -13

app/canary_speech_engine.py CHANGED Viewed

@@ -215,12 +215,12 @@ class CanarySpeechEngine(IStreamingSpeechEngine):
         """Helper to calculate model-specific streaming parameters."""
         model_cfg = self.asr_model.cfg
         audio_sample_rate = model_cfg.preprocessor['sample_rate']
-        feature_stride_sec = model_cfg.preprocessor['window_stride']
-        features_per_sec = 1.0 / feature_stride_sec
         self.encoder_subsampling_factor = self.asr_model.encoder.subsampling_factor
         self.features_frame2audio_samples = make_divisible_by(
-            int(audio_sample_rate * feature_stride_sec), factor=self.encoder_subsampling_factor
         )
         encoder_frame2audio_samples = self.features_frame2audio_samples * self.encoder_subsampling_factor

         """Helper to calculate model-specific streaming parameters."""
         model_cfg = self.asr_model.cfg
         audio_sample_rate = model_cfg.preprocessor['sample_rate']
+        self.feature_stride_sec = model_cfg.preprocessor['window_stride']
+        features_per_sec = 1.0 / self.feature_stride_sec
         self.encoder_subsampling_factor = self.asr_model.encoder.subsampling_factor
         self.features_frame2audio_samples = make_divisible_by(
+            int(audio_sample_rate * self.feature_stride_sec ), factor=self.encoder_subsampling_factor
         )
         encoder_frame2audio_samples = self.features_frame2audio_samples * self.encoder_subsampling_factor

app/supported_languages.py ADDED Viewed

	@@ -0,0 +1,8 @@

+SUPPORTED_LANGS_MAP = {
+    "Bulgarian": "bg", "Croatian": "hr", "Czech": "cs", "Danish": "da",
+    "Dutch": "nl", "English": "en", "Estonian": "et", "Finnish": "fi",
+    "French": "fr", "German": "de", "Greek": "el", "Hungarian": "hu",
+    "Italian": "it", "Latvian": "lv", "Lithuanian": "lt", "Maltese": "mt",
+    "Polish": "pl", "Portuguese": "pt", "Romanian": "ro", "Slovak": "sk",
+    "Slovenian": "sl", "Spanish": "es", "Swedish": "sv", "Russian": "ru", "Ukrainian": "uk"
+}

app/ui_utils.py CHANGED Viewed

@@ -2,6 +2,24 @@ from app.logger_config import logger as logging
 import gradio as gr
 from pathlib import Path
 import os
 DEFAULT_CONFIG = {
     "task_type": "Transcription",
     "lang_source": "French",
@@ -39,14 +57,6 @@ EXAMPLE_CONFIGS = {
     }
 }
-SUPPORTED_LANGS_MAP = {
-    "Bulgarian": "bg", "Croatian": "hr", "Czech": "cs", "Danish": "da",
-    "Dutch": "nl", "English": "en", "Estonian": "et", "Finnish": "fi",
-    "French": "fr", "German": "de", "Greek": "el", "Hungarian": "hu",
-    "Italian": "it", "Latvian": "lv", "Lithuanian": "lt", "Maltese": "mt",
-    "Polish": "pl", "Portuguese": "pt", "Romanian": "ro", "Slovak": "sk",
-    "Slovenian": "sl", "Spanish": "es", "Swedish": "sv", "Russian": "ru", "Ukrainian": "uk"
-}
@@ -132,7 +142,7 @@ def handle_additional_outputs(webrtc_stream, msg):
     Controls button states, audio visibility, and progress slider.
     """
     # logging.debug(f"Additional output received: {msg}")
-    # ui_components = [start_stream_button, stop_stream_button,go_to_task, audio_source_step, status_slider,walkthrough]
     progress = float(0)
     # Handle structured error message
@@ -144,10 +154,11 @@ def handle_additional_outputs(webrtc_stream, msg):
         return (
                 gr.update(visible=True),   # start_stream_button enabled
                 gr.update(visible=False),  # stop_stream_button disabled
                 gr.update(visible=False),  # go_to_task disabled
                 gr.update(interactive=True),       # audio_source_step re-shown
                 gr.update(visible=False, value=0),  # slider hidden
-                gr.update(selected=1),              #walkthrough
                 gr.update(value=f"**Error:** {value}", visible=True)
             )
@@ -159,6 +170,7 @@ def handle_additional_outputs(webrtc_stream, msg):
             return (
                 gr.update(visible=True),      # start_stream_button disabled
                 gr.update(visible=False),       # stop_stream_button enabled
                 gr.update(visible=True),  # go_to_task enabled
                 gr.update(interactive=True),          # hide audio_source_step
                 gr.update(visible=True, value=progress), # show progress
@@ -169,6 +181,7 @@ def handle_additional_outputs(webrtc_stream, msg):
             return (
                 gr.update(visible=False),      # start_stream_button disabled
                 gr.update(visible=True),       # stop_stream_button enabled
                 gr.update(visible=True),  # go_to_task enabled
                 gr.update(interactive=False),          # hide audio_source_step
                 gr.update(visible=True, value=progress), # show progress
@@ -180,10 +193,11 @@ def handle_additional_outputs(webrtc_stream, msg):
         return (
             gr.update(visible=True),      # start_stream_button disabled
             gr.update(visible=False),       # stop_stream_button enabled
             gr.update(visible=False),  # go_to_task enabled
             gr.update(interactive=True),          # hide audio_source_step
             gr.update(visible=True, value=0), # show progress
-            gr.update(selected=1),                       #walkthrough
             gr.update(value="ℹStream stopped by user.", visible=True)
         )
@@ -222,6 +236,54 @@ def get_custom_theme() :
 def raise_error(message="Une erreur est survenue."):
     raise gr.Error(message)

 import gradio as gr
 from pathlib import Path
 import os
+from app.utils import (
+    remove_active_task_flag_file,
+    task_fake,
+    is_active_task
+    # task
+)
+# from app.utils import (
+#     raise_error,
+#     READ_SIZE,
+#     generate_coturn_config,
+#     read_and_stream_audio,
+#     stop_streaming,
+#     task,
+#     task_fake
+# )
 DEFAULT_CONFIG = {
     "task_type": "Transcription",
     "lang_source": "French",
     }
 }
     Controls button states, audio visibility, and progress slider.
     """
     # logging.debug(f"Additional output received: {msg}")
+    # ui_components = [start_stream_button, stop_stream_button,start_task_button,go_to_task, audio_source_step, status_slider,walkthrough]
     progress = float(0)
     # Handle structured error message
         return (
                 gr.update(visible=True),   # start_stream_button enabled
                 gr.update(visible=False),  # stop_stream_button disabled
+                gr.update(visible=False),    #start_task_button
                 gr.update(visible=False),  # go_to_task disabled
                 gr.update(interactive=True),       # audio_source_step re-shown
                 gr.update(visible=False, value=0),  # slider hidden
+                gr.update(),              #walkthrough
                 gr.update(value=f"**Error:** {value}", visible=True)
             )
             return (
                 gr.update(visible=True),      # start_stream_button disabled
                 gr.update(visible=False),       # stop_stream_button enabled
+                gr.update(visible=False),    #start_task_button
                 gr.update(visible=True),  # go_to_task enabled
                 gr.update(interactive=True),          # hide audio_source_step
                 gr.update(visible=True, value=progress), # show progress
             return (
                 gr.update(visible=False),      # start_stream_button disabled
                 gr.update(visible=True),       # stop_stream_button enabled
+                gr.update() if is_active_task(msg.get("session_hash_code")) else gr.update(visible=True),    #start_task_button
                 gr.update(visible=True),  # go_to_task enabled
                 gr.update(interactive=False),          # hide audio_source_step
                 gr.update(visible=True, value=progress), # show progress
         return (
             gr.update(visible=True),      # start_stream_button disabled
             gr.update(visible=False),       # stop_stream_button enabled
+            gr.update(visible=False),    #start_task_button
             gr.update(visible=False),  # go_to_task enabled
             gr.update(interactive=True),          # hide audio_source_step
             gr.update(visible=True, value=0), # show progress
+            gr.update(),                       #walkthrough
             gr.update(value="ℹStream stopped by user.", visible=True)
         )
+########## task
+def start_task_asr_ast(
+        session_hash_code,
+        task_type, lang_source, lang_target,
+        chunk_secs, left_context_secs, right_context_secs,
+        streaming_policy, alignatt_thr, waitk_lagging,
+        exclude_sink_frames, xatt_scores_layer, hallucinations_detector
+                ):
+    """Stream transcription or translation results in real time."""
+    accumulated = ""
+    # Boucle sur le générateur de `task2()`
+    # outputs=[task_output,status_message_task,start_task_button,stop_task_button,config_step]
+    for result, status, current_chunk in task_fake(
+        session_hash_code,
+        task_type, lang_source, lang_target,
+        chunk_secs, left_context_secs, right_context_secs,
+        streaming_policy, alignatt_thr, waitk_lagging,
+        exclude_sink_frames, xatt_scores_layer, hallucinations_detector
+        ):
+        if status == "success":
+            yield (accumulated + result, #task_output
+                gr.update(visible=True,value=current_chunk,elem_classes=[status]),#status_message_task
+                gr.update(visible=False),#start_task_button
+                gr.update(visible=True), #stop_task_button
+                gr.update(interactive=False) # config_step
+                )
+            accumulated += result
+        elif status in ["warning","info" ]:
+            yield (accumulated, #task_output
+                    gr.update(visible=True,value=result , elem_classes=[status]),#status_message_task
+                    gr.update(visible=False),#start_task_button
+                    gr.update(visible=True),#stop_task_button
+                    gr.update(interactive=False) # config_step
+                )
+        elif status in [ "done"]:
+            yield (accumulated, #task_output
+                   gr.update(visible=True,value=result , elem_classes=[status]),#status_message_task
+                   gr.update(visible=True),#start_task_button
+                   gr.update(visible=False),#stop_task_button
+                   gr.update(interactive=True) # config_step
+            )
+def stop_task_fn(session_hash_code):
+    remove_active_task_flag_file(session_hash_code)
+    yield "Task stopped by user."
+# # --------------------------------------------------------
 def raise_error(message="Une erreur est survenue."):
     raise gr.Error(message)

app/utils.py CHANGED Viewed

@@ -21,7 +21,7 @@ from app.session_utils import (
     remove_active_task_flag_file,
     get_session_hashe_chunks_dir
 )
-from app.ui_utils import (
     SUPPORTED_LANGS_MAP
 )
 from app.canary_speech_engine import CanarySpeechEngine,CanaryConfig
@@ -94,12 +94,12 @@ def read_and_stream_audio(filepath_to_stream: str, session_hash_code: str,read_s
             frame_rate = chunk.frame_rate
             samples = np.array(chunk.get_array_of_samples()).reshape(1, -1)
             progress = round(((i + 1) / total_chunks) * 100, 2)
-            if _is_stop_requested(session_hash_code):
                 logging.info(f"[{session_hash_code}] Stop signal received. Terminating stream.")
-                yield ((frame_rate, samples), AdditionalOutputs({"stoped": True, "value": "STREAM_STOPED"} ) )
                 break
-            yield ((frame_rate, samples), AdditionalOutputs({"progressed": True, "value": progress} ))
             logging.debug(f"[{session_hash_code}] Sent chunk {i+1}/{total_chunks} ({progress}%).")
             time.sleep(chunk_duration_ms/1000)
@@ -130,8 +130,8 @@ def read_and_stream_audio(filepath_to_stream: str, session_hash_code: str,read_s
-asr_model = nemo_asr.models.ASRModel.from_pretrained("nvidia/canary-1b-v2")
-# asr_model = None
 @spaces.GPU
 def task_fake(session_hash_code: str,
@@ -354,7 +354,7 @@ def handle_stream_error(session_hash_code: str, error: Exception):
     remove_active_stream_flag_file(session_hash_code)
-    yield ((16000,np.zeros(16000, dtype=np.float32).reshape(1, -1)), AdditionalOutputs({"errored": True, "value": msg}))
@@ -386,10 +386,13 @@ def start_streaming(session_hash_code: str):
     with open(active_stream_flag, "w") as f:
         f.write("1")
-def _is_stop_requested(session_hash_code) -> bool:
     """Check if the stop signal was requested."""
     return not os.path.exists(get_active_stream_flag_file(session_hash_code))
 def raise_error():

     remove_active_task_flag_file,
     get_session_hashe_chunks_dir
 )
+from app.supported_languages import (
     SUPPORTED_LANGS_MAP
 )
 from app.canary_speech_engine import CanarySpeechEngine,CanaryConfig
             frame_rate = chunk.frame_rate
             samples = np.array(chunk.get_array_of_samples()).reshape(1, -1)
             progress = round(((i + 1) / total_chunks) * 100, 2)
+            if is_stop_requested(session_hash_code):
                 logging.info(f"[{session_hash_code}] Stop signal received. Terminating stream.")
+                yield ((frame_rate, samples), AdditionalOutputs({"stoped": True, "value": "STREAM_STOPED", "session_hash_code" : session_hash_code } ) )
                 break
+            yield ((frame_rate, samples), AdditionalOutputs({"progressed": True, "value": progress , "session_hash_code" : session_hash_code} ))
             logging.debug(f"[{session_hash_code}] Sent chunk {i+1}/{total_chunks} ({progress}%).")
             time.sleep(chunk_duration_ms/1000)
+# asr_model = nemo_asr.models.ASRModel.from_pretrained("nvidia/canary-1b-v2")
+asr_model = None
 @spaces.GPU
 def task_fake(session_hash_code: str,
     remove_active_stream_flag_file(session_hash_code)
+    yield ((16000,np.zeros(16000, dtype=np.float32).reshape(1, -1)), AdditionalOutputs({"errored": True, "value": msg, "session_hash_code" : session_hash_code}))
     with open(active_stream_flag, "w") as f:
         f.write("1")
+def is_stop_requested(session_hash_code) -> bool:
     """Check if the stop signal was requested."""
     return not os.path.exists(get_active_stream_flag_file(session_hash_code))
+def is_active_task(session_hash_code) -> bool:
+    """Check if the stop signal was requested."""
+    return os.path.exists(get_active_task_flag_file(session_hash_code))
 def raise_error():

assets/custom_style.css CHANGED Viewed

@@ -179,20 +179,55 @@ body {
     display: block; /* Le rend visible */
 }
-/* Styles personnalisés pour le WebRTC */
-#webcam-stream {
-    border: 2px solid #007bff;
-    border-radius: 10px;
-    box-shadow: 0 4px 8px rgba(0,0,0,0.1);
-    background-color: #f8f9fa;
-    margin: 10px 0;
-}
-#webcam-stream .gr-webRTC {
-    background-color: #e9ecef;
-}
 #task-output-box textarea {
     font-size: 1.15em; /* 'Moyenne taille' - ajustez au besoin */
     font-weight: bold;  /* 'En gras' */
-}

     display: block; /* Le rend visible */
 }
+/* #live-stream {
+    position: relative;
+    display: flex;
+    min-height: 100px;
+    max-height: 128px;
+    justify-content: center;
+    align-items: center;
+    margin: 2rem 0;
+} */
 #task-output-box textarea {
     font-size: 1.15em; /* 'Moyenne taille' - ajustez au besoin */
     font-weight: bold;  /* 'En gras' */
+}
+.gradio-webrtc-waveContainer {
+  background-color :white
+}
+  /* --- 4. L'Icône Centrale (Style Bouton) --- */
+  .gradio-webrtc-icon-container {
+    position: relative;
+    width: 128px;
+    height: 128px;
+    display: flex;
+    justify-content: center;
+    align-items: center;
+  }
+  .gradio-webrtc-icon {
+    position: relative;
+    width: 64px;
+    height: 64px;
+    border-radius: 0.5rem; /* Carré arrondi comme les boutons de l'exemple */
+    display: flex;
+    justify-content: center;
+    align-items: center;
+    z-index: 2;
+    /* Style Bouton Plein (Solid) */
+    background-color: var(--color-accent);
+    color: white;
+    box-shadow: 0 4px 6px -1px rgba(0, 0, 0, 0.1), 0 2px 4px -1px rgba(0, 0, 0, 0.06);
+    transition: all 0.2s ease;
+  }
+  /* Effet Hover */
+  .gradio-webrtc-icon:hover {
+    opacity: 0.9;
+    transform: translateY(-1px);
+  }