[ci skip] machine translation

Jemoka · Jemoka · commit c172ad34d280 · 2025-02-19T23:26:09.000-08:00
diff --git a/batchalign/cli/cli.py b/batchalign/cli/cli.py
@@ -196,6 +196,28 @@ def writer(doc, output):
                   loader, writer, C,
                   asr=asr, **kwargs)
 
+#################### TRANSLATE ################################
+
+@batchalign.command()
+@common_options
+@click.pass_context
+def translate(ctx, in_dir, out_dir, **kwargs):
+    """Translate the transcript to English."""
+
+    def loader(file):
+        cf = CHATFile(path=os.path.abspath(file), special_mor_=True)
+        doc = cf.doc
+        # if str(cf).count("%mor") > 0:
+        #     doc.ba_special_["special_mor_notation"] = True
+        return doc
+
+    def writer(doc, output):
+        CHATFile(doc=doc).write(output)
+
+    _dispatch("translate", "eng", 1, ["cha"], ctx,
+              in_dir, out_dir,
+              loader, writer, C)
+
 #################### MORPHOTAG ################################
 
 @batchalign.command()
diff --git a/batchalign/cli/dispatch.py b/batchalign/cli/dispatch.py
@@ -48,6 +48,7 @@
     "benchmark": "asr,eval",
     "utseg": "utterance",
     "coref": "coref",
+    "translate": "translate",
 }
 
 # this is the main runner used by all functions
diff --git a/batchalign/document.py b/batchalign/document.py
@@ -31,6 +31,7 @@ class Task(IntEnum):
     MORPHOSYNTAX = 11
     COREF = 12
     WER = 13
+    TRANSLATE = 14
 
 
     DEBUG__G = 0
@@ -54,6 +55,7 @@ class TaskType(IntEnum):
     Task.DISFLUENCY_ANALYSIS: TaskType.PROCESSING,
     Task.COREF: TaskType.PROCESSING,
     Task.WER: TaskType.ANALYSIS,
+    Task.TRANSLATE: TaskType.PROCESSING,
 
     Task.DEBUG__G: TaskType.GENERATION,
     Task.DEBUG__P: TaskType.PROCESSING,
@@ -73,6 +75,7 @@ class TaskType(IntEnum):
     Task.DISFLUENCY_ANALYSIS:  "Disfluncy Analysis",
     Task.COREF:  "Coreference Resolution",
     Task.WER:  "Word Error Rate",
+    Task.TRANSLATE:  "Translation",
     Task.DEBUG__G:  "TEST_GENERATION",
     Task.DEBUG__P:  "TEST_PROCESSING",
     Task.DEBUG__A:   "TEST_ANALYSIS",
@@ -150,6 +153,7 @@ class Utterance(BaseModel):
     tier: Tier = Field(default=Tier())
     content: Sentence
     text: Optional[str] = Field(default=None)
+    translation: Optional[str] = Field(default=None)
     time: Optional[Tuple[int,int]] = Field(default=None)
     custom_dependencies: List[CustomLine]  = Field(default=[])
 
diff --git a/batchalign/formats/chat/generator.py b/batchalign/formats/chat/generator.py
@@ -95,7 +95,8 @@ def generate_chat_utterance(utterance: Utterance, special_mor=False, write_wor=T
         result.append("%wor:\t"+" ".join(wor_elems))
     if has_coref:
         result.append("%coref:\t"+" ".join(coref_elems))
-
+    if utterance.translation != None:
+        result.append("%xtra:\t"+utterance.translation)
 
 
     #### EXTRA LINE GENERATION ####
diff --git a/batchalign/formats/chat/parser.py b/batchalign/formats/chat/parser.py
@@ -280,6 +280,7 @@ def chat_parse_doc(lines, special_mor=False):
                 mor = None
                 gra = None
                 wor = None
+                translation = None
                 additional = []
 
                 while raw[0][0] == "%":
@@ -291,6 +292,8 @@ def chat_parse_doc(lines, special_mor=False):
                         gra = line
                     elif beg.strip() == "wor" or beg.strip() == "xwor":
                         wor = line
+                    elif beg.strip() == "xtra":
+                        translation = line
                     else:
                         additional.append(CustomLine(id=beg.strip(),
                                                         type=CustomLineType.DEPENDENT,
@@ -309,7 +312,8 @@ def chat_parse_doc(lines, special_mor=False):
                     "content": parsed,
                     "text": text,
                     "delim": delim,
-                    "custom_dependencies": additional
+                    "custom_dependencies": additional,
+                    "translation": translation
                 })
 
                 timing = re.findall(rf"\x15(\d+)_(\d+)\x15", text)
diff --git a/batchalign/pipelines/__init__.py b/batchalign/pipelines/__init__.py
@@ -12,3 +12,4 @@
 from .analysis import EvaluationEngine
 from .utterance import StanzaUtteranceEngine
 
+from .translate import SeamlessTranslationModel
diff --git a/batchalign/pipelines/dispatch.py b/batchalign/pipelines/dispatch.py
@@ -6,7 +6,7 @@
 from batchalign import (WhisperEngine, WhisperFAEngine, StanzaEngine, RevEngine,
                         NgramRetraceEngine, DisfluencyReplacementEngine, WhisperUTREngine,
                         RevUTREngine, EvaluationEngine, WhisperXEngine, NemoSpeakerEngine,
-                        StanzaUtteranceEngine, CorefEngine, Wave2VecFAEngine)
+                        StanzaUtteranceEngine, CorefEngine, Wave2VecFAEngine, SeamlessTranslationModel)
 from batchalign import BatchalignPipeline
 from batchalign.models import resolve
 
@@ -28,6 +28,7 @@
     "eval": "evaluation",
     "utterance": "stanza_utt",
     "coref": "stanza_coref",
+    "translate": "seamless_translate",
 }
 
 LANGUAGE_OVERRIDE_PACKAGES = {
@@ -129,6 +130,8 @@ def dispatch_pipeline(pkg_str, lang, num_speakers=None, **arg_overrides):
             engines.append(CorefEngine())
         elif engine == "wav2vec_fa":
             engines.append(Wave2VecFAEngine())
+        elif engine == "seamless_translate":
+            engines.append(SeamlessTranslationModel())
 
     L.debug(f"Done initalizing packages.")
     return BatchalignPipeline(*engines)
diff --git a/batchalign/pipelines/translate/__init__.py b/batchalign/pipelines/translate/__init__.py
@@ -0,0 +1 @@
+from .seamless import SeamlessTranslationModel
diff --git a/batchalign/pipelines/translate/seamless.py b/batchalign/pipelines/translate/seamless.py
@@ -0,0 +1,53 @@
+from batchalign.models import WhisperFAModel
+from batchalign.document import *
+from batchalign.pipelines.base import *
+from batchalign.utils import *
+from batchalign.utils.dp import *
+from batchalign.constants import *
+
+from transformers import AutoProcessor, SeamlessM4TModel
+
+import logging
+L = logging.getLogger("batchalign")
+
+import re
+
+# !uv pip install sentencepiece
+
+import pycountry
+import warnings
+
+class SeamlessTranslationModel(BatchalignEngine):
+    tasks = [ Task.TRANSLATE ]
+
+    def _hook_status(self, status_hook):
+        self.status_hook = status_hook
+
+    def __init__(self):
+        self.status_hook = None
+        self.processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
+        self.model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-medium")
+
+    def process(self, doc:Document, **kwargs):
+
+        for indx, i in enumerate(doc.content):
+            if not isinstance(i, Utterance):
+                continue
+            if i.translation:
+                continue
+            
+            text = i.strip(join_with_spaces=False, include_retrace=True, include_fp=True)
+            text_inputs = self.processor(text=text, src_lang=doc.langs[0] if doc.langs[0] != "zho" else "cmn", return_tensors="pt")
+            output_tokens = self.model.generate(**text_inputs, tgt_lang="eng", generate_speech=False)
+            translated_text_from_text = self.processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)
+
+            i.translation = translated_text_from_text
+            for j in MOR_PUNCT + ENDING_PUNCT:
+                i.translation = i.translation.replace(j, " "+j)
+
+            if self.status_hook != None:
+                self.status_hook(indx+1, len(doc.content))
+
+        return doc
+
+
diff --git a/batchalign/version b/batchalign/version
@@ -1,3 +1,3 @@
-0.7.13-post.1
-Feburary 14nd, 2025
-Remove hash sign.
+0.7.14
+Feburary 19nd, 2025
+machine translation!
diff --git a/scratchpad.py b/scratchpad.py
@@ -20,7 +20,7 @@
 # engine = infer.BertUtteranceModel("talkbank/CHATUtterance-zh_CN")
 # engine("我 现在 想 听 你说 一些 你 自己 经 历 过 的 故 事 好不好 然后 呢 我们 会 一起 讨 论 有 六 种 不同 的 情 景 然后 在 每 一个 情 景 中 都 需要 你 去 讲 一个 关 于 你 自己 的 一个 故 事 小 故 事")
 
-# doc = Document.new(media_path="/Users/houjun/Downloads/trial.mp3", lang="zhoj)
+# doc = Document.new(media_path="/Users/houjun/Downloads/trial.mp3", lang="zho")
 # print(doc)
 # pipe = BatchalignPipeline.new("asr", lang="zho", num_speakers=2, engine="rev")
 # res = pipe(doc)
@@ -29,7 +29,7 @@
 # #     json.dump(Document.model_json_schema(), df, indent=4)
 
 # ########### The Batchalign Core Test Harness ###########
-from batchalign.formats.chat.parser import chat_parse_utterance
+# from batchalign.formats.chat.parser import chat_parse_utterance
 # from batchalign.formats.chat.generator import check_utterances_ordered
 
 # doc = Document.new("This is an ice cone.\nMichelle Fiffer that white gould.")
@@ -74,12 +74,11 @@
 
 # doc = Document.new("You you chicken pie go .", lang="eng")
 
-forms, delim = chat_parse_utterance("סמדרי היום בת שנתיים ו#חודשיים ו#עשרה ימים .", None, None, None, None)
-utterance = Utterance(content=forms, delim=delim)
-doc = Document(content=[utterance], langs=["heb"])
+# forms, delim = chat_parse_utterance("Go you chicken pie go .", None, None, None, None)
+# utterance = Utterance(content=forms, delim=delim)
+# gold = Document(content=[utterance], langs=["zho"])
 
-pipeline = BatchalignPipeline(StanzaEngine())
-print(str(CHATFile(doc=pipeline(doc))))
+# pipeline = BatchalignPipeline(EvaluationEngine())
 
 # # with open("/Users/houjun/Downloads/talkbank_ch11m-cha_2025-01-22_0939/output/tmp_gold.json") as df:
 # #     gold = Document.model_validate(json.load(df))
@@ -201,22 +200,39 @@
 # # forms
 # utterance = Utterance(content=forms, delim=delim, text=ut)
 
-# sec = "vidiš (š)to sam lepo@d našalala [: našarala] ."
-
+# from batchalign.formats.chat.parser import chat_parse_utterance
+# # sec = "早上好中国我有一个冰淇淋 ."
+# sec = "Muchas gracias senor Franco Barcerra Franchesca de la Rio de Diginero de la Sol Jesus de Barco ."
 # forms, delim = chat_parse_utterance(sec, None, None, None, None)
 # utterance = Utterance(content=forms, delim=delim, text=sec)
 
-# utterance[3].time=(1500,1600)
-# ut = Document(content=[utterance], langs=["eng"])
+# # utterance[3].time=(1500,1600)
+# # ut = Document(content=[utterance], langs=["eng"])
 
-# print(str(CHATFile(doc=ut)))
+# # print(str(CHATFile(doc=ut)))
 
 
-# # # # # =======
-# ut = Document(content=[utterance], langs=["jpn"])
+# # # # # # =======
+# ut = Document(content=[utterance], langs=["spa"])
 
-# pipeline = BatchalignPipeline.new("morphosyntax", lang="jpn")
-# res = pipeline(ut, retokenize=True)
+# pipeline = BatchalignPipeline.new("morphosyntax", lang="spa")
+# # res = pipeline(ut, retokenize=True)
+
+# from batchalign.pipelines.translate.seamless import SeamlessTranslationModel
+
+# model = SeamlessTranslationModel()
+
+# doc = model(ut)
+
+
+# # doc[0].translation
+# # ut.langs[0]
+
+# data = str(CHATFile(doc=doc))
+# res = data.split("\n")
+# res.pop(-3)
+# res = CHATFile(lines=res)
+# res.doc[0].translation
 
 
 # >>>>>>> theirs
diff --git a/setup.py b/setup.py
@@ -52,6 +52,9 @@ def read(fname):
         "rich-click>=1.7.0",
         "typing-extensions",
         "num2words",
+        "tiktoken",
+        "blobfile",
+        "sentencepiece"
     ],
     extras_require={
         'dev': [

Original file line number	Diff line number	Diff line change
`@@ -48,6 +48,7 @@`
`48`	`48`	`"benchmark": "asr,eval",`
`49`	`49`	`"utseg": "utterance",`
`50`	`50`	`"coref": "coref",`
	`51`	`+ "translate": "translate",`
`51`	`52`	`}`
`52`	`53`
`53`	`54`	`# this is the main runner used by all functions`
Original file line number	Diff line number	Diff line change
`@@ -12,3 +12,4 @@`
`12`	`12`	`from .analysis import EvaluationEngine`
`13`	`13`	`from .utterance import StanzaUtteranceEngine`
`14`	`14`
	`15`	`+from .translate import SeamlessTranslationModel`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+from .seamless import SeamlessTranslationModel`