z - Từ điển Nôm - Việt. UI bê nguyên xi Google Translate

Thảo luận trong 'Thư Giãn Express - Bản Tin Cuối Ngày' bắt đầu bởi Kentiny, 1/5/23.

  1. Kentiny

    Kentiny Mayor of SimCity Lão Làng GVN

    Tham gia ngày:
    14/9/10
    Bài viết:
    4,388
    Nơi ở:
    Pussies Destroyer
    • Người dùng hiện có thể truy cập và trải nghiệm công cụ chuyển chữ Nôm sang chữ quốc ngữ này trên một website mở.

      [​IMG]
      Hệ thống chuyển chữ Nôm sang chữ quốc ngữ hiện đang mở cho những ai quan tâm có thể trải nghiệm - Ảnh: TRỌNG NHÂN

      Ứng dụng chuyển chữ Nôm sang chữ quốc ngữ
      Công trình xây dựng hệ thống chuyển chữ Nôm sang chữ quốc ngữ do PGS.TS Đinh Điền - giám đốc Trung tâm ngôn ngữ học tính toán, Trường đại học Khoa học tự nhiên (Đại học Quốc gia TP.HCM) - chủ trì. Đây là một trong những đề tài vừa được nghiệm thu tại Sở Khoa học và Công nghệ TP.HCM.

      PGS.TS Đinh Điền giải thích hệ thống của ông tập trung vào chuyển tự, nghĩa là thay thế từ dạng này sang dạng khác trong cùng một ngôn ngữ.

      Chẳng hạn, từ "Путин" trong hệ chữ Cyrillic của tiếng Nga có thể được chuyển tự sang từ "Putin" trong hệ chữ Latin.

      Hay từ "にほん" trong hệ chữ Hiragana sẽ tương đương với từ "Nihon" khi được chuyển sang hệ chữ Latin, đều có nghĩa là Nhật Bản.
      Theo PGS.TS Đinh Điền, việc chuyển tự như trên khá đơn giản vì có sự tương ứng, gần như "1-1" giữa các mẫu tự trong 2 hệ chữ.

      Đồng thời, các hệ chữ viết trên cùng thuộc loại hình chữ viết ghi âm nên việc chuyển tự hoàn toàn được thực hiện một cách tự động, nhanh chóng và chính xác bằng cách tra bảng.

      Tuy nhiên, việc chuyển chữ Nôm sang chữ quốc ngữ lại phức tạp hơn rất nhiều. Thách thức nằm ở chỗ hai hệ chữ khác loại hình chữ.

      Một chữ Nôm thường mượn 2 yếu tố Hán tự, một chữ Hán ghi âm và một ghi ý. Ví dụ, chữ "năm": (số 5), có sự kết hợp giữa yếu tố ghi âm là "南" (/nán/) + và yếu tố ghi ý "五" (ngũ).

      Trong khi đó, chữ quốc ngữ đơn thuần thuộc loại hình chữ ghi âm vị (phonemic).

      Cùng một chữ Nôm có thể được chuyển tự sang nhiều chữ quốc ngữ khác nhau. Ví dụ chữ "中" có thể chuyển tự sang các chữ "đúng, trong, trung, trúng, truồng" trong chữ quốc ngữ.

      Chưa kể, do biến âm vùng miền, lịch sử du nhập âm Hán - Việt nên có nhiều cách viết chữ Nôm khác nhau chưa thống nhất.

      [​IMG]
      Giao diện hệ thống chuyển chữ Nôm sang chữ quốc ngữ - Ảnh: CHỤP MÀN HÌNH

      Ứng dụng học hàng triệu dữ liệu
      Để tạo lập hệ thống chuyển chữ Nôm sang chữ quốc ngữ, nhóm nghiên cứu của PGS.TS Đinh Điền áp dụng mô hình Dịch máy thống kê SMT (Statistical Machine Translation) kết hợp với các mô hình dịch khác (NMT, hybrid).

      "Chiến lược" đưa ra là cung cấp cho máy một nguồn dữ liệu lớn về cả chữ Nôm lẫn chữ quốc ngữ để máy "tự học".

      Khi bạn cần tra cứu, máy sẽ tính toán xác suất cao nhất của nghĩa từ/câu chữ Nôm và tính xác suất cao nhất cách diễn đạt từ/câu ấy tương ứng trong chữ quốc ngữ.

      Trong khi thực hiện công trình này, nhóm nghiên cứu đã kết hợp với nhiều đơn vị, trong đó có bộ môn Hán Nôm, Trường đại học Khoa học xã hội và Nhân văn (Đại học Quốc gia TP.HCM), để xây dựng kho dữ liệu.

      Ước tính máy đã được "học" kho ngữ liệu song ngữ chữ Nôm - chữ quốc ngữ 418.935 tự; kho ngữ liệu đơn ngữ chữ quốc ngữ 823.533 câu, 13 triệu từ; từ điển chữ Hán - Việt 66.450 mục từ; tự điển chữ Nôm - quốc ngữ 22.264 mục tự…

      Ngoài ra, máy cũng tự "học" cách khai thác tài nguyên đã được số hóa, đăng tải trên mạng Internet. Nhiều nguồn sách vở chữ Nôm khác đã được "nhập tay" cho máy học, thuộc nhiều lĩnh vực như văn học, lịch sử, địa lý, y học, tôn giáo, âm nhạc...

      Hiện tại, hệ thống đã có thể chuyển ngữ phần lớn các câu văn chữ Nôm bất kỳ. Tương tự như ứng dụng Google Translte (Google Dịch), bạn chỉ cần đưa từ/cụm từ/câu văn cần chuyển ngữ (từ chữ Nôm), máy sẽ lập tức hỗ trợ bạn sang chữ quốc ngữ.

      [​IMG]
      PGS.TS Đinh Điền, chủ trì nhiệm vụ khoa học chuyển chữ Nôm sang chữ quốc ngữ - Ảnh: TRỌNG NHÂN

      Hệ thống chuyển tự hiện được mở trên website: https://tools.clc.hcmus.edu.vn/ để những ai quan tâm có thể tra cứu.

      PGS.TS Đinh Điền cho biết sắp tới đây, hệ thống sẽ được "nâng cấp" thêm chức năng có thể chuyển chữ Nôm sang chữ quốc ngữ từ hình ảnh. Bạn chỉ cần chụp ảnh có các chữ Nôm, hệ thống sẽ lập tức chuyển sang chữ quốc ngữ.

      Hệ thống này có thể được tích hợp trong các app du lịch. Khách tham quan khi đến thăm các khu di tích lịch sử, đền đài cổ để tra cứu các bia, câu đối, liễn chữ Nôm. Từ đó, du khách sẽ thuận tiện hơn khi tìm hiểu văn hóa Việt Nam.
     
    Leaf_leave_tree thích bài này.
  2. Kanatos

    Kanatos C O N T R A Lão Làng GVN

    Tham gia ngày:
    10/5/09
    Bài viết:
    1,820
    Nơi ở:
    Sài Gòn
    UI lấy của Google Translate cho dễ tiếp cận chứ sao lại đặt tít mỉa mai vậy pepe-3
     
  3. jiang_wei

    jiang_wei Claude, S.A gang boss Lão Làng GVN

    Tham gia ngày:
    28/5/11
    Bài viết:
    10,096
    Metatron092 and lovelybear like this.
  4. Kentiny

    Kentiny Mayor of SimCity Lão Làng GVN

    Tham gia ngày:
    14/9/10
    Bài viết:
    4,388
    Nơi ở:
    Pussies Destroyer
    Ít ra sửa cho khác đi chút chứ. Giống Flappy Bird bê UI mấy cái ống bị đập sml. Ngay cả bọn Tàu trùm copy/paste nó còn sửa giao diện.
     
  5. JEmEL

    JEmEL Tự hào koo 1cm, 30 năm chỉ dùng để peepee Lão Làng GVN

    Tham gia ngày:
    23/10/04
    Bài viết:
    20,185
    !logic rồi có font chữ nôm không hay mượn font chữ hán???
     
  6. namnh01283

    namnh01283 Samus Aran the Bounty Hunter ♞ Blade Knight ♞ Lão Làng GVN

    Tham gia ngày:
    17/11/08
    Bài viết:
    6,341
    Cái gì tốt rồi thì cứ lấy mà dùng thôi cho người dùng đỡ bỡ ngỡ
     
  7. zchingchongz

    zchingchongz Chrono Trigger/Cross

    Tham gia ngày:
    20/9/18
    Bài viết:
    6,764
    font chữ là kí tự dạng vector được mã hoá về các kí tự latin và dấu hết rồi, nên chứ khác nhau là phải làm, vấn đề quy định mã ntn mới khó, vì như có bác nói là phát âm mình bị mất văn bản ồi, không biết phát âm thế nào, mà bọn tàu nó có quy tắc phát âm bính âm, chẳng nhẽ lấy của nó???
     
  8. JEmEL

    JEmEL Tự hào koo 1cm, 30 năm chỉ dùng để peepee Lão Làng GVN

    Tham gia ngày:
    23/10/04
    Bài viết:
    20,185
    khó quá bỏ qua nha
     
  9. lovelybear

    lovelybear In memory of Desmond Miles Lão Làng GVN

    Tham gia ngày:
    2/1/05
    Bài viết:
    18,395
    Chữ Nôm phát âm y chang chữ quốc ngữ fen ơi.
    Ví dụ có trong bài đó:
    Số 5: Hán tự là 五 (đọc là ngũ). Chữ Nôm viết là upload_2023-5-1_16-14-50.png (đọc là năm), bao gồm chữ Nam (南) bên trái, biểu thị cách đọc, và chữ Ngũ (五) bên phải chỉ ý nghĩa.
    Vấn đề của chữ Nôm là, thay vì đơn giản hoá như chữ của Nhật hay Hàn, thì ông chữ Nôm chơi toàn chữ ghép, để đọc được chữ Nôm thì trình độ chữ Hán phải cao, cuối cùng chẳng giải quyết được gì trong việc phổ cập

    Hay y như cái hình đó giống google translate đó
    Cả cái dòng này upload_2023-5-1_16-17-36.png
    Đọc là: "Mây thua nước tóc tuyết nhường màu da"

    Giải đáp cho fen vụ phát âm chưa?
     
    DkLx, built, khoasuperboy and 2 others like this.
  10. o0puppyo0

    o0puppyo0 Sith Lord Revan Berserker Lão Làng GVN

    Tham gia ngày:
    22/4/08
    Bài viết:
    10,989
    Nơi ở:
    Không lòng vòng
    Vcl tra chữ Nôm để làm gì? Định thêm môn mới ?
     
    N00bforever thích bài này.
  11. zchingchongz

    zchingchongz Chrono Trigger/Cross

    Tham gia ngày:
    20/9/18
    Bài viết:
    6,764
    Thì em cũng thấy một bác cũng 4rum này bảo thế nên biết thế thôi, tại thấy cũng lạ là phát âm tiếng việt của mình bây giờ có chỗ nói là giống 80% vùng lưỡng quảng, vậy thì bọn lưỡng quảng phát âm mới đúng gốc hay tiếng việt Ha Noi accent mới đúng gốc đây??? nhưng như bác nói thì chuyển thể gõ dễ thôi, bác có thể lý giải vụ phải giỏi chữ Hán mới đọc đc chữ Nôm không, tức là phải biết chữ Hán viết gì hiểu nghĩa thì mới biết chữ nôm đọc ntn?
     
  12. lovelybear

    lovelybear In memory of Desmond Miles Lão Làng GVN

    Tham gia ngày:
    2/1/05
    Bài viết:
    18,395
    Thì vậy mới nói... không giải quyết được gì nhiều, chỉ giải quyết được đúng 1 cái là không còn vụ lộn xộn mấy cái chính tả vùng miền (kiểu như phát âm L với N, rùi dân trong Nam chữ "gi, d" đọc thành "d" hết....) - Nhưng đó là ưu điểm cơ bản của chữ tượng hình rồi (thiên triều nó có nhiều ngôn ngữ nên ưu điểm này nó phát huy vượt trội)
    So với thiên triều, mỗi vùng gần như là ngôn ngữ riêng luôn, thì con Vịt không đến mức đó, cơ bản là dân miền này nói miền kia vẫn gật gù hiểu tí tí, không điếc đặc luôn như thiên triều.
    Còn khuyết điểm của chữ Nôm thì muôn vàn, cứ hình dung trong cộng đồng văn hóa xài đũa, đến thằng Nhật nó cũng chấp nhận chữ giản thể của TQ để phổ cập, Hàn Quốc, Singapore cũng thế, tức là đạt được cái yếu tố 1 con chữ đi đâu cũng hiểu nghĩa giống nhau, thì lòi ra con Vịt chơi cái chữ không ai đọc được để làm gì.... !sad
     
  13. Nazgul_blr

    Nazgul_blr Baldur's Gate Lão Làng GVN

    Tham gia ngày:
    12/5/05
    Bài viết:
    28,056
    Nơi ở:
    TP Hồ Chí Min
    Mang tính bảo tồn là chính thôi fen :v.

    Với lại nếu gọi là "cố mà xài" thì có thể xài để trang trí :D.
     
  14. o0puppyo0

    o0puppyo0 Sith Lord Revan Berserker Lão Làng GVN

    Tham gia ngày:
    22/4/08
    Bài viết:
    10,989
    Nơi ở:
    Không lòng vòng
    Đơn giản, 1 chữ Nôm gồm 1 chữ Hán ký âm và 1 chữ Hán ký tự ghép lại. Ko đọc đc 2 chữ Hán kia thì đố đọc đc chữ Nôm
     
    lovelybear and zchingchongz like this.
  15. lovelybear

    lovelybear In memory of Desmond Miles Lão Làng GVN

    Tham gia ngày:
    2/1/05
    Bài viết:
    18,395
    Tiếng nào trên thế giới cũng vậy, pha trộn từ vựng của các vùng xung quanh, như tiếng Việt mình cũng gốc với tiếng Quảng Đông (tiếng Quảng Đông bên TQ cũng gọi là tiếng Việt, ghi khác chữ thôi), nhưng cũng có 1 số từ vựng của tiếng Mân (Triều Châu, Phúc Kiến), và dĩ nhiên là có cả giống Cam, Lào, Thái
    TQ nó không quan tâm cái thằng nào mới là đúng gốc cả fen, chỉ thấy mỗi con Vịt đặt nặng vấn đề là ở đâu mới là đúng gốc, như trong tiếng Quảng Đông cũng có vụ chữ "L" và "N" lẫn lộn đấy, tùy vùng.
    Còn vụ muốn đọc chữ Nôm phải giỏi chữ Hán thì mình ví dụ ở trên rồi đó
    Để đọc được chữ Năm (trong số 5), bạn phải biết mặt chữ của chữ Nam và chữ Ngũ, và còn phải phân biệt được chữ nào là biểu ý, chữ nào là âm đọc nữa
     
    thangvx102 and zchingchongz like this.
  16. lovelybear

    lovelybear In memory of Desmond Miles Lão Làng GVN

    Tham gia ngày:
    2/1/05
    Bài viết:
    18,395
    Lâu lâu có ngoại lệ, là chữ 1 đằng, nhưng nghĩa 1 nẻo
    số 1: 没, cái chữ này chữ Nôm là số 1, mà nghĩa Hán Việt éo ăn nhập gì hết, hố hố hố
     
  17. zchingchongz

    zchingchongz Chrono Trigger/Cross

    Tham gia ngày:
    20/9/18
    Bài viết:
    6,764
    giờ mình mới ngờ ngợ hiểu sao Pháp ngày xưa lại phổ cập chữ Quốc ngữ cho mình rồi, làm mình éo thể hiểu sao nó lại làm ra bộ chữ éo giống một nước nào cả hoá ra là phát triển từ chữ nôm lên nhưng biểu hiện dạng latin, có cái dở cũng có cái hay. ĐM sao nó không phổ cập bắt học hết tiếng Pháp cmnl đi thì có phải mình rồng hổ đỡ khổ ngoại ngữ đi bao nhiêu không :((
     
  18. lovelybear

    lovelybear In memory of Desmond Miles Lão Làng GVN

    Tham gia ngày:
    2/1/05
    Bài viết:
    18,395
    Bậy, vụ Pháp cập nhật quốc ngữ là để nó dễ cai trị nha...
    Chữ Nôm chỉ dùng để viết văn thơ cho vui thôi, chứ nhà Nguyễn vẫn xài chữ Hán, vì văn bản chính thức, lẫn văn bản ngoại giao đều phải xài Hán tự và cách hành văn chính quy (cổ văn) (cái loại mà coi phim hay nghe đó....kiểu Thuận thiên thừa vận, hoàng đế chiếu viết.... đó)
    Vụ học tiếng Pháp thời thuộc địa thì fen khỏi lo, học sinh lớp 2 là đã phải nói tiếng Pháp trong lớp rùi, cấm nói tiếng Việt rùi
     
    T1nhLaG1 and zchingchongz like this.
  19. JEmEL

    JEmEL Tự hào koo 1cm, 30 năm chỉ dùng để peepee Lão Làng GVN

    Tham gia ngày:
    23/10/04
    Bài viết:
    20,185
    !haha
     
  20. oblivion

    oblivion SPARTAN John-117 Lão Làng GVN

    Tham gia ngày:
    28/8/04
    Bài viết:
    11,154
    Nơi ở:
    làng chài gamevn
    Học tiếng Pháp hàng xóm đánh cho vêu mỏ.
     

Chia sẻ trang này