[tinh tế] công nghệ làm giả giọng nói

ConChymBay · 17/9/16

Nếu bạn muốn nói thứ gì đó quan trọng hay nhạy cảm thì cuộc trò chuyện nên được thực hiện qua điện thoại thay vì email hay chat chít bởi giọng nói của bạn là một phần quan trọng tạo nên sự tin tưởng. Tuy nhiên, sự tin tưởng dựa trên giọng nói này có thể bị phá vỡ bởi WaveNet - một công nghệ giọng nói có thể bắt chước y hệt giọng và thậm chí là nhịp thở của bạn.

Đây là một công nghệ được bộ phận Google DeepMind phát triển. DeepMind là một công ty phát triển trí thông minh nhân tạocó trụ sở tại London, Anh, được Google mua lại năm 2014.

Không dễ đễ tạo ra âm thanh bởi dữ liệu âm thanh rất dày đặc. Thử tưởng tượng khi bạn ghi âm giọng nói của mình với chất lượng tương tự như cuộc gọi trên điện thoại thì mỗi giây ghi âm được tạo ra bởi 16000 bit dữ liệu khác nhau, chúng được gọi là các mẫu (sample) và để tái tạo âm thanh đòi hỏi năng lực xử lý rất lớn. Giải pháp của Google đó là sử dụng trí thông minh nhân tạo (AI) và cách tái tạo cũng rất đặc biệt.

Thử tưởng tượng, nếu bạn muốn tạo ra một cái cốc, bạn có thể dùng Lego hoặc đất sét để tạo ra nó. Nếu dùng Lego, mỗi khối gạch sẽ đặt chồng lên nhau để tạo ra một cấu trúc hoàn chỉnh nhưng mỗi khối gạch là một thành phần riêng biệt. Phương pháp của Google giống đất sét hơn, về kỹ thuật họ gọi là mạng thần kinh hồi quy, dễ hiểu hơn thì:

Dữ liệu sẽ được tạo ra dưới dạng một chuỗi dài và cuộn lại, mỗi phần dữ liệu đều liên quan với nhau. Công nghệ mạng thần kinh sẽ xem xét các dữ liệu được tạo ra trước trước khi tạo ra bit dữ liệu tiếp theo. Vận dụng cơ chế sản sinh dữ liệu tiếp nối nhau, DeepMind có thể thu hẹp khoảng trống giữa chất lượng giọng nói của con người và máy móc đến 50% trong các thử nghiệm. Dưới đây là 2 đoạn hội thoại, đoạn trên do người nói, đoạn đưới do WaveNet mô phỏng lại, rất đáng ngạc nhiên!

Người nói:

WaveNet nói:

Để hiểu được giọng nói con người là như thế nào, WaveNet phải được học trước. Các nhà nghiên cứu tại DeepMind đã nạp cho thuật toán này 44 giờ ghi âm giọng của 109 người nói tiếng Anh khác nhau. Kết quả cho thấy sau khi học được giọng nói từ nhiều người, thuật toán WaveNet có thể mô hình hóa giọng của từng người mà nó học được. Thậm chí nó có thể bắt chước cách diễn đạt của người nói, chẳng hạn như nhịp thở hay những chuyển động của miệng có thể nghe thấy được.

Các nhà nghiên cứu cũng đã phát hiện ra rằng nếu như họ nạp vào thuật toán WaveNet những bài nhạc hòa tấu thay vì giọng nói thì nó cũng có thể tự soạn ra các bản nhạc riêng.

Theo: Quartz

link: https://tinhte.vn/threads/wavenet-t...-bat-chuoc-y-het-giong-noi-con-nguoi.2641188/

hanglomwa · 17/9/16

Công cái đầu buồi, gần 10 năm trước thằng em mình lên biên giới có thằng bạn.nó gửi cho cái điện thoại..

Cái đt này éo có chức năng gì ngoài việc đổi giọng gái sang trai và ngược lại..

Chú vào game giả gái, gâme mộng.mộng gì đó, vào guild bọn miền nam. Cho số điện thoại hẳn hoi, các cháu đại gia cho.nạp thẻ ầm ầm. Hài vcl

RickBe · 17/9/16

hanglomwa nói: ↑

Công cái đầu buồi, gần 10 năm trước thằng em mình lên biên giới có thằng bạn.nó gửi cho cái điện thoại..

Cái đt này éo có chức năng gì ngoài việc đổi giọng gái sang trai và ngược lại..

Chú vào game giả gái, gâme mộng.mộng gì đó, vào guild bọn miền nam. Cho số điện thoại hẳn hoi, các cháu đại gia cho.nạp thẻ ầm ầm. Hài vcl
Click to expand...

Đổi giọng, nó khác tạo ra giọng.

Đăng nhập

[tinh tế] công nghệ làm giả giọng nói

ConChymBay Tears of the Kingdom

hanglomwa Persian Prince

RickBe Thy Phương Nhi Thảo Lão Làng GVN

Chia sẻ trang này

Đăng nhập

[tinh tế] công nghệ làm giả giọng nói

ConChymBay Tears of the Kingdom

hanglomwa Persian Prince

RickBe Thy Phương Nhi Thảo Lão Làng GVN

Chia sẻ trang này

Tìm kiếm hữu ích