Hi anh em, hiện tại team mình quản lý đang cần tìm sinh viên/CTV chuyển speech to text. Khái quát công việc như bên dưới - CTV nghe bằng tiếng Việt, sau đó type lại thành text. - Nếu nghe tạp âm: Tiếng cười, tiếng à ờ, tiếng máy móc, tiếng âm nhạc thì sẽ có các nút bấm để đánh dấu tạp âm đó bằng button có sẵn trên tool. - Nếu có câu bằng tiếng anh thì bấm report. Không cần nghe. Ví dụ: Nội dung audio có thể chứa các đoạn có tiếng cười => để thống nhất các đoạn như vậy => cần cho vào thẻ <laugh></laugh>. Ví dụ: Hahaha bạn thật là vui tính => <laugh>ha ha ha</laugh> bạn thật là vui tính. Trong khi nói chuyện nhiều người thường ngập ngừng khi nói bằng cách sử dụng các từ như “à", “ờ",... => ta dùng thẻ <hes></hes> để thống nhất các đoạn như vậy. Ví dụ: Hôm nay tôi ờ ờ tôi à hơi mệt => Hôm nay tôi <hes>ờ</hes> tôi <hes>à</hes> hơi mệt. Nội dung audio có thể chứa các đoạn ồn như tiếng xe cộ, tiếng máy móc, tiếng vỗ tay,... => cần đưa vào thẻ <noise></noise>. Ví dụ: <noise>tiếng xe cộ</noise> Trung bình mỗi file tầm 7s. Yêu cầu nhận 400 files 1 lần và hoàn thành trong 1, 2 ngày. Về lương bổng: Cùng 1 đoạn audio sẽ có 2 CTV nghe. Admin sẽ dùng tool quét và đánh giá chất lượng text. Độ chính xác càng cao thì càng nhiều tiền. dự tính như bên dưới. < 60% - Không được thanh toán 60~70 - 25k 70~80 - 50K 80~85 - 80K 85~90 - 100K 90~100 - 120K Mình đang trong thời gian thu thập CTV, cv có thể triển khai trong tuần tới khi các thủ tục hoàn thành. Nên anh em ai có nhu cầu thì inbox mình nhé. Cảm ơn anh em.
uhm ông, 1 file chỉ tầm 7s. 1 câu thôi, cũng có câu chỉ 2 3s. Nếu tính ra thì tầm 10 chữ. Nên phải tính số file nó to lên để dễ tính tiền :( Mà mục đích của việc đánh dấu tạp âm là để so sánh cho dễ. ví dụ 1 chữ à, có ông nghe thành à hoặc ờ, so sánh nó trật chìa hết.
Thua. 400 là 400. 7 s mà phải căng khoái lạc song châu thì vẫn là 7 s căng khoái lạc song châu. Chắc đây kiểu bài test xem con ai nó có hoạt động đúng ko!
Mỗi 1 từ hoặc 1 vài từ đặt 1 câu 3-10s. Không có tạp âm, không ngắc ngứ. Các recorder khác nhau sẽ cho ra cách đọc từ đó khác nhau. AI dựa vào đó làm giàu thêm data. Speech to text là việc của Annotator. I SAY?
Này cũng như Appen nhỉ, nói 400 box thoại thấy nhiều chứ ngồi làm thì tầm 3h là xong, nhưng mà giá này rẻ mạt quá.