IT House đã báo cáo vào ngày 2 tháng 3 rằng nhóm giọng nói của Alibaba Tongyi Lab hôm nay đã phát hành hai mô hình hỗ trợ tạo lệnh FreeStyle, Fun-CosyVoice3.5 và Fun-AudioGen-VD.
Tuyên bố chính thức là cho dù nó kiểm soát tinh tế biểu hiện âm thanh hay thiết kế âm sắc và cảnh từ đầu, nó có thể được tạo trực tiếp thông qua các lệnh ngôn ngữ tự nhiên. Cả hai mô hình đều hỗ trợ kiểm soát việc tạo giọng nói thông qua các hướng dẫn ngôn ngữ tự nhiên, nhưng hướng ứng dụng khác nhau:
Fun-AudioGen-VD: Thiết kế âm thanh + Tạo âm thanh dựa trên cảnh
Fun-CosyVoice3.5
Mô hình hỗ trợ điều khiển lệnh FreeStyle và CosyVoice3.5 thực hiện nâng cấp khả năng theo hướng Instruct-TTS, hỗ trợ điều khiển lệnh FreeStyle để tạo hiệu ứng và tự do tạo giọng nói trong một câu.
Người dùng có thể mô tả trực tiếp các cách diễn đạt bằng ngôn ngữ tự nhiên, chẳng hạn như: “giọng điệu chắc chắn hơn”, “thấp cao độ một chút, nói chậm hơn”, “có một chút thăng trầm cảm xúc”… Mô hình có thể hiểu và tạo ra các biểu thức tương ứng.
Fun-CosyVoice3.5 bổ sung hỗ trợ cho tiếng Thái, tiếng Indonesia, tiếng Bồ Đào Nha và tiếng Việt. Tất cả trong khi duy trì “dẫn đầu ngành” về các chỉ số khách quan của WER và SpkSim bằng 13 ngôn ngữ.
Đối với các tình huống dễ đọc sai như từ hiếm và câu phức tạp, tỷ lệ lỗi đọc của từ hiếm Fun-CosyVoice3.5 đã giảm từ 15.2% xuống còn 5.3%, giúp văn bản phức tạp ổn định hơn và đọc văn bản dài ổn định và mượt mà hơn.
Ngoài ra, Fun-CosyVoice3.5 tăng gấp đôi trải nghiệm nghe thông qua điều chỉnh đặc biệt của công nghệ học tăng cường, giúp trải nghiệm nghe tổng thể tự nhiên hơn và biểu cảm nhiều lớp hơn. Về hiệu suất, tốc độ khung hình Tokenizer của Fun-CosyVoice3.5 giảm một nửa và độ trễ của gói đầu tiên giảm 35%, dẫn đến phản hồi nhanh hơn và trải nghiệm mượt mà hơn trong các tình huống tương tác thời gian thực.
Fun-AudioGen-VD Fun-AudioGen-VD hỗ trợ tạo âm sắc mục tiêu, biểu hiện cảm xúc và cảnh thính giác hoàn chỉnh dựa trên mô tả ngôn ngữ tự nhiên, thực hiện việc tạo âm thanh tích hợp của “người + cảnh”.
Các thuộc tính cơ bản: giới tính, tuổi, trọng âm, cao độ, tốc độ nói
Đặc điểm âm thanh: khàn khàn, rõ ràng, trầm, từ tính…
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Chỉ cần một câu để tạo ra tự do, Alibaba Tongyi Speech Dual Model Fun-CosyVoice3.5 và Fun-AudioGen-VD đã được phát hành
IT House đã báo cáo vào ngày 2 tháng 3 rằng nhóm giọng nói của Alibaba Tongyi Lab hôm nay đã phát hành hai mô hình hỗ trợ tạo lệnh FreeStyle, Fun-CosyVoice3.5 và Fun-AudioGen-VD.
Tuyên bố chính thức là cho dù nó kiểm soát tinh tế biểu hiện âm thanh hay thiết kế âm sắc và cảnh từ đầu, nó có thể được tạo trực tiếp thông qua các lệnh ngôn ngữ tự nhiên. Cả hai mô hình đều hỗ trợ kiểm soát việc tạo giọng nói thông qua các hướng dẫn ngôn ngữ tự nhiên, nhưng hướng ứng dụng khác nhau:
Fun-CosyVoice 3.5: Sao chép đa ngôn ngữ + kiểm soát biểu đạt tinh tế
Fun-AudioGen-VD: Thiết kế âm thanh + Tạo âm thanh dựa trên cảnh
Fun-CosyVoice3.5
Mô hình hỗ trợ điều khiển lệnh FreeStyle và CosyVoice3.5 thực hiện nâng cấp khả năng theo hướng Instruct-TTS, hỗ trợ điều khiển lệnh FreeStyle để tạo hiệu ứng và tự do tạo giọng nói trong một câu.
Người dùng có thể mô tả trực tiếp các cách diễn đạt bằng ngôn ngữ tự nhiên, chẳng hạn như: “giọng điệu chắc chắn hơn”, “thấp cao độ một chút, nói chậm hơn”, “có một chút thăng trầm cảm xúc”… Mô hình có thể hiểu và tạo ra các biểu thức tương ứng.
Fun-CosyVoice3.5 bổ sung hỗ trợ cho tiếng Thái, tiếng Indonesia, tiếng Bồ Đào Nha và tiếng Việt. Tất cả trong khi duy trì “dẫn đầu ngành” về các chỉ số khách quan của WER và SpkSim bằng 13 ngôn ngữ.
Đối với các tình huống dễ đọc sai như từ hiếm và câu phức tạp, tỷ lệ lỗi đọc của từ hiếm Fun-CosyVoice3.5 đã giảm từ 15.2% xuống còn 5.3%, giúp văn bản phức tạp ổn định hơn và đọc văn bản dài ổn định và mượt mà hơn.
Ngoài ra, Fun-CosyVoice3.5 tăng gấp đôi trải nghiệm nghe thông qua điều chỉnh đặc biệt của công nghệ học tăng cường, giúp trải nghiệm nghe tổng thể tự nhiên hơn và biểu cảm nhiều lớp hơn. Về hiệu suất, tốc độ khung hình Tokenizer của Fun-CosyVoice3.5 giảm một nửa và độ trễ của gói đầu tiên giảm 35%, dẫn đến phản hồi nhanh hơn và trải nghiệm mượt mà hơn trong các tình huống tương tác thời gian thực.
Fun-AudioGen-VD Fun-AudioGen-VD hỗ trợ tạo âm sắc mục tiêu, biểu hiện cảm xúc và cảnh thính giác hoàn chỉnh dựa trên mô tả ngôn ngữ tự nhiên, thực hiện việc tạo âm thanh tích hợp của “người + cảnh”.
Các thuộc tính cơ bản: giới tính, tuổi, trọng âm, cao độ, tốc độ nói
Đặc điểm âm thanh: khàn khàn, rõ ràng, trầm, từ tính…
Biểu hiện cảm xúc: tức giận, buồn bã, phấn khích, cương quyết…
Mô phỏng nhân vật: dịch vụ khách hàng, cựu chiến binh, trẻ em, AI, phát thanh viên…
Tâm lý phức tạp: hỗ trợ biểu hiện của các trạng thái tế nhị (ví dụ: “bình tĩnh bề ngoài nhưng run rẩy bên trong”)
Fun-AudioGen-VD không chỉ tạo ra âm thanh mà còn là “thế giới” mà nó sống, tạo ra những cảnh thính giác sống động.
Âm thanh xung quanh nền: âm thanh xung quanh chồng lên nhau như hối hả thành phố, nền quán cà phê, tiếng gầm chiến trường, v.v.;
Hiệu ứng âm vang không gian: mô phỏng tiếng vang của nhà thờ, tế bào kim loại, dưới nước và các không gian khác;
Bộ lọc thính giác của thiết bị: Khôi phục chất lượng âm thanh đặc biệt như radio kiểu cũ, bộ đàm và mặt nạ thở;
Tương tác môi trường động: Hỗ trợ tương tác thời gian thực như tiếng ồn gió không liên tục, thay đổi tiếng vang và hiệu ứng khàn khàn.
IT Home đính kèm hai mô hình vào trang web chính thức của cuộc gọi API như sau:
https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP