Speech to Text: Cách chuyển giọng nói thành văn bản trên PC, Android & iOS

Speech-To-Text là gì? Dưới đây là một số cách chuyển giọng nói thành văn bản trên PC, Android, iOS bằng phần mềm và mobile app miễn phí 100%.

Chuyển giọng nói thành văn bản là gì?

Chuyển giọng nói thành văn bản (tiếng Anh gọi là Speech To Text hoặc Voice To Text) là một công nghệ nhận diện giọng nói tự động (ASR – Automatic Speech Recognition) cho phép nhận dạng giọng nói của người dùng và biến nó thành văn bản viết hoặc văn bản điện tử.

Chuyển đổi giọng nói thành văn bản (còn gọi là Speech To Text hoặc Voice To Text) là một công nghệ nhận diện giọng nói tự động (ASR)
Chuyển đổi giọng nói thành văn bản (còn gọi là Speech To Text hoặc Voice To Text) là một công nghệ nhận diện giọng nói tự động (ASR)

Công nghệ này có thể được sử dụng cho nhiều mực đích khác nhau, nhưng chủ yếu là ứng dụng để đọc chính tả, phiên âm và nhận dạng giọng nói.

Có một số yếu tố quan trọng cần xem xét khi sử dụng công nghệ chuyển lời nói thành văn bản, trong đó, chất lượng âm thanh, loại ngôn ngữ và giọng của người nói có ảnh hưởng rất lớn đến chất lượng văn bản đầu ra.

Ngoài ra, một điều cần lưu ý là công nghệ chuyển giọng nói thành văn bản không phải lúc nào cũng chính xác 100% và có thể xảy ra lỗi trong quá trình phiên âm, do đó, bạn cần xem lại bản phiên âm cho chính xác trước khi sử dụng nó cho các nhiệm vụ quan trọng..

Nhìn chung, công nghệ chuyển giọng nói thành văn bản có thể là một công cụ hữu ích để cải thiện hiệu quả và năng suất của bạn nếu nó được ứng dụng một cách hợp lý và thích hợp.

Ưu nhược điểm của công nghệ Speech To Text hiện nay là gì?

Chuyển giọng nói thành văn bản (hay Speech To Text) là một trong những công nghệ được ứng dụng trong nhiều lĩnh vực khác nhau, nhờ vào một số ưu điểm sau:

Ưu điểm của công nghệ chuyển giọng nói thành văn bản

  • Tăng tính hiệu quả của công việc: Công nghệ chuyển giọng nói thành văn bản có thể tiết kiệm thời gian và tăng năng suất bằng cách cho phép các cá nhân nói lên ý tưởng của họ thay vì gõ chúng ra. Điều này có thể đặc biệt hữu ích cho các tác vụ liên quan đến nhiều giao tiếp bằng văn bản, chẳng hạn như phiên âm hoặc đọc chính tả.
  • Tăng cường khả năng truy cập: Công nghệ chuyển giọng nói thành văn bản có thể giúp những người khuyết tật, chẳng hạn như những người bị điếc hoặc nghe kém, giao tiếp và truy cập nội dung bằng văn bản dễ dàng hơn.
  • Cải thiện độ chính xác của việc phiên âm: Trong một số trường hợp, công nghệ chuyển giọng nói thành văn bản có thể chính xác hơn so với phiên âm của con người, đặc biệt là đối với từ vựng phức tạp hoặc kỹ thuật.
  • Khả năng tìm kiếm nâng cao: Công nghệ chuyển giọng nói thành văn bản có thể được sử dụng để phiên âm nội dung âm thanh và video thành dạng văn bản, sau đó có thể được sử dụng để cải thiện khả năng tìm kiếm của nội dung đó.

Tuy nhiên, công nghệ này vẫn có một số nhược điểm cần phải được xem xét kỹ lưỡng như sau:

Nhược điểm của Speech to Text

  • Chi phí ban đầu lớn: Việc đầu tư và triển khai các hệ thống chuyển giọng nói thành văn bản có thể khá đắt đỏ, đặc biệt đối với các dự án quy mô lớn.
  • Chi phí vận hành liên tục: Một số hệ thống chuyển giọng nói thành văn bản có thể yêu cầu phí đăng ký liên tục hoặc các chi phí khác để tiếp tục sử dụng dịch vụ.
  • Độ chính xác hạn chế: Mặc dù công nghệ chuyển giọng nói thành văn bản đã được cải thiện đáng kể trong những năm gần đây, nhưng nó vẫn không phải lúc nào cũng chính xác 100% và có thể xảy ra lỗi trong quá trình phiên âm.
  • Phụ thuộc vào công nghệ: Công nghệ chuyển giọng nói thành văn bản dựa trên các thuật toán phức tạp và kỹ thuật máy học, có thể bị ảnh hưởng bởi nhiều yếu tố. Điều này có thể gây khó khăn cho việc dự đoán độ chính xác của phiên âm trong mọi tình huống.
  • Hỗ trợ ngôn ngữ hạn chế: Một số hệ thống chuyển giọng nói thành văn bản có thể chỉ hỗ trợ một số ngôn ngữ hoặc giọng giới hạn, điều này có thể hạn chế việc sử dụng chúng đối với những cá nhân nói các ngôn ngữ khác.
  • Cần sự biên tập của con người: Vì công nghệ chuyển giọng nói thành văn bản chưa hoàn hảo, do đó, bạn cần phải kiểm tra và điều chỉnh thủ công trong một số trường hợp sai sót xảy ra nhằm tối ưu hóa khả năng sử dụng.
  • Không tự động nhập dấu câu: Một nhược điểm lớn của công nghệ Voice To Text hiện nay là nó không tự động nhập dấu câu vào văn bản. Do đó, nếu bạn muốn có một văn bản hoàn chỉnh, bạn cần phải nhập dấu câu thủ công hoặc đọc dấu câu trong quá trình nói.

Làm thế nào để tạo văn bản bằng giọng nói trên Windows 10 & 11?

Windows 10 và 11 hỗ trợ sẵn tính năng tạo văn bản từ giọng nói, do đó bạn không cần tải và cài đặt thêm bất kỳ ứng dụng hay phần mềm nào khác.

Tuy nhiên, bạn cần có microphone và kích hoạt sẵn chế độ Voice Typing và Speech Recognition trong phần Setting như dưới đây:

Kích hoạt Voice Typing và Speech Recognition trong Setting của hệ điều hành Windows
Kích hoạt Voice Typing và Speech Recognition trong Setting của hệ điều hành Windows

Để sử dụng tính năng này, bạn làm theo các bước sau:

  • Nhấn tổ hợp phím Windows + H để bật chức năng Speech to Text.
  • Sau đó, nói yêu cầu mà bạn muốn. Hệ thống sẽ tự động hiển thị văn bản mà bạn đã đọc, và dựa vào đó để phản hồi thông tin hoặc thực hiện yêu cầu.
  • Để ngừng tính năng này, bạn có thể nói “Stop dictation”.

Lưu ý, chỉ một số loại ngôn ngữ được hỗ trợ khi chuyển giọng nói thành văn bản trên Windows 10, gồm có 7 loại như sau:

  • Tiếng Trung giản thể
  • Tiếng Anh
  • Tiếng Pháp
  • Tiếng Đức
  • Tiếng Ý
  • Tiếng Bồ Đào Nha
  • Tiếng Tây Ban Nha

Trong khi đó, nếu bạn sử dụng Windows 11, số lượng ngôn ngữ được hỗ trợ tăng lên hàng chục loại khác nhau, trong đó có cả Tiếng Việt.

Tham khảo thêm một số câu lệnh phổ biến hoặc cách chèn dấu câu vào văn bản trên Windows 10 và 11 tại đây.

Cách chuyển giọng nói thành văn bản cho Android và iOS

Ứng dụng bàn phím Gboard

Gboard là một ứng dụng bàn phím ảo do Google phát triển, có sẵn cho các thiết bị Android và iOS.

Nó bao gồm một số tính năng như hỗ trợ nhiều loại ngôn ngữ, dự đoán văn bản và chức năng tìm kiếm tích hợp cho phép người dùng tìm kiếm trên web và truy cập thông tin trực tiếp từ bàn phím.

Một trong những tính năng chính của Gboard là tích hợp với công nghệ chuyển giọng nói thành văn bản của Google, cho phép người dùng đọc chính tả nội dung nhập văn bản của họ thay vì gõ ra.

Đây là một cách thuận tiện để nhập văn bản, đặc biệt đối với những người đang gặp khó khăn với các thiết bị di động có màn hình nhỏ hoặc những người muốn sử dụng lời nói để tạo văn bản thay vì sử dụng thao tác bằng tay.

Ứng dụng bàn phím Gboard hỗ trợ chức năng Voice To Text
Ứng dụng bàn phím Gboard hỗ trợ chức năng Voice To Text

Vì sao bạn nên sử dụng Gboard?

  • Hỗ trợ thao tác vuốt
  • Học các từ yêu thích
  • Thiết kế tối giản
  • Tích hợp tìm kiếm Google
  • Hỗ trợ nhập văn bản bằng giọng nói
  • Cài đặt sẵn trên hầu hết các thiết bị Android
  • Hỗ trợ hơn 150 ngôn ngữ trên thế giới (tính đến tháng 8/2022), trong đó có Tiếng Việt
  • Hỗ trợ cả Android và iOS
  • Miễn phí

Nhược điểm của Gboard

  • Khó sử dụng khi ở chế độ màn hình nằm ngang
  • Sử dụng nhiều RAM

Chi phí để sử dụng Gboard

Miễn phí 100%.

Đánh giá chất lượng ứng dụng này

  • Google Play: 4.5 / 5 sao.
  • Appstore: 4.4 / 5 sao.

Hướng dẫn thiết lập Gboard trên Android

  • Cách 1: Vào Cài đặt > Cài đặt hệ thống> Bàn phím & phương thức nhập > Bàn phím hiện tại > chọn Gboard. Lưu ý: tên các mục có thể thay đổi tùy thuộc vào loại thiết bị và ngôn ngữ mà bạn đang sử dụng.
  • Cách 2: Vào Cài đặt > tìm với từ khóa “Bàn phím” trong khung tìm kiếm > chọn Bàn phím hiện tại > chọn Gboard. Lưu ý: Có thể bạn sẽ không áp dụng được cách này đối với một số phiên bản Android cũ.

Ứng dụng bàn phím Laban Key

Laban Key là ứng dụng bàn phím do VNG phát triển, và được xem là ứng dụng gõ tiếng Việt hàng đầu tại Việt Nam hiện nay.

Laban Key - Ứng dụng Voice To Text do VNG phát triển
Laban Key – Ứng dụng Voice To Text do VNG phát triển

Cũng giống với Gboard, Laban Key được tích hợp chức năng Speech To Text nhằm cải thiện khả năng nhập văn bản cũng như tăng cường trải nghiệm trao đổi với bạn bè thông qua các ứng dụng chat như Zalo, Messenger, Viber, Whatsapp…

Vì sao bạn nên sử dụng Laban Key?

  • Hỗ trợ gõ tiếng Việt kiểu Telex hoặc VNI
  • Giao diện bàn phím tùy chỉnh
  • Gợi ý từ thông minh dựa trên các từ yêu thích
  • Tích hợp Emoji biểu tượng cảm xúc
  • Cho phép nhập văn bản bằng giọng nói
  • Hỗ trợ cả Android và iOS
  • Miễn phí

Nhược điểm của Laban Key

  • Chưa tương thích hoàn toàn với một số thiết bị Android, còn tình trạng nhập sai ký tự

Chi phí để sử dụng Laban Key

Ứng dụng bàn phím Laban Key hoàn toàn miễn phí cho cả người dùng Android và iOS.

Đánh giá chất lượng ứng dụng này

  • Google Play: 4.3 / 5 sao
  • Appstore: 4 / 5 sao

Hướng dẫn cài đặt Laban Key trên Android

Tương tự với ứng dụng Gboard, bạn cần truy cập vào mục Bàn phím & phương thức nhập trong phần Cài đặt để lựa chọn Laban Key làm ứng dụng bàn phím mặc định cho thiết bị Android của mình.

Ứng dụng Trợ lý ảo Google Assistant

Google Assistant là ứng dụng trợ lý trên smartphone đa năng có thể giúp bạn rất nhiều công việc khác nhau, nhưng chức năng tốt nhất của nó chính là hỗ trợ nhận diện giọng nói và chuyển giọng nói thành văn bản (voice to text).

Chuyển giọng nói thành văn bản với Google Assistant
Chuyển giọng nói thành văn bản với Google Assistant

Với chức năng nhận diện giọng nói, bạn có thể điều khiển và yêu cầu Trợ lý Google thực hiện một số thao tác nhất định như mở video Youtube, mở ứng dụng trên điện thoại, tìm kiếm trên bản đồ Google Maps…

Trong khi đó, chức năng chuyển giọng nói thành văn bản có thể giúp bạn soạn tin nhắn, email, nhập số điện thoại, quản lý công việc hoặc thêm sự kiện vào lịch của bạn.

Bạn có thể kích hoạt Google Assistant bằng câu lệnh thoại, chẳng hạn như “Hey Google” hoặc “Ok Google”, nó có thể hiểu, phản hồi và thực thi nhiều yêu cầu bằng giọng nói.

Một số ví dụ về các tác vụ mà Trợ lý Google có thể hỗ trợ bao gồm đặt lời nhắc, trả lời câu hỏi, phát nhạc, điều khiển thiết bị nhà thông minh…

Vì sao bạn nên sử dụng Google Assistant?

  • Tích hợp vào các dịch vụ bạn đã sử dụng, chẳng hạn như email và nhắn tin.
  • Hỗ trợ chuyển đổi giọng nói thành văn bản
  • Hiểu và thực hiện được hàng triệu câu lệnh khác nhau với hơn 17 nhóm chủ đề như mua sắm, nhạc và âm thanh, hiệu suất, thể thao, thời tiết…
  • Dùng được cho cả Android và iOS.
  • Miễn phí.

Nhược điểm của Google Assistant

  • Không được thiết kế đặc biệt để ghi chú.
  • Nếu muốn ghi chú cần sử dụng thêm các applet khác.
  • Không hoạt động nếu không có Internet.

Giá bán

Google Assistant miễn phí cho tất cả các thiết bị smartphone Andoird và iOS, trong đó phần lớn các thiết bị Android đều được cài đặt sẵn ứng dụng này.

  • Thiết bị Android: Link
  • iPhone & iPad: Link

Đánh giá chất lượng của ứng dụng

  • Google Play: 3.9 / 5 sao
  • Appstore: 4.7 / 5 sao

Hướng dẫn từng bước sử dụng Google Assistant

Yêu cầu cấu hình của thiết bị:

  • Đối với thiết bị Android: Android 5.0 trở lên (còn trống ít nhất 1 GB) / Android 6.0 trở lên (còn trống ít nhất 1.5 GB); Ứng dụng Google 6.13 trở lên; Dịch vụ Google Play; Màn hình độ phân giải từ 720p trở lên; cài đặt sẵn ngôn ngữ Tiếng Việt hoặc tiếng Anh.
  • Đối với thiết bị iOS: sử dụng hệ điều hành từ iOS 11 trở lên; cài đặt sẵn Tiếng Việt hoặc tiếng Anh; cài đặt ứng dụng Google Assistant.

Bắt đầu sử dụng:

  • B1: Kích hoạt ứng dụng Google Assistant.
  • B2: Nhấn và giữ nguyên phím Home để khởi động Google Assistant.
  • B3: Nói yêu cầu của bạn theo ngôn ngữ đã được cài đặt. Ví dụ, nếu bạn bạn đã cài đặt ngôn ngữ là Tiếng Việt, bạn có thể yêu cầu Google Assistant thực hiện các thao tác bằng tiếng Việt như “mở Youtube”, “tìm khóa học SEO” hay “tìm địa chỉ công ty ABC”.

Các lưu ý khác khi sử dụng Google Assistant: Xem tại đây

Ứng dụng Trợ lý ảo Siri Assistant

Nếu bạn là tín đồ của Apple, bạn không thể không biết đến trình Trợ lý ảo Siri Assistant.

Chuyển giọng nói thành văn bản với Trình Trợ lý ảo Siri Assistant
Chuyển giọng nói thành văn bản với Trình Trợ lý ảo Siri Assistant

Tương tự như Google Assistant, Trợ lý ảo Siri giúp bạn tối ưu hóa khả năng kiểm soát thiết bị Apple như iPhone, iPad, Macbook… thông qua giọng nói.

Có thể nói, Siri Assistant là một trong những dấu hiệu đặc trưng giúp bạn nhận biết thiết bị Apple thật hay giả, vì hiện nay, Siri Assistant chưa có phiên bản Android.

Vì sao bạn nên sử dụng Siri Assistant?

  • Tương tự với Google Assistant nhưng được tối ưu cho thiết bị Apple
  • Công nghệ Voice To Text do Apple phát triển giúp xử lý tất cả mọi tác vụ bằng giọng nói.
  • Hỗ trợ sử dụng trên ô tô
  • Miễn phí 100%

Nhược điểm của Siri Assistant

  • Không hỗ trợ Android.
  • Không hoạt động nếu không có Internet.
  • Khả năng nhận diện giọng nói chưa tốt.

Chi phí sử dụng Siri Assistant là bao nhiêu?

Miễn phí 100% đối với các thiết bị Apple như iPhone, iPad, iWatch, Macbook…

Siri Assistant được cài đặt mặc định với các thiết bị Apple, do đó, hiện không có link download đối với ứng dụng này.

Ứng dụng dịch thuật Google Translate

Một trong những ứng dụng lớn nhất của công nghệ chuyển đổi giọng nói thành văn bản chính là hỗ trợ dịch thuật, và nó đã được ứng dụng rất tốt trong công cụ Google Translate (hay còn gọi là Google Dịch).

Ứng dụng dịch thuật Google Translate có cả phiên bản Andoird và iOS
Ứng dụng dịch thuật Google Translate có cả phiên bản Andoird và iOS

Google Translate là một ứng dụng dịch thuật rất được ưa chuộng trên toàn thế giới nhờ tính miễn phí cũng như hỗ trợ hầu hết tất cả các loại ngôn ngữ trên thế giới.

Tính năng chính của nó là dịch văn bản sang một ngôn ngữ khác, nhưng với sự trợ giúp của công nghệ chuyển Speech To Text, nó đã “tiến hóa” thành loại ứng dụng không thể thiếu cho bất kỳ ai có nhu cầu đi du lịch nước ngoài.

Vì sao bạn nên sử dụng Google Translate?

  • Dịch nhanh
  • Độ chuẩn xác khá cao
  • Hỗ trợ hầu hết các loại ngôn ngữ trên thế giới
  • Hỗ trợ sử dụng offline khi đến những khu vực không có Internet
  • Miễn phí 100%

Nhược điểm của Google Translate

  • Một số cụm từ dịch thuật chưa chính xác hoặc bị lạm dụng bởi những thành phần phá phách.
  • Chức năng chuyển đổi giọng nói thành văn bản chỉ hoạt động khi có Internet.

Chi phí sử dụng Google Dịch

Miễn phí 100%.

Đánh giá chất lượng ứng dụng Google Translate

  • Google Play: 4.4 / 5 sao
  • Appstore: 4.1 / 5 sao

Top5+ công cụ Speech To Text trực tuyến tốt nhất hiện nay

Câu hỏi thường gặp về công nghệ chuyển giọng nói thành văn bản

Ứng dụng trợ lý ảo nào tốt nhất: Google Assistant hay Siri?

Hiện nay, AI của Google Assistant được đánh giá cao hơn hẳn so với Siri với khả năng thực hiện tác vụ chính xác và nhanh chóng.

API Speech To Text của Google có miễn phí không?

Để sử dụng Speech To Text API của Google, bạn cần phải trả phí, tuy nhiên, mỗi tháng bạn sẽ được miễn phí 60 phút để phân tích dữ liệu giọng nói.

Đâu là ứng dụng chuyển giọng nói thành văn bản tốt nhất để nhắn tin?

Tại Việt Nam, bạn có thể sử dụng chức năng chuyển giọng nói thành văn bản của Laban Key hoặc Gboard để phục vụ cho mục đích nhắn tin, vì các ứng dụng này có hỗ trợ tiếng Việt rất tốt.

Tôi có thể chuyển file âm thanh thành văn bản được không?

Được, bạn có thể sử dụng các công cụ như Speech To Text của Google, FPT.ai, Speechnotes hay Dictation.com để chuyển đổi tập tin âm thanh thành văn bản.

5/5 (1 Review)

Vũ Đăng Chung

Xin chào, tôi là một freelancer chuyên về SEO Marketing. Tôi đã dành 4 năm để làm công việc Digital Marketing và viết Content tại các công ty thuộc nhiều lĩnh vực như làm đẹp & thẩm mỹ, thiết bị công nghiệp, thương mại điện tử, quảng cáo trực tuyến... trước khi chuyển sang làm SEO full-stack từ năm 2016. Cần liên hệ tôi? Vui lòng gửi yêu cầu đến địa chỉ email: chung250190@gmail.com

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *