Công nghệ này hoạt động như sau: Trước hết một mẫu tiếng nói của người dùng được lưu lại làm một bản đối chiếu, sau đó máy tính sử dụng các âm vực có trong giọng nói này để diễn đạt lại bằng một ngôn ngữ khác, tạo cảm giác như câu nói của một ngôn ngữ khác với giọng của người dùng.
Công nghệ này được nghiên cứu từ khi phòng nghiên cứu Microsoft Research tìm cách đưa khả năng đọc hai ngôn ngữ cùng lúc trong một đoạn văn bản vào phần mềm đọc chữ.
Microsoft cho biết phần mềm này cần khoảng 1 giờ để tự “huấn luyện" với giọng phát âm của người đọc, hiện tại công nghệ này có thể dịch 26 thứ tiếng, trong đó có tiếng Anh, Trung Quốc và Tây Ban Nha. Nhóm phát triển tại Bắc Kinh cũng đang phát triển tính năng nhận diện giọng nói.
Trước đó, Google cũng từng đưa ra một công nghệ tương tự gọi là “Converstation mode" trong dịch vụ dịch ngôn ngữ Google Translate. Tuy nhiên công nghệ của Google không có khả năng phát ra giọng nói dựa theo tiếng nói của người dùng.
Các công nghệ này vẫn chưa được đưa vào ứng dụng, nhưng chúng cho phép chúng ta hi vọng vào một công nghệ tương lai như máy phiên dịch đa ngôn ngữ trong các phim viễn tưởng.