Simon Poghosyan là người sáng lập và CEO của GSpeech, một nền tảng AI dựa trên web giúp nội dung trực tuyến dễ truy cập hơn bằng cách chuyển đổi văn bản thành âm thanh tự nhiên ở hơn 70 ngôn ngữ. Với nền tảng về Thiết kế VLSI và sự quan tâm mạnh mẽ đến lập trình và trải nghiệm người dùng, Simon đã tạo ra GSpeech để đơn giản hóa cách các trang web có thể cung cấp nội dung hỗ trợ giọng nói.
Ngày nay, GSpeech tạo ra khoảng 200 triệu ký tự âm thanh mỗi tháng và được sử dụng tại hơn 70 quốc gia, với trình phát âm thanh tùy chỉnh phục vụ hơn 200,000 lượt phát mỗi tháng. Gần đây, GSpeech đã vượt qua con số 1 tỷ ký tự âm thanh được tạo ra, và tiếp tục phát triển nhanh chóng. Nền tảng này được thiết kế để dễ tích hợp — chỉ cần một dòng mã — và hỗ trợ người sáng tạo, nhà giáo dục và doanh nghiệp trong việc làm cho nội dung của họ trở nên toàn diện và hấp dẫn hơn.
Nền tảng của bạn về Thiết kế VLSI (Tích hợp quy mô rất lớn) và kinh nghiệm lập trình ban đầu đã đặt nền tảng kỹ thuật vững chắc. Điều gì đã truyền cảm hứng cho sự chuyển đổi của bạn từ vi điện tử sang xây dựng phần mềm hỗ trợ AI và điều đó dẫn đến việc tạo ra GSpeech như thế nào?
Niềm đam mê giải quyết vấn đề của tôi bắt đầu từ thời trung học, được thúc đẩy bởi tình yêu dành cho toán học và vật lý. Sự quan tâm đó đã đưa tôi đến với bằng Cử nhân (2009) và Thạc sĩ (2011) về Thiết kế VLSI từ Đại học Kỹ thuật Nhà nước Armenia, hợp tác với Synopsys Armenia. Học vật lý đã rèn luyện cho tôi tư duy chính xác và phân tích, nhưng phải đến năm thứ hai, tôi mới khám phá ra lập trình — bắt đầu với ngôn ngữ Pascal — và ngay lập tức yêu thích nó. Bạn tôi và tôi sẽ hoàn thành bài tập về khóa học ngay khi nhận được, mặc dù chúng tôi có sáu tháng để hoàn thành. Sau đó, để giải trí, chúng tôi bắt đầu làm bài tập của những sinh viên khác.
Niềm đam mê này đã đưa tôi đi sâu hơn vào phát triển phần mềm. Tôi bắt đầu bằng việc tạo trang web, sau đó xây dựng CMS của riêng mình. Sau khi hoàn thành một số dự án về tự động hóa quy trình và thiết kế kiến trúc quản lý dữ liệu, tôi nhận ra mình yêu thích việc xây dựng các giải pháp kỹ thuật số cho giao diện web đến mức nào. Thông qua dự án 2GLux, tôi đã hợp tác với Edvard Ananyan — người sáng tạo ra GTranslate dịch vụ dịch thuật và một người bạn học ở Quantum Gymnasium. Anh ấy giới thiệu cho tôi hệ sinh thái WordPress và Joomla, và khái niệm về GSpeech bắt nguồn từ anh ấy. Công trình ban đầu đó đã dẫn đến phiên bản đầu tiên của công cụ của chúng tôi, cho phép người dùng nghe văn bản trên trang web, gieo mầm cho những gì sau này sẽ trở thành nền tảng AI đầy đủ tính năng. Đến năm 2023, tôi đã thành lập Câu lạc bộ thông minh LLC mở rộng quy mô GSpeech thành giải pháp âm thanh AI toàn cầu, hỗ trợ hơn 70 ngôn ngữ. Humanity UnionLời khen ngợi của 's về vai trò của GSpeech trong việc nâng cao khả năng tiếp cận nền tảng tham gia cộng đồng của họ phản ánh sứ mệnh của tôi là thu hẹp khoảng cách kỹ thuật số thông qua AI — một tầm nhìn bắt nguồn từ những ngày đầu lập trình của tôi.
GSpeech ban đầu là một công cụ hỗ trợ người dùng khiếm thị. Nhiệm vụ ban đầu đó đã ảnh hưởng như thế nào đến sự phát triển của nền tảng thành một giải pháp chuyển văn bản thành giọng nói AI đầy đủ tính năng?
Tập trung vào khả năng truy cập đã thúc đẩy sự phát triển của âm thanh AI chất lượng cao, thời gian thực, dịch sang hơn 70 ngôn ngữ và tích hợp trang web liền mạch thông qua một đoạn mã đơn giản. Nhiệm vụ này đã dẫn đến các tính năng như trình phát âm thanh có thể tùy chỉnh, bảng lựa chọn ngôn ngữ và giọng nói, phát lại theo ngữ cảnh, tải xuống âm thanh và số liệu thống kê sử dụng chi tiết — bao gồm dữ liệu quốc gia, thành phố, thiết bị và phân tích phát lại theo thời gian — tất cả đều được thiết kế để làm cho nội dung bao hàm và hấp dẫn hơn. Sau khi viết hơn 100,000 dòng mã, tôi đã ra mắt GSpeech Cloud Console vào năm 2023 — một giải pháp có thể mở rộng cân bằng giữa tính bao hàm với chức năng nâng cao, trao quyền cho các doanh nghiệp và người sáng tạo để làm cho nội dung của họ có thể truy cập, đa ngôn ngữ và tương tác trên toàn bộ web.
Một số thách thức kỹ thuật lớn nhất mà bạn gặp phải trong quá trình phát triển GSpeech Cloud Console là gì?
Một trong những thách thức lớn nhất trong quá trình phát triển GSpeech Cloud Console là thiết kế một kiến trúc có khả năng mở rộng để tạo ra âm thanh AI chất lượng cao, an toàn và theo thời gian thực. Điều này đòi hỏi các giải pháp sáng tạo để lấy nội dung có liên quan từ web, xử lý âm thanh trên máy chủ của chúng tôi và lưu trữ trên đám mây để phân phối nhanh chóng và đáng tin cậy. Việc triển khai các biện pháp bảo mật mạnh mẽ, như mã hóa và kiểm soát truy cập, là rất quan trọng để bảo vệ nội dung động do người dùng tạo ra.
Một rào cản khác là cho phép dịch theo thời gian thực bằng các công cụ thần kinh tiên tiến. Chúng tôi phải đảm bảo độ trễ thấp, bản dịch chính xác trong khi xây dựng giao diện trực quan cho phép người dùng chọn ngôn ngữ và cấu hình giọng nói ưa thích để phát lại, ưu tiên sự thoải mái và cá nhân hóa của người dùng. Cuối cùng, chúng tôi đã phát triển trình hướng dẫn tạo mẫu âm thanh với nhiều chế độ xem trình phát có thể tùy chỉnh, cho phép người dùng thiết kế trình phát độc đáo, hấp dẫn về mặt hình ảnh phù hợp với trang web của họ. Cân bằng tính linh hoạt, hiệu suất và tính dễ sử dụng trên các thiết bị là một thách thức đáng giá.
Với tính năng dịch thời gian thực trên 70 ngôn ngữ và hơn 230 giọng nói tự nhiên. Làm thế nào để đảm bảo chất lượng giọng nói và duy trì độ chính xác trên một tập hợp ngôn ngữ đa dạng như vậy?
Để duy trì chất lượng giọng nói nhất quán, chúng tôi tích hợp nhiều mô hình chuyển văn bản thành giọng nói (TTS) tiên tiến liên tục được tối ưu hóa và cập nhật. Các công cụ đa ngôn ngữ này xử lý nội dung ngôn ngữ hỗn hợp với độ chính xác cao. Chúng tôi cũng đang triển khai hơn 100 rung giọng mới để cung cấp cho người dùng nhiều tùy chọn biểu cảm và nghe tự nhiên hơn. Hàng tháng, GSpeech tạo ra hơn 200 triệu ký tự âm thanh, phục vụ người dùng ở hơn 70 quốc gia, với trình phát trực tuyến của chúng tôi được sử dụng hơn 200,000 lần mỗi tháng — và đang tăng lên. Quy mô này đảm bảo phản hồi liên tục và thử nghiệm thực tế, trực tiếp thông báo cho việc điều chỉnh và kiểm soát chất lượng của chúng tôi.
Bạn có thể hướng dẫn chúng tôi cách GSpeech tận dụng AI và máy học để cung cấp khả năng tổng hợp giọng nói giống thật không? Làm thế nào để bạn theo kịp những tiến bộ nhanh chóng trong công nghệ giọng nói thần kinh?
GSpeech sử dụng AI và máy học tiên tiến, tích hợp nhiều mô hình chuyển văn bản thành giọng nói hiện đại để tạo ra tổng hợp giọng nói giống như thật. Các mô hình này, được tối ưu hóa để tự nhiên và hỗ trợ đa ngôn ngữ, xử lý các đầu vào văn bản để tạo ra âm thanh chất lượng cao với ngữ điệu và nhịp điệu chân thực, ngay cả đối với nội dung ngôn ngữ hỗn hợp. Chúng tôi nâng cao trải nghiệm của người dùng bằng cách cung cấp các kiểu giọng nói có thể tùy chỉnh cho nhiều ngôn ngữ khác nhau. Chúng tôi cũng đã tích hợp các bí danh TTS, cho phép người dùng xác định các quy tắc tùy chỉnh về cách hiển thị một số từ hoặc cụm từ nhất định trong âm thanh — ví dụ: thay thế các thuật ngữ cụ thể để đạt được cách phát âm hoặc cách diễn đạt chính xác hơn. Để luôn cập nhật công nghệ giọng nói thần kinh, chúng tôi liên tục đánh giá và tích hợp những tiến bộ mới nhất, hợp tác với các nhà lãnh đạo trong ngành và có kế hoạch phát triển các mô hình độc quyền trong tương lai, đảm bảo GSpeech luôn đi đầu trong đổi mới tổng hợp giọng nói.
Tính năng điều chỉnh giọng nói, kiểm soát cao độ và tùy chỉnh phát lại quan trọng như thế nào đối với người dùng của bạn—và bạn tự hào nhất về trường hợp sử dụng nào mà những tính năng này thực sự nổi bật?
Điều chỉnh giọng nói, kiểm soát cao độ và tùy chỉnh phát lại rất quan trọng đối với người dùng của chúng tôi, cho phép họ tạo ra các phong cách giọng nói độc đáo, chất lượng cao phù hợp với nhu cầu cụ thể của họ, từ các trang web tin tức và blog đến nội dung học trực tuyến có thể truy cập được. Việc tích hợp liên tục hơn 100 rung cảm giọng nói mới càng làm tăng thêm điều này, mang đến cho người dùng sự linh hoạt vô song để tạo ra các giọng nói thực sự đặc biệt. Tôi tự hào nhất về GSpeech Studio, một nền tảng chỉnh sửa và tạo âm thanh mới mà tôi đang phát triển. Nó cho phép người dùng tạo nhiều kênh âm thanh, trộn chúng với nhạc nền và xuất các giọng nói được trau chuốt, trao quyền cho người sáng tạo tạo ra âm thanh chuyên nghiệp cho nhiều ứng dụng khác nhau. Bức thư của một sinh viên khiếm thị, cảm ơn GSpeech đã cho phép học tập độc lập thông qua âm thanh tùy chỉnh, đã khiến tôi vô cùng xúc động. Trường hợp sử dụng này cho thấy cách các tính năng này làm cho nội dung có thể truy cập được và có khả năng biến đổi, một mục tiêu mà tôi đã theo đuổi kể từ những ngày đầu lập trình.
GSpeech cung cấp khả năng tích hợp liền mạch với WordPress, Shopify, Wix, v.v. Chiến lược của bạn để biến nền tảng này thành plug-and-play cho những người sáng tạo và doanh nghiệp trên nhiều hệ sinh thái khác nhau là gì?
Chiến lược của chúng tôi đối với tích hợp plug-and-play của GSpeech với các nền tảng như WordPress, Shopify và Wix tập trung vào tính đơn giản, khả năng tương thích và khả năng mở rộng. Chúng tôi đã phát triển các plugin và đoạn mã nhẹ, dạng mô-đun tích hợp liền mạch, yêu cầu thiết lập tối thiểu—thường chỉ cần vài cú nhấp chuột. Điều này có nghĩa là hàng nghìn bài viết và khối nội dung động có thể ngay lập tức nhận được hỗ trợ giọng nói — mà không cần nỗ lực thủ công. Chúng tôi cung cấp các trình phát linh hoạt cao, được thiết kế đẹp mắt, thích ứng với nhiều thiết bị, bao gồm thiết bị di động, máy tính bảng và máy tính để bàn. Trình phát của chúng tôi không chỉ có thể tùy chỉnh mà còn được tối ưu hóa để dễ truy cập và tương tác với người dùng. Đối với WordPress, chúng tôi đã nhúng bảng điều khiển đám mây GSpeech trực tiếp vào bảng quản trị thông qua plugin của mình, hợp lý hóa việc quản lý cho người dùng. Tài liệu chi tiết và bảng điều khiển trực quan hướng dẫn người dùng không chuyên cài đặt và tùy chỉnh. Việc kiểm tra thường xuyên đảm bảo hiệu suất nhất quán trên nhiều hệ sinh thái khác nhau, trao quyền cho người sáng tạo và doanh nghiệp thêm văn bản thành giọng nói hỗ trợ AI một cách dễ dàng.
Nhìn lại chặng đường từ năm 2012 đến nay, cột mốc nào là quan trọng nhất đối với bạn về mặt cá nhân hoặc chuyên môn trong quá trình xây dựng GSpeech?
Cột mốc lớn nhất đối với GSpeech là tạo ra 1 tỷ ký tự âm thanh AI chất lượng cao, thể hiện tác động toàn cầu của chúng tôi đối với khả năng truy cập. Cũng có ý nghĩa không kém là phản hồi mà chúng tôi nhận được từ các tổ chức như Humanity Union, những người đã ca ngợi GSpeech vì đã cải thiện nền tảng trách nhiệm xã hội của họ và từ những người sở hữu blog gọi đó là "công cụ thay đổi cuộc chơi" cho sự tương tác của người dùng. Hơn 110 đánh giá năm sao trên các nền tảng như WordPress và Ứng dụng trong những tháng gần đây phản ánh sự tin tưởng ngày càng tăng này.
GSpeech hiện cũng được sử dụng tích cực bởi Cục thống kê khu vực Namangan ở Uzbekistan — một tổ chức chính phủ có lưu lượng truy cập đáng kể và tầm nhìn cấp quốc gia. Việc chứng kiến một cơ quan công cộng áp dụng công nghệ của chúng tôi rộng rãi là một cột mốc có ý nghĩa và là dấu hiệu mạnh mẽ cho thấy sự tin tưởng vào giải pháp của chúng tôi.
Là một người theo đạo Thiên chúa và là người phục vụ trong nhà thờ Armenia, tôi cũng cố gắng hỗ trợ các sáng kiến dựa trên đức tin khác bất cứ khi nào có thể. Tôi thường cung cấp GSpeech miễn phí cho các trang web của đạo Thiên chúa như một cách giúp truyền bá thông điệp của họ hiệu quả hơn và làm cho Kinh thánh dễ tiếp cận hơn thông qua âm thanh. Đó là đóng góp nhỏ của tôi cho một điều gì đó lớn lao hơn. Đồng thời, tôi rất vinh dự được làm việc với các mục vụ tận tụy như Dây — một giáo đoàn Messia và là khách hàng được GSpeech đánh giá cao — có sứ mệnh và nội dung phản ánh sức mạnh của Kinh thánh trong hành động.
Những khoảnh khắc này — khi công nghệ trở thành cầu nối cho đức tin, sự hiểu biết và sự hòa nhập — nhắc nhở tôi lý do tại sao chúng tôi xây dựng GSpeech ngay từ đầu.
Bạn thấy GSpeech đóng vai trò gì trong tương lai của phương tiện truyền thông kỹ thuật số, đặc biệt là khi nội dung âm thanh và giao diện giọng nói ngày càng chiếm ưu thế?
Tôi hình dung GSpeech sẽ là đơn vị dẫn đầu trong việc giúp phương tiện truyền thông kỹ thuật số dễ tiếp cận và hấp dẫn hơn bằng cách cho phép truy cập bằng giọng nói do AI hỗ trợ vào web. Mục tiêu của chúng tôi là biến đổi toàn bộ trải nghiệm trực tuyến, để các trang web trở nên tự nhiên, bao gồm và đa ngôn ngữ theo mặc định. Chỉ với một dòng mã, chủ sở hữu trang web có thể biến hàng nghìn bài viết thành nội dung có giọng nói. Nhìn về phía trước, chúng tôi đang phát triển GSpeech Studio thành một nền tảng mạnh mẽ và độc đáo để tạo và chỉnh sửa âm thanh, cho phép người dùng tạo nội dung giọng nói nhiều lớp với nhạc nền, hiệu ứng và điều chỉnh chính xác. Chúng tôi muốn làm cho web thực sự có thể nghe được, trực quan và có thể truy cập phổ biến.
GSpeech mới ra mắt trên AppSumo và đã đạt được đánh giá gần như hoàn hảo từ những người dùng đầu tiên. Phản hồi từ cộng đồng AppSumo có ý nghĩa gì với bạn và bạn định xây dựng đà phát triển này như thế nào trong tương lai?
Việc ra mắt AppSumo đã giới thiệu GSpeech đến hàng triệu người và xếp hạng gần như hoàn hảo của nó là một sự khẳng định đáng kinh ngạc. Người dùng, giống như những người điều hành các khóa học trực tuyến, khen ngợi các công cụ trực quan và hỗ trợ phản hồi của chúng tôi, đồng tình với phản hồi từ Humanity Union. Một chủ blog gọi giọng nói của chúng tôi là "thực sự hấp dẫn" và bản dịch là "ấn tượng". Phản hồi tích cực của họ xác nhận giá trị của giải pháp chuyển văn bản thành giọng nói hỗ trợ AI của chúng tôi và thúc đẩy niềm đam mê của tôi đối với dự án. Việc hỗ trợ khách hàng trong quá trình ra mắt cũng đã khơi dậy những ý tưởng mới, đặc biệt là cho GSpeech Studio, được truyền cảm hứng từ các yêu cầu của người dùng về các tính năng chỉnh sửa âm thanh nâng cao và xuất. Trong tương lai, tôi có kế hoạch phát huy đà phát triển này bằng cách tích cực lắng nghe cộng đồng của chúng tôi, tích hợp phản hồi của họ và phát triển các tính năng sáng tạo để tăng cường khả năng truy cập và tương tác, đảm bảo GSpeech tiếp tục phát triển như một công cụ chuyển đổi cho những người sáng tạo và doanh nghiệp.
Cuối cùng, bạn có lời khuyên nào dành cho các nhà phát triển trẻ hoặc doanh nhân muốn xây dựng các công cụ hỗ trợ AI dễ tiếp cận trong bối cảnh công nghệ thay đổi nhanh chóng như hiện nay không?
Đối với các nhà phát triển và doanh nhân trẻ, lời khuyên của tôi là hãy dồn hết tâm huyết vào công việc và xác định một vấn đề thực tế mà bạn có thể đưa ra giải pháp thông minh, độc đáo. Bắt đầu từ những việc nhỏ, thực hiện những bước tiến vững chắc và lắng nghe kỹ phản hồi của khách hàng—chúng sẽ chỉ đường cho bạn. Đối xử với người dùng như những người bạn đáng tin cậy, cống hiến hết mình và kiên nhẫn. Hãy coi công nghệ AI như những đồng minh mạnh mẽ; khi được sử dụng một cách khôn ngoan, chúng sẽ khuếch đại khả năng tạo ra các công cụ có tác động và dễ tiếp cận của bạn. Hãy xây dựng bằng niềm đam mê, sự kiên trì và cam kết tạo ra sự khác biệt, bạn sẽ tạo ra những giải pháp thực sự quan trọng.
Cảm ơn bạn Antoine Tardif cho cuộc phỏng vấn. Bạn có thể đọc toàn bộ cuộc phỏng vấn tại đây: đoàn kết.ai.