음성으로 여는 AI 시대, 브이터치가 그리는 인터페이스의 미래

– 근접음성감지 기술로 구현한 혁신적 음성 인터페이스 ‘위즈퍼링’ 3월 출시

– “마우스처럼 세상을 바꿀 인터페이스를 꿈꾸다”

-위즈퍼링 출시 후 투자 유치 

 

“지금 우리는 챗GPT로 시작된 AI와의 대화 시대를 맞이하고 있습니다. 하지만 여전히 키보드로만 대화를 하고 있죠. 대화의 본질은 음성인데 말이예요.”

브이터치(Vtouch)의 김석중 대표는 현재 음성 인터페이스의 한계를 이렇게 지적했다. 챗GPT가 등장하며 AI와의 자연스러운 대화가 가능해졌지만, 입력 방식은 여전히 과거에 머물러 있다는 점을 지적했다.

브이터치는 10여 년 전부터 음성 인터페이스를 개발했었다. 당시 AI 스피커가 등장하면서 음성이 주요 인터페이스가 될 것이라고 생각했기 때문이다. 하지만 당시 AI의 성능이 실제 대화가 가능한 수준까지 도달하지 못해 상용화는 하지 못했다. 대신 관련 IP를 확보한 채 시기를 기다렸고 챗GPT의 등장으로 AI가 실제 대화가 가능한 수준까지 발전하자 브이터치는 음성 인터페이스 기술을 세상에 내놓게 되었다.

브이터치의 김석중 공동대표는 대학 재학 시절인 2002년 이커머스 기업을 창업해 10년간 운영했으며, 2012년에 브이터치를 설립했다. 공동창업자 김도현 대표는 동남아 최대 이커머스 기업 라자다(Lazada)의 대표를 지낸 경영 전문가다. 브이터치는 차세대 인터페이스 기술 개발에 주력하고 있으며, 특히 음성 인터페이스 분야에서 혁신을 선도하고 있다. 71건의 등록 특허와 55건의 출원 특허를 보유하고 있으며, CES에서 연속 혁신상을 수상하며 기술력을 인정받았다. 2024년에는 SK텔레콤과 하나은행이 운영하는 ‘AI 스타트업 액셀러레이터 2기’에 선정됐다. 브이터치는 음성 인터페이스 기술을 적용한 위즈퍼링(WIZPR RING)을 출시 한후 시리즈A 투자 유치를 계획하고 있다.

 

■ 음성 인터페이스 시대를 준비하다

브이터치 김석중 대표

컴퓨터와 인간의 상호작용 방식은 끊임없이 진화해왔다. 초기의 명령어 입력 방식에서 그래픽 사용자 인터페이스(GUI)로, 이어서 터치스크린으로 발전하며 각 시대의 컴퓨팅 환경을 정의해왔다. 이제 AI 시대를 맞아 음성이 새로운 표준 인터페이스로 주목받고 있다.

김 대표는 “데스크톱은 키보드와 마우스를 기반으로 완성된 컴퓨팅 환경을 만들었고, 모바일은 멀티터치 기술로 새로운 컴퓨팅 시대를 열었습니다. 하지만 AI와의 대화는 여전히 키보드라는 틀에 갇혀있는 상황입니다”라고 현재의 한계를 지적했다.

음성은 인간의 가장 자연스러운 소통 방식이다. 복잡한 맥락과 뉘앙스를 효과적으로 전달할 수 있고, 별도 학습 없이도 누구나 쉽게 사용할 수 있다. 특히 챗GPT로 대표되는 AI와의 대화형 상호작용이 늘어나면서, 텍스트 입력의 한계를 뛰어넘을 새로운 인터페이스로 음성이 주목받고 있다.

음성 인터페이스가 가져올 변화는 혁신적이다. 걷거나 운동하는 중에도 컴퓨터를 활용할 수 있고, 화면을 보지 않아도 되는 핸즈프리 방식으로 일상 속에서 자연스럽게 AI와 소통할 수 있다. 그러나 음성 인터페이스의 대중화에는 여러 기술적 장벽이 있었다. 주변 소음으로 인한 오작동, 프라이버시 침해 우려, 긴 응답 시간과 잦은 인식 오류, 공공장소에서의 사용 제약 등이 대표적인 문제점이었다.

브이터치는 이러한 문제를 물리학적 원리로 해결했다. 김 대표는 “음성은 거리의 제곱에 반비례해 에너지가 감소하는 특성이 있습니다. 이 물리적 원리를 활용해 근접 음성만을 인식하는 방식으로 기존 한계를 극복했습니다. GUI가 등장하고 20년이 지나서야 상용화됐듯이, 새로운 컴퓨팅 인터페이스가 대중화되기까지는 오랜 시간이 필요합니다. 우리는 음성이 자연스러운 인터페이스로 자리 잡는 시대를 준비해왔고, 이제 그 시기가 도래했다고 확신합니다”라고 밝혔다.

 

■ 위즈퍼링, AI 시대의 새로운 인터페이스를 제시하다

김석중 대표가 다음달에 출시할 위즈퍼링을 시현하고 있다.

음성 인터페이스 기술을 적용한 ‘위즈퍼링'(WIZPR RING)이 3월 출시를 앞두고 있다. 반지 형태의 웨어러블 디바이스로 개발된 위즈퍼링은 AI와의 자연스러운 대화를 실현하는 혁신적인 음성 인터페이스다.

스마트폰이 주머니에 있어도 음성만으로 메시지 전송, 음악 제어, 일정 관리가 가능하다. 걷기, 운동, 운전 등 기존에 컴퓨터 사용이 어려웠던 상황에서도 AI와 자유롭게 소통할 수 있다. 특히 위즈퍼링은 기존 음성 비서와 달리 실제 대화에 가까운 자연스러운 상호작용이 특징이다. 음성이 실시간으로 텍스트로 변환되어 표시되고, 고유명사나 복잡한 문장도 정확히 인식한다. 또한 번역, 일정 관리, 음악 재생 등 다양한 앱을 제어할 수 있어 활용도가 높다.

김 대표는 “걸어다니거나 운동하고 운전하는 중에도 AI와 대화할 수 있고, 기존에 컴퓨터를 사용하기 어려웠던 상황에서도 AI와 자유롭게 소통할 수 있습니다. 이것이 우리가 그리는 미래입니다. 위즈퍼링은 단순한 제품이 아닌 AI 시대의 새로운 인터페이스를 제시하는 솔루션입니다”라고 강조했다.

위즈퍼링은 북미 크라우드펀딩을 통해 이미 2억 원 규모의 선주문을 확보했으며, 3월부터 정식 판매를 시작한다.

 

■ 사용자가 의도한 음성만 정확히 인식하는 근접음성활동감지기술 적용

브이터치는 위즈퍼링에 근접음성활동감지기술(PVAD, Proximity Voice Activity Detection)을 적용했다. PVAD는 음성이 거리의 제곱에 반비례해 감소하는 물리적 특성을 활용한 기술이다. 예를 들어 5cm 거리의 음성은 50cm 거리보다 100배 강한 에너지를 가지는데, 이러한 원리를 활용해 근접 거리의 음성, 즉 사용자가 의도한 음성만을 선별적으로 인식한다.

PVAD 기술은 단순한 음성 인식을 넘어선 새로운 인터페이스를 제시한다. 기존의 푸시-투-토크(Push-to-Talk) 방식이 버튼을 누르고 말해야 했다면, PVAD는 근접 동작만으로 음성 인식이 가능한 클로즈-투-토크(Close-to-Talk) 방식을 구현했다. 이를 통해 실제 대화하듯 자연스러운 상호작용이 가능하다.

PVAD 기술의 핵심 강점은 정확한 음성 인식과 빠른 반응 속도다. 기존 음성 인식 기기들이 3-4초의 활성화 시간이 필요했던 반면, PVAD는 실시간으로 음성을 인식한다. PVAD의 또 다른 강점은 속삭이는 음성도 정확하게 인식할 수 있다는 점이다. 이를 통해 공공장소에서도 프라이버시를 지키며 AI와 자유롭게 소통할 수 있다. 또한 시끄러운 환경에서도 전화 통화하듯 가까이 대고 말하면 정확한 인식이 가능해, 실제 사용 환경에서의 활용도가 매우 높다.

 

■ “음성 인터페이스를 최초로 만든 기업으로 기억되고 싶다”

김 대표는 “마우스를 처음 만든 사람이 누구인지는 모르지만, 그 혁신이 가져온 변화는 모두가 알고 있습니다. 우리도 그런 변화를 만들고 싶습니다”라고 말했다. 이어 “위즈퍼링 기술을 우리 손으로 시장에 선보이고 성공적으로 사업화하는 것이 목표입니다. 사람들이 걸어다니면서도 자연스럽게 음성으로 소통하는 시대를 만들고 싶습니다”라고 포부를 밝혔다.

브이터치는 챗GPT로 대표되는 대화형 AI의 성장에 발맞춰, 키보드와 터치스크린을 넘어선 음성 기반의 차세대 인터페이스로 사업 영역을 확장할 계획이다. AI 시장이 급격히 변화하는 시점에서, 브이터치의 음성 인터페이스 혁신이 가져올 변화가 주목된다.

The future of interfaces drawn by Vtouch in the AI era that opens with voice

– Innovative voice interface ‘Whispering’ implemented with proximity voice detection technology to be released in March

– “Dreaming of an interface that will change the world like a mouse”

– Attracting investment after launching Whispering

“We are now entering an era of conversation with AI, which began with ChatGPT. However, we are still only conversing with the keyboard. The essence of conversation is voice.”

Kim Seok-joong, CEO of Vtouch, pointed out the limitations of current voice interfaces. He pointed out that although ChatGPT has made natural conversations with AI possible, the input method is still stuck in the past.

Vtouch has been developing voice interfaces for over 10 years. At the time, with the advent of AI speakers, it was thought that voice would become the main interface. However, at the time, the AI performance was not up to the level where actual conversations were possible, so commercialization was not possible. Instead, it waited for the right time while securing related IPs, and when ChatGPT appeared, AI developed to the level where actual conversations were possible, and Vtouch introduced its voice interface technology to the world.

Vtouch's co-CEO Seok-Joong Kim founded an e-commerce company in 2002 while still in college and ran it for 10 years before founding Vtouch in 2012. Co-founder Do-Hyeon Kim is a management expert who served as the CEO of Lazada, the largest e-commerce company in Southeast Asia. Vtouch focuses on the development of next-generation interface technology, and is leading innovation in the voice interface field in particular. It has 71 registered patents and 55 pending patents, and its technological prowess has been recognized by winning consecutive innovation awards at CES. In 2024, it was selected for the 'AI Startup Accelerator 2' operated by SK Telecom and Hana Bank. Vtouch plans to attract Series A investment after launching WIZPR RING, which applies voice interface technology.

■ Preparing for the era of voice interfaces

Vtouch CEO Seok-Joong Kim

The way computers and humans interact has constantly evolved. From the early command input method to the graphical user interface (GUI) and then to the touchscreen, it has defined the computing environment of each era. Now, in the AI era, voice is attracting attention as the new standard interface.

CEO Kim pointed out the current limitations, saying, “Desktops created a complete computing environment based on the keyboard and mouse, and mobile devices opened a new era of computing with multi-touch technology. However, conversations with AI are still confined to the framework of the keyboard.”

Voice is the most natural way for humans to communicate. It can effectively convey complex contexts and nuances, and anyone can use it easily without separate learning. In particular, as conversational interactions with AI, represented by ChatGPT, increase, voice is attracting attention as a new interface that can overcome the limitations of text input.

The changes brought about by voice interfaces are revolutionary. You can use your computer while walking or exercising, and you can communicate with AI naturally in your daily life in a hands-free manner without having to look at the screen. However, there were several technical barriers to popularizing voice interfaces. Representative problems included malfunctions due to ambient noise, concerns about privacy invasion, long response times and frequent recognition errors, and restrictions on use in public places.

VTouch solved this problem using physics principles. CEO Kim said, “Voice has the characteristic that its energy decreases inversely proportional to the square of the distance. By utilizing this physical principle, we overcame existing limitations by recognizing only nearby voices. Just as it took 20 years for GUIs to become commercialized, it takes a long time for new computing interfaces to become popular. We have been preparing for an era where voice becomes a natural interface, and we are confident that that time has now come.”

■ Whispering, Presenting a New Interface for the AI Era

CEO Kim Seok-joong demonstrates Whispering, which will be released next month.

'Wizpering' (WIZPR RING), which uses voice interface technology, is scheduled to be released in March. Developed as a ring-shaped wearable device, Wizpering is an innovative voice interface that enables natural conversations with AI.

Even if your smartphone is in your pocket, you can send messages, control music, and manage your schedule using only your voice. You can freely communicate with AI in situations where it was difficult to use a computer in the past, such as walking, exercising, and driving. In particular, Whispering is characterized by natural interaction close to actual conversation, unlike existing voice assistants. Voice is converted into text in real time and displayed, and proper nouns and complex sentences are accurately recognized. It can also control various apps such as translation, schedule management, and music playback, so it is highly useful.

CEO Kim emphasized, “You can talk to AI while walking, exercising, or driving, and you can freely communicate with AI even in situations where it was difficult to use a computer in the past. This is the future we envision. Whispering is not just a product, but a solution that presents a new interface for the AI era.”

Whispering has already secured 200 million won worth of pre-orders through North American crowdfunding, and will begin official sales in March.

■ Application of proximity voice activity detection technology that accurately recognizes only the voice intended by the user

VTouch applied Proximity Voice Activity Detection (PVAD) technology to Whispering. PVAD is a technology that utilizes the physical characteristic that voice decreases inversely proportional to the square of the distance. For example, a voice at a distance of 5 cm has 100 times stronger energy than a voice at a distance of 50 cm. By utilizing this principle, it selectively recognizes only voices at a close distance, that is, the voices intended by the user.

PVAD technology offers a new interface that goes beyond simple voice recognition. While the existing push-to-talk method required pressing a button and speaking, PVAD implemented a close-to-talk method that allows voice recognition with just a close-up gesture. This allows natural interaction as if having a real conversation.

The core strengths of PVAD technology are accurate voice recognition and fast response speed. While existing voice recognition devices required 3-4 seconds of activation time, PVAD recognizes voices in real time. Another strength of PVAD is that it can accurately recognize even whispered voices. This allows you to freely communicate with AI while maintaining privacy even in public places. In addition, accurate recognition is possible even in noisy environments when speaking close to the device as if on the phone, so it is highly useful in actual usage environments.

■ “I want to be remembered as the first company to create a voice interface.”

“We don’t know who first invented the mouse, but we all know the changes that innovation brought. We want to make those changes,” said CEO Kim. “Our goal is to bring Whispering technology to the market with our own hands and successfully commercialize it. We want to create an era where people can naturally communicate with their voices while walking.”

In line with the growth of conversational AI represented by ChatGPT, Vtouch plans to expand its business area to a next-generation voice-based interface that goes beyond keyboards and touchscreens. At a time when the AI market is rapidly changing, the changes brought about by Vtouch’s voice interface innovation are noteworthy.

音声で開くAI時代、Vタッチが描くインターフェースの未来

– 近接音声感知技術で実現した革新的な音声インターフェース「ウィズファリング」3月発売

– 「マウスのように世界を変えるインターフェースを夢見る」

– ウィズファーリング発売後の投資誘致

「今、私たちはチャットGPTで始まったAIとの会話の時代を迎えています。しかし、まだキーボードでのみ会話をしています。会話の本質は音声なのですが。」

Vtouchのキム・ソクジュン代表は現在、音声インターフェースの限界をこのように指摘した。チャットGPTが登場し、AIとの自然な対話が可能になったが、入力方式は依然として過去にとどまっていることを指摘した。

VTouchは10年以上前から音声インターフェースを開発しました。当時、AIスピーカーが登場し、音声が主要なインターフェースになると思ったからだ。しかし、当時AIの性能が実際の対話が可能なレベルまで到達できず、商用化はできなかった。代わりに関連IPを確保したまま時期を待ち、チャットGPTの登場でAIが実際の対話が可能なレベルまで発展すると、Vタッチは音声インターフェース技術を世の中に出すことになった。

V-タッチのキム・ソクジュン共同代表は大学在学時代の2002年イコマース企業を創業して10年間運営し、2012年にVタッチを設立した。共同創業者のキム・ドヒョン代表は東南アジア最大のイコマース企業ラザダ(Lazada)の代表を務めた経営専門家だ。 VTouchは次世代インターフェース技術の開発に注力しており、特に音声インターフェース分野で革新をリードしている。 71件の登録特許と55件の出願特許を保有しており、CESで連続イノベーション賞を受賞し、技術力を認められた。 2024年にはSKテレコムとハナ銀行が運営する「AIスタートアップアクセラレータ2期」に選ばれた。 Vタッチは、音声インターフェース技術を適用したWIZPR RINGを発売した後、シリーズA投資誘致を計画している。

■音声インターフェース時代を準備する

Vタッチキム・ソクジュン代表

コンピュータと人間の相互作用方式は絶えず進化してきた。初期の命令入力方式からグラフィカルユーザーインターフェース(GUI)へ、続いてタッチスクリーンに発展し、各時代のコンピューティング環境を定義してきた。今AI時代を迎え、音声が新しい標準インターフェースとして注目されている。

キム代表は「デスクトップはキーボードとマウスをベースに完成したコンピューティング環境を作り、モバイルはマルチタッチ技術で新しいコンピューティング時代を開いた。しかし、AIとの対話は依然としてキーボードという枠組みに閉じ込められている状況です」と現在の限界を指摘した。

音声は人間の最も自然なコミュニケーション方式です。複雑なコンテキストとニュアンスを効果的に伝えることができ、別途学習しなくても誰でも簡単に使用できる。特にチャットGPTに代表されるAIとのインタラクティブな相互作用が増え、テキスト入力の限界を超える新たなインターフェースとして音声が注目されている。

音声インターフェースがもたらす変化は革新的です。歩いたり運動したりしてもコンピュータを活用でき、画面を見なくてもよいハンズフリー方式で、日常の中で自然にAIとコミュニケーションできる。しかし、音声インターフェースの普及にはいくつかの技術的障壁がありました。周辺騒音による誤動作、プライバシー侵害の懸念、長い応答時間と頻繁な認識エラー、公共の場での使用制約などが代表的な問題点だった。

V-Touchはこれらの問題を物理的原理で解決しました。キム代表は「声は距離の二乗に反比例してエネルギーが減少する特性があります。この物理原理を活用し、近接音声のみを認識する方法で既存の限界を克服しました。 GUIが登場して20年が過ぎて商用化されたように、新しいコンピューティングインターフェースが普及するまでには長い時間が必要です。私たちは、音声が自然なインターフェースとして位置づけられる時代を準備してきたし、今、その時期が到来したと確信しています」と明らかにした。

■ウィズファーリング、AI時代の新しいインターフェースを提示する

キム・ソクジュン代表が来月に発売するウィズファーリングを示現している。

音声インターフェース技術を適用した「WIZPRING」(WIZPR RING)が3月発売を控えている。リング状のウェアラブルデバイスとして開発されたウィズファーリングは、AIとの自然な会話を実現する革新的な音声インターフェースだ。

スマートフォンがポケットにあっても音声だけでメッセージ転送、音楽制御、スケジュール管理が可能だ。歩き、運動、運転など、従来コンピュータの使用が難しかった状況でもAIと自由にコミュニケーションできる。特にウィズファーリングは、既存の音声秘書とは異なり、実際の会話に近い自然な相互作用が特徴だ。音声がリアルタイムでテキストに変換されて表示され、固有名詞や複雑な文章も正確に認識する。また、翻訳、スケジュール管理、音楽再生など様々なアプリを制御でき、活用度が高い。

キム代表は「歩き回ったり、運動して運転している間にもAIと会話することができ、既存のコンピュータを使用しにくかった状況でもAIと自由にコミュニケーションできます。これが私たちが描く未来です。ウィズファーリングは、単なる製品ではなく、AI時代の新しいインターフェースを提示するソリューションです」と強調した。

ウィズファーリングは北米クラウドファンディングを通じてすでに2億ウォン規模の予約注文を確保しており、3月から正式販売を開始する。

■ユーザーが意図した音声のみを正確に認識する近接音声活動検出技術の適用

Vタッチは、ウィズファリングに近接音声活動感知技術(PVAD、Proximity Voice Activity Detection)を適用した。 PVADは、音声が距離の2乗に反比例して減少する物理的特性を利用した技術です。例えば、5cmの距離の音声は50cmの距離より100倍強いエネルギーを有し、この原理を活用して近接距離の音声、すなわちユーザが意図した音声のみを選択的に認識する。

PVAD技術は、単純な音声認識を超えた新しいインターフェースを提示します。既存のプッシュツートーク方式がボタンを押して話す必要がある場合、PVADは近接動作だけで音声認識が可能なクローズトゥトーク方式を実装した。これにより実際に会話するように自然な相互作用が可能だ。

PVAD技術の重要な強みは、正確な音声認識と高速反応速度です。既存の音声認識機器は3〜4秒の起動時間を必要としましたが、PVADはリアルタイムで音声を認識します。 PVADのもう一つの強みは、ささやく声も正確に認識できることです。これにより、公共の場でもプライバシーを守り、AIと自由にコミュニケーションできる。また、騒々しい環境でも電話をかけるように近づけて言えば正確な認識が可能で、実際の使用環境での活用度が非常に高い。

■「音声インターフェースを最初に作った企業として記憶されたい」

キム代表は「マウスを初めて作った人が誰なのかは分からないが、その革新がもたらした変化は皆が知っています。私たちもそのような変化を作りたいと思います」と述べた。続いて「ウィズファーリング技術を私たちの手で市場に披露し、成功裏に事業化することが目標です。人々が歩き回っても自然に音声でコミュニケーションする時代を作りたいと思います」と抱負を明らかにした。

VタッチはチャットGPTに代表される対話型AIの成長に合わせて、キーボードとタッチスクリーンを越えた音声ベースの次世代インターフェースで事業領域を拡張する計画だ。 AI市場が急激に変化する時点で、Vタッチの音声インターフェースの革新がもたらす変化が注目されています。

语音开启的AI时代,Vtouch绘制的界面未来

– 采用近距离语音检测技术的创新语音界面“Whispering”将于 3 月发布

– “梦想有一个像鼠标一样改变世界的界面”

– 推出 Whispering 后吸引投资

“我们现在正进入与人工智能对话的时代,这个时代始于ChatGPT。但我们仍然只通过键盘进行交流。 “对话的本质是声音。”

Vtouch 首席执行官 Seok-Joong Kim 指出了当前语音界面的局限性。他指出,随着ChatGPT的出现,与AI进行自然对话已经成为可能,但输入法仍然停留在过去。

VTouch 已开发语音界面十余年。当时,随着AI音箱的出现,人们认为语音将成为主要界面。但当时AI的性能还没有达到可以进行实际对话的水平,因此还未能实现商业化。相反,他们在确保相关 IP 的同时等待合适的时机,随着 ChatGPT 的出现,AI 发展到可以进行实际对话的水平,VTouch 将其语音界面技术推向了世界。

Vtouch 联合首席执行官金锡中 (Seok-Joong Kim) 于 2002 年在大学期间创立了一家电子商务公司,并运营了 10 年,之后于 2012 年成立了 Vtouch。联合创始人兼CEO金道铉是一位管理专家,曾担任东南亚最大的电子商务公司Lazada的首席执行官。 VTouch 专注于开发下一代界面技术,尤其引领语音界面领域的创新。该公司拥有71项注册专利和55项正在申请的专利,其技术实力也因在CES上连续斩获创新大奖而得到认可。 2024年,被选为SK电讯和韩亚银行运营的‘AI初创企业加速器第二批’。 Vtouch 计划在推出使用语音界面技术的 WIZPR RING 后吸引 A 轮投资。

■ 为语音界面时代做好准备

Vtouch 首席执行官 Seok-Joong Kim

计算机与人类互动的方式在不断发展。它定义了每个时代的计算环境,从早期的命令行输入方法发展到图形用户界面(GUI),再到触摸屏。如今进入AI时代,语音作为新的标准界面越来越受到关注。

金墉表示:“台式机基于键盘和鼠标创建了完整的计算环境,而移动设备则通过多点触控技术开启了计算的新时代。但他指出了目前的局限性,称“与人工智能的对话仍然局限于键盘。”

声音是人类交流最自然的形式。它可以有效地传达复杂的背景和细微差别,任何人都可以轻松使用它,而无需单独学习。特别是随着以ChatGPT为代表的与AI的对话交互不断增多,语音作为可以克服文本输入限制的新界面正备受关注。

语音界面将带来革命性的变化。您可以在散步或运动时使用电脑,无需看屏幕,也可以在日常生活中以免提的方式自然地与AI交流。然而,语音界面的普及也存在一些技术障碍。典型问题包括因环境噪音导致的故障、隐私问题、响应时间长、频繁的识别错误以及在公共场所使用的限制。

VTouch 利用物理原理解决了这个问题。金代表表示,“声音具有能量损失与距离的平方成反比的特性。通过利用这一物理原理,我们克服了仅能识别附近声音的现有限制。正如 GUI 花了 20 年时间才实现商业化一样,新的计算界面也需要很长时间才能流行起来。他说:“我们一直在为语音成为自然界面的时代做准备,我们相信这个时代已经到来。”

■ 悄悄话,呈现AI时代新界面

金锡中代表演示了将于下个月发布的“Whispering”。

采用语音界面技术的“WIZPR RING”预计将于3月发售。 Whispering 是一款环形可穿戴设备,是一种创新的语音界面,可以与人工智能进行自然对话。

即使您的智能手机在口袋里,您也可以仅使用语音发送消息、控制音乐和管理日程安排。即使在散步、锻炼、开车等以前难以使用计算机的场合,你也可以自由地与AI交流。具体来说,与现有的语音助手不同,Whispering 的特点是交互自然,接近实际对话。语音实时转化为文字显示,甚至专有名词、复杂句子都能准确识别。它还非常有用,因为它可以控制各种应用程序,如翻译、日程管理和音乐播放。

金墉首席执行官表示:“您可以在散步、锻炼或开车时与人工智能对话,即使在以前难以使用计算机的情况下,您也可以自由地与人工智能交流。”这就是我们所设想的未来。 “Whispering不仅仅是一个简单的产品,而是一个为AI时代呈现新界面的解决方案。”他强调。

《Whispering》目前已通过北美众筹获得价值2亿韩元的预购,并将于3月开始正式发售。

■ 应用接近语音活动检测技术,可准确识别用户想要发出的语音

VTouch 将近距离语音活动检测 (PVAD) 技术应用于 Whispering。 PVAD 是一种利用声音与距离的平方成反比的物理特性的技术。例如,距离 5cm 处的声音的能量比距离 50cm 处的声音的能量高 100 倍。利用此原理,可以选择性地识别近距离的声音,即用户想要听到的声音。

PVAD 技术提供了一种超越简单语音识别的新界面。现有的即按即说方法需要按下按钮然后说话,而 PVAD 实施了一种近距离通话方法,只需近距离手势即可实现语音识别。这使得互动变得自然,就像进行真实的对话一样。

PVAD技术的核心优势是语音识别准确、响应速度快。现有的语音识别设备需要3-4秒的激活时间,而PVAD可以实时识别语音。 PVAD 的另一个优势是它甚至可以准确识别耳语。这使得您可以自由地与 AI 交流,同时即使在公共场所也能保护您的隐私。此外,即使在嘈杂的环境中,只要靠近设备讲话,就像打电话一样,就可以实现准确识别,因此在实际使用环境中非常有用。

■ “我希望人们记住我是第一家创建语音界面的公司。”

“我们不知道谁最先发明了鼠标,但我们都知道创新带来的变化,”金说。 “我们也想做出这样的改变,”他说。他继续说道,“我们的目标是亲手将Whispering技术推向市场,并成功实现商业化。他表达了自己的愿望:“我想创造一个人们可以在走路时用声音自然交流的时代。”

随着以 ChatGPT 为代表的对话式人工智能的发展,VTouch 计划将其业务领域扩展到超越键盘和触摸屏的下一代语音界面。在AI市场快速变化的当下,VTouch语音界面创新带来的变化值得关注。

L'avenir des interfaces dessiné par Vtouch à l'ère de l'IA qui s'ouvre avec la voix

– L’interface vocale innovante « Whispering » implémentée avec une technologie de détection vocale de proximité sera lancée en mars

– « Rêver d’une interface qui changera le monde comme une souris »

– Attirer les investissements après le lancement de Whispering

« Nous entrons maintenant dans une ère de conversation avec l’IA, qui a commencé avec ChatGPT. Mais nous communiquons toujours uniquement via le clavier. « L’essence de la conversation est la voix. »

Seok-Joong Kim, PDG de Vtouch, a souligné les limites des interfaces vocales actuelles. Avec l'avènement de ChatGPT, les conversations naturelles avec l'IA sont devenues possibles, mais la méthode de saisie reste bloquée dans le passé, a-t-il souligné.

VTouch développe des interfaces vocales depuis plus de 10 ans. À l’époque, avec l’avènement des enceintes IA, on pensait que la voix deviendrait l’interface principale. Cependant, à l’époque, les performances de l’IA n’avaient pas atteint un niveau où une véritable conversation était possible, elle n’a donc pas été commercialisée. Au lieu de cela, ils ont attendu le bon moment pour sécuriser l’IP pertinente, et avec l’avènement de ChatGPT, l’IA s’est développée au niveau où une conversation réelle était possible, et VTouch a présenté sa technologie d’interface vocale au monde.

Le co-PDG de Vtouch, Seok-Joong Kim, a fondé une société de commerce électronique en 2002 alors qu'il était encore à l'université et l'a dirigée pendant 10 ans avant de créer Vtouch en 2012. Le cofondateur et PDG Kim Do-hyun est un expert en gestion qui a été PDG de Lazada, la plus grande société de commerce électronique d'Asie du Sud-Est. VTouch se concentre sur le développement de technologies d'interface de nouvelle génération et est à la pointe de l'innovation dans le domaine des interfaces vocales en particulier. Elle détient 71 brevets enregistrés et 55 brevets en instance, et ses prouesses technologiques ont été reconnues en remportant des prix d'innovation consécutifs au CES. En 2024, il a été sélectionné pour le « AI Startup Accelerator 2nd Batch » exploité par SK Telecom et Hana Bank. Vtouch prévoit d'attirer des investissements de série A après le lancement de WIZPR RING, qui utilise la technologie d'interface vocale.

■ Se préparer à l’ère des interfaces vocales

Seok-Joong Kim, PDG de Vtouch

La manière dont les ordinateurs et les humains interagissent est en constante évolution. Il a défini l’environnement informatique de chaque époque, évoluant des premières méthodes de saisie en ligne de commande à l’interface utilisateur graphique (GUI), puis à l’écran tactile. Aujourd’hui, à l’ère de l’IA, la voix gagne en importance en tant que nouvelle interface standard.

Le PDG Kim a déclaré : « Les ordinateurs de bureau ont créé un environnement informatique complet basé sur le clavier et la souris, et les appareils mobiles ont ouvert une nouvelle ère de l'informatique avec la technologie multi-touch. Il a toutefois souligné les limites actuelles : « Les conversations avec l’IA se limitent encore au clavier. »

La voix est la forme la plus naturelle de communication humaine. Il peut transmettre efficacement un contexte et des nuances complexes, et tout le monde peut l'utiliser facilement sans apprentissage séparé. En particulier, à mesure que les interactions conversationnelles avec l’IA, représentées par ChatGPT, augmentent, la voix attire l’attention en tant que nouvelle interface capable de surmonter les limites de la saisie de texte.

Les changements qu’apporteront les interfaces vocales sont révolutionnaires. Vous pouvez utiliser votre ordinateur tout en marchant ou en faisant de l'exercice, et vous pouvez communiquer avec l'IA naturellement dans votre vie quotidienne en mains libres sans avoir à regarder l'écran. Cependant, plusieurs obstacles techniques s’opposaient à la popularisation des interfaces vocales. Les problèmes typiques comprenaient des dysfonctionnements dus au bruit ambiant, des problèmes de confidentialité, des temps de réponse longs, des erreurs de reconnaissance fréquentes et des restrictions d’utilisation dans les lieux publics.

VTouch a résolu ce problème en utilisant des principes de physique. Le représentant Kim a déclaré : « La voix a la caractéristique de perdre de l’énergie inversement proportionnellement au carré de la distance. En exploitant ce principe physique, nous avons surmonté les limitations existantes en reconnaissant uniquement les voix proches. Tout comme il a fallu 20 ans pour que l’interface graphique utilisateur devienne commercialement viable, il faut beaucoup de temps pour qu’une nouvelle interface informatique devienne populaire. « Nous nous préparons à une ère où la voix deviendra l’interface naturelle, et nous sommes convaincus que ce moment est désormais arrivé », a-t-il déclaré.

■ Whispering, Présentation d'une nouvelle interface pour l'ère de l'IA

Le PDG Kim Seok-joong présente Whispering, qui sortira le mois prochain.

« WIZPR RING », qui utilise la technologie d'interface vocale, devrait être lancé en mars. Développé comme un appareil portable en forme d'anneau, Whispering est une interface vocale innovante qui permet des conversations naturelles avec l'IA.

Même si votre smartphone est dans votre poche, vous pouvez envoyer des messages, contrôler la musique et gérer votre emploi du temps en utilisant simplement votre voix. Vous pouvez communiquer librement avec l’IA même dans des situations où il était auparavant difficile d’utiliser un ordinateur, comme la marche, l’exercice et la conduite. En particulier, le Whispering se caractérise par une interaction naturelle proche d’une véritable conversation, contrairement aux assistants vocaux existants. La voix est convertie en texte en temps réel et affichée, et même les noms propres et les phrases complexes sont reconnus avec précision. Il est également très utile car il peut contrôler diverses applications telles que la traduction, la gestion des horaires et la lecture de musique.

« Vous pouvez parler à l'IA pendant que vous marchez, faites de l'exercice ou conduisez, et vous pouvez communiquer librement avec l'IA même dans des situations où il était auparavant difficile d'utiliser un ordinateur », a déclaré le PDG Kim. C’est l’avenir que nous envisageons. « Whispering n’est pas seulement un simple produit, mais une solution qui présente une nouvelle interface pour l’ère de l’IA », a-t-il souligné.

Whispering a déjà obtenu 200 millions de wons de précommandes grâce au financement participatif nord-américain et commencera ses ventes officielles en mars.

■ Application d'une technologie de détection d'activité vocale de proximité qui reconnaît avec précision uniquement la voix voulue par l'utilisateur

VTouch a appliqué la technologie de détection d'activité vocale de proximité (PVAD) au chuchotement. Le PVAD est une technologie qui utilise la caractéristique physique selon laquelle le son diminue inversement proportionnellement au carré de la distance. Par exemple, une voix à une distance de 5 cm a une énergie 100 fois plus forte qu'une voix à une distance de 50 cm. En utilisant ce principe, seules les voix proches, c'est-à-dire la voix voulue par l'utilisateur, sont reconnues de manière sélective.

La technologie PVAD offre une nouvelle interface qui va au-delà de la simple reconnaissance vocale. Alors que la méthode push-to-talk existante nécessitait d'appuyer sur un bouton et de parler, PVAD a mis en œuvre une méthode close-to-talk qui permet la reconnaissance vocale avec un simple geste de près. Cela permet une interaction naturelle comme si vous aviez une vraie conversation.

Les principaux atouts de la technologie PVAD sont une reconnaissance vocale précise et une vitesse de réponse rapide. Alors que les dispositifs de reconnaissance vocale existants nécessitaient 3 à 4 secondes de temps d’activation, le PVAD reconnaît la voix en temps réel. Un autre point fort du PVAD est qu’il peut reconnaître avec précision même la parole chuchotée. Cela vous permet de communiquer librement avec l'IA tout en préservant votre confidentialité même dans les lieux publics. De plus, il est possible d'obtenir une reconnaissance précise même dans des environnements bruyants en parlant à proximité de l'appareil comme lors d'un appel téléphonique, ce qui est très utile dans les environnements d'utilisation réels.

■ « Je veux qu’on se souvienne de moi comme de la première entreprise à avoir créé une interface vocale. »

« Nous ne savons pas qui a inventé la souris, mais nous connaissons tous le changement apporté par l’innovation », a déclaré Kim. « Nous voulons également apporter ce changement », a-t-il déclaré. Il a poursuivi : « Notre objectif est d'introduire la technologie Whispering sur le marché de nos propres mains et de la commercialiser avec succès. « Je veux créer une ère où les gens pourront communiquer naturellement en utilisant leur voix tout en marchant », a-t-il déclaré, exprimant son ambition.

Conformément à la croissance de l’IA conversationnelle représentée par ChatGPT, Vtouch prévoit d’étendre son domaine d’activité à une interface vocale de nouvelle génération qui va au-delà des claviers et des écrans tactiles. À l’heure où le marché de l’IA évolue rapidement, les changements apportés par l’innovation de l’interface vocale de VTouch sont notables.

%d bloggers like this: