VALL-E - כלי AI יכול לדמות קול של כל אחד לאחר 3 שניות דגימת אודיו ואנחנו בדרך למיותרות

VALL-E, שנוצר על ידי מיקרוסופט, יכול להקליט שלוש שניות nקול של מישהו. מכאן, ובהתאם להקשר של הטקסט שמזינים אותו, הוא ממיר מילים כתובות לקול עם אינטונציה ורגש אמיתיים בקולו של מי שנדגם.
הכלי אף יכול לשאת נאום שלם לאחר שאומן באמצעות 60,000 שעות של הקלטות דיבור באנגלית.

מגוון שימושים אדיר קופץ מיד בדימיוננו, מהקראה של טקסט אותו כתבת, דרך הלבשת הטקסט שלך על כל דמות אחרת בקולך (כמו לדוגמה על קרינית חדשות ידועה), ועד דגימת קול מאנשים או יקירך שכבר אינם איתנו וברצונך לשמוע אותם שוב ושוב.

ראוי לציין, בהקשר לאפשרות האחרונה שהוזכרה, כי ישנם כלים יקרים יותר שחלקם כבר בשלבי גימור, המאפשרים לך גם לשוחח עם יקירך שהלכו לעולמם, כולל צ׳אט ווידאו עימם - כל זאת באמצעות בינה מלאכותית המסוגלת לדגום תמונה ולהפוך אותך לווידאו, בנוסף לדגימת קול המשמשת להקראת הדיבור.

בהשוואה למתחרים אחרים של טקסט לדיבור (TTS), מיקרוסופט אומרת ש-VALL-E ״מתעלה באופן משמעותי על מערכת ה-TTS במונחים של טבעיות הדיבור ודמיון הדוברים״. במילים אחרות, VALL-E נשמע הרבה יותר כמו בני אדם אמיתיים מאשר בינה מלאכותית מתחרה שנתקלת במקורות אודיו שהיא לא אומנה עליהם.

ב-GitHub, מיקרוסופט יצרה ספרייה קטנה של דוגמאות שנוצרו באמצעות VALL-E. התוצאות ברובן מרשימות מאוד, עם דגימות רבות שמשחזרות את התחושה והמבטא של קולות הדוברים. חלק מהדוגמאות פחות משכנעות, מה שמציין ש-VALL-E הוא כנראה לא מוצר מוגמר, אבל בסך הכל הפלט משכנע.

האם זה מסוכן

במאמר המציג את VALL-E, מיקרוסופט מסבירה ש-VALL-E ״עלול לשאת סיכונים פוטנציאליים בשימוש לרעה במודל, כגון זיוף זיהוי קולי או התחזות לדובר ספציפי״. כלי כל כך חזק יכול ליצור דיבור מציאותי ומעלה חששות של זיופים משכנעים יותר ויותר, כאלה היכולים לשמש כדי לחקות כל שיח, מאהוב רומנטי ועד אישיות בינלאומית בולטת.

כדי להפחית את האיום הזה, מיקרוסופט אומרת ״שאפשר לבנות מודל זיהוי כדי להבחין אם קטע אודיו סונתז על ידי VALL-E.״ החברה אומרת שהיא גם תשתמש בעקרונות הבינה המלאכותית שלה בעת פיתוח עבודתה. עקרונות אלה מכסים תחומים כמו הוגנות, בטיחות, פרטיות ואחריות.

מיקרוסופט ביצעה השקעה משמעותית בבינה מלאכותית והיא אף מהתומכים הראשיים ב-OpenAI, החברה מאחורי ChatGPT ו-DALL-E, כלי טקסט לתמונה או אמנות. הכל כל כך מדוברים כיום.

מפעל התוכנה השקיע מיליארד דולר (930 מיליון אירו) ב-OpenAI ב-2019, ודוח שפורסם השבוע באתר semafor.com הצביע על כך שהיא שוקלת השקעה נוספת של 10 מיליארד דולר (9.3 מיליארד אירו) בחברה.

ניתן כעת כבר לבחון את הדוגמאות באתר הפרויקט - כאן