הוכרז AudioGPT - הבנה ויצירת דיבור, מוזיקה, סאונד וראשים מדברים
Sunday, 30-04-23, 15:02, ACT ::: ::: נושא: AI בינה מלאכותית @ 213593
AudioGPT עושה לאודיו את מה ש-ChatGPT עשה למילים... ושינה את העולם.
הוכרז AudioGPT, המצטיין בפתרון משימות בינה מלאכותית עם דיבור, מוזיקה, צליל והבנה והפקת ראש מדבר בדיאלוגים מתמשכים.
מודלי שפה הראו יכולות יוצאות דופן בתחומים רבים, אך עד כה הם נאבקו בעיבוד מידע אודיו, והגבילו את השימושיות שלן ביישומים מסוימים. AudioGPT היא מערכת רב-מודאלית המשלבת LLMs (קיצור של Large language models) עם מודלים בסיסיים שנועדו לעבד מידע שמע מורכב ולפתור מגוון משימות הבנה והפקה.
בין השאר זה כולל גם ממשקי קלט/פלט כמו זיהוי דיבור אוטומטי (ASR) וטכנולוגיית טקסט לדיבור (TTS) לתמיכה בדיאלוג מדובר. המטרה של AudioGPT היא לאפשר לבני אדם ליצור תוכן אודיו עשיר ומגוון בקלות ובו זמנית גם לנתח ולהבין טקסטים וקולות בידי מכונה.
AudioGPT, שנבדקה בהרחבה עבור עקביות, יכולת וחוסן, הוכיחה את היכולת לפתור מגוון משימות בינה מלאכותית הקשורות לדיבור, מוזיקה, צליל והבנה ויצירת ראש-מדבר בדיאלוגים מרובי שיח (כמו הענקת דיבור, בכל שפה או שירה, לכל דמות קיימת או דימיונית ואפילו רובוטים או שיחות טלפון).
בין השאר זה כולל גם ממשקי קלט/פלט כמו זיהוי דיבור אוטומטי (ASR) וטכנולוגיית טקסט לדיבור (TTS) לתמיכה בדיאלוג מדובר. המטרה של AudioGPT היא לאפשר לבני אדם ליצור תוכן אודיו עשיר ומגוון בקלות ובו זמנית גם לנתח ולהבין טקסטים וקולות בידי מכונה.
AudioGPT, שנבדקה בהרחבה עבור עקביות, יכולת וחוסן, הוכיחה את היכולת לפתור מגוון משימות בינה מלאכותית הקשורות לדיבור, מוזיקה, צליל והבנה ויצירת ראש-מדבר בדיאלוגים מרובי שיח (כמו הענקת דיבור, בכל שפה או שירה, לכל דמות קיימת או דימיונית ואפילו רובוטים או שיחות טלפון).

- צור דיבור עם הטקסט 'הנה אנחנו הולכים'
- תמלל את הנאום הזה
- העבר את הנאום ממצב מונו לדיבור בינאורלי (מרחבי)
- צור אודיו של כלב נובח
- צור אודיו של התמונה שהועלתה (כאן אפשר להעניק לתמונה אודיו בקונטקסט שלה)
- תן לי את התיאור של מה כלול באודיו המצורף
- אני רוצה לצייר את האודיו הזה
- אילו אירועים כולל האודיו שלהלן?
- מתי מתרחש הרעם באודיו הזה?
- חלץ את אירוע הפיצוץ מאודיו זה
- צור דמות מדברת בהתאם לטקסט הנתון
- הפוך את הדיבור בהקלטה הזו לקול של מישהו אחר לפי הדוגמה שהעלתי
- צור מנגינה עם התווים האלה, בתזמון כזה, ועם המילים האלה
- העשר את איכות האודיו בשמע הזה
- תמלל את הישיבה מרובת המשתתפים הזו, כך שכל משתתף יזוהה בנפרד
בטבלה נמצא את האפשרויות השונות, מה שמענין אתכם זה סוג הקלט/פלט והאתגר.

נקודות חשובות מהסרטון המצורף מטה כוללות:
- האתגרים הקשורים לעיבוד מידע אודיו באמצעות LLMs
- המערכת הרב-מודאלית ש-AudioGPT מעסיקה
- ממשקי הקלט/פלט שהופכים את AudioGPT לפתרון מלא לדיאלוג מדובר
- משימות ה-AI השונות ש-AudioGPT יכולה לפתור, והפוטנציאל ליצירת תוכן שמע עשיר ומגוון.
הכותב: ראובן מנשרוף, מייסד ועורך אקט מוסיקלי ומומחה אודיו בעל 45 שנות ניסיון.