Хто піша: прадстаўнік праекту ADAMby.ai. Дарэчы, ADAM шукае валанцёраў, якія дапамогуць праекту. Падрабязнасці — ніжэй.
«Моўнае пытанне для мяне стаіць востра»
Наш праект мае два асноўныя вытокі:
Па-першае, у нашай сям'і мы шмат гадоў размаўляем па-беларуску, і моўнае пытанне для мяне стаіць востра. Я лічу мову адной з асноваў, на якой будуецца і захоўваецца нацыя.
Па-другое, я карыстаюся разумнымі калонкамі з моманту іх з’яўлення ў сярэдзіне 2010-х і добра ведаю механіку гэтых прылад.
Улічваючы, што Apple, Amazon і Google пакуль не падтрымліваюць беларускую мову ў сваіх калонках і наўрад ці калі-небудзь гэта зробяць, а таксама зважаючы на тэмпы развіцця штучнага інтэлекту, цяпер найлепшы час распачаць працу над стварэннем такога дэвайса для беларусаў. У перспектыве калонка можа працаваць і для іншых моў з невялікай колькасцю носьбітаў.
У 2023 годзе выявілася, што Whisper — мадэль распазнавання маўлення ад OpenAI — нечакана ўключыла падтрымку беларускай мовы разам з іншымі 56 мовамі з 96, на якіх трэніравалі адну з лепшых моўных мадэляў у свеце. З гэтага і пачалася праца над праектам.
На прататып сыйшло некалькі месяцаў
За некалькі месяцаў адзін чалавек стварыў простае прыкладанне — галасавы асістэнт, з якім можна было камунікаваць па-беларуску. Ён разумеў і адказваў на мове, што ўжо выглядала фантастычна.
Архітэктурна прыкладанне было даволі простым: голас карыстальніка запісваўся праз мікрафон камп’ютара, сціскаўся ў mp3 і адпраўляўся ў OpenAI для канвертацыі ў тэкст. Потым тэкст перадаваўся ў ChatGPT, а згенераваны адказ зноў адпраўляўся ў OpenAI для сінтэзу маўлення. Гэта быў трохэтапны працэсінг, пасля якога голас выводзіўся на дынамік камп’ютара.
Гэта была першая версія прататыпа беларускага галасавога асістэнта, які працаваў на камп’ютары распрацоўшчыка. Самае цікавае і складанае — рэалізацыя механікі натуральнай размовы — было наперадзе.
Адна з найбольш складаных задач — зрабіць, каб дыялог актываваўся голасам і каб камунікацыя была максімальна падобная да размовы з жывым чалавекам або калонкай ад канкурэнтаў.
Калонка павінна ўвесь час слухаць асяроддзе і рэагаваць на пэўнае слова-актыватар, як, напрыклад, «Ok Google» або «Hey Siri» (гэта называецца Wake Word Detection — WWD). Механізм павінен працаваць на самім дэвайсе, а не ў клаўдзе, каб рэагаваць імгненна. Напісаць уласную сістэму распазнавання слова-актыватара вельмі складана і патрабуе спецыфічных ведаў у машынным навучанні і лінгвістыцы. Таму мы перабралі ўсе існуючыя бясплатныя рашэнні і ў выніку спыніліся на старой версіі лепшай тэхналогіі, якая ў апошніх версіях стала платнай. На выбар і ўбудаванне тэхналогіі ў нас пайшло каля месяца.
Пасля таго, як прыкладанне навучылася рэагаваць на слова-актыватар, трэба было вызначаць, калі карыстальнік скончыў гаварыць, каб можна было апрацоўваць запыт. Гэта функцыя Voice Activity Detection, якая адрознівае маўленне ад фонавых шумоў. Як і ў выпадку з WWD, мы некалькі тыдняў спрабавалі існуючыя бясплатныя рашэнні і ўрэшце знайшлі тое, што працавала дастаткова добра.
Важна адзначыць, што калонка хоць і слухае ўвесь час, што адбываецца вакол яе, але яна нічога з гэтага нікуды не захоўвае і не перадае. У клаўд ляцяць толькі дадзеныя непасрэднай камунікацыі карыстальніка з дэвайсам. Дакладна так працуюць і ўсе калонкі ад вялікіх брэндаў.
Першую версію калонкі надрукавалі на 3D-прынтары
Калі прыкладанне было гатова, трэба было пераўтварыць яго ў фізічны дэвайс — аналаг Yandex Станцыі або Amazon Echo. Канкурэнты не дазваляюць усталёўваць на свае прылады чужы софт, таму мы вырашылі сабраць дэвайс самастойна.
Перадусім трэба было знайсці «жалеза», на якое можна ўсталяваць свой софт і стварыць корпус. Аднак знайсці прывабны корпус аказалася не так проста. Мы разгледзелі два варыянты:
- Набыць гатовую кітайскую калонку і ўбудаваць у яе сваё «жалеза».
- Распрацаваць корпус і надрукаваць яго на 3D-прынтэры.
Перамовы з кітайскімі вытворцамі да выніку не прывялі. І мы абралі другі варыянт. Разабралі некалькі дэвайсаў ад Google і Amazon, падгледзелі тэхнічныя рашэнні і пры дапамозе таленавітага інжынера за пару тыдняў распрацавалі першую версію прататыпа корпуса, якую надрукавалі на 3D-прынтары.
Такі дэвайс ужо можна было і ў заплечнік спакойна пакласці, і людзям не сорамна паказаць. Але дэвайс выглядаў не так прывабна, як аналагі. Нашай мэтай было зрабіць прыладу, якая выглядае не горш за канкурэнтаў.
Сабекошт апошняй версіі дэвайса, старанна сабранага рукамі беларусаў, складае каля 100€, што для адзінкавай вытворчасці не так і шмат. Калі справа дойдзе да тысяч адзінак, то кітайскі аўтсорс зможа паменьшыць гэтую суму ў некалькі разоў.
На руках ужо быў рабочы прататып калонкі з убудаваным ChatGPT, і мы паўдзельнічалі ў невялічках школе-конкурсе стартапаў, дзе ўзялі прызавое месца і атрымалі грант. Навучанне і фінансавая падтрымка далі нам матывацыю і рэсурсы для распрацоўкі стратэгіі выхаду на рынак.
Падчас навучання ў школе мы правялі некалькі даследванняў, з якіх стала ясна: карыстальнік ёсць, крочым далей.
- Людзі хочуць больш спажываць беларускамоўны кантэнт, але не ведаюць, дзе яго знайсці.
- Яны жадаюць больш беларускай мовы ў сваім асяроддзі.
- Ёсць гатоўнасць плаціць за беларускамоўную разумную калонку і падпіску на яе сэрвісы.
Вось некалькі цытатаў карыстальнікаў пра наш прадукт:
«Дзяцей цікавіць, што модна і ёсць у іншых. І Алісе альтэрнатыва будзе».
«Супер-штука для дзяцей, хачу, каб камунікавалі з дэвайсам па-беларуску і слухалі беларускі кантэнт».
«Дзякуй за файную ідэю. Спадзяюся, што яна будзе рэалізаваная».
У межах гранту мы распрацавалі план-стратэгію на бліжэйшы год, а таксама зрабілі якасны інжэнерны праект копусу, з якім пойдзем у бэта-тэст і першы рэліз.
На фота можаце бачыць ітэрацыі распрацоўкі корпусу. Напрыклад, абцяжку тканінай мы пачалі тэсціць на звычайнай ПЭТ-трубе з будаўнічага гіпермаркету.
Пасля гэтага былі яшчэ Acoustic Gain Control, Acoustic Echo Cancellation ды Active Noise Cancellation, праца з паўзамі, візуалізацыя адказаў праз LED, захаванне кантэксту размовы, але гэта ўжо не так цікава.
Што ўжо ўмее калонка?
Дэвайс можа адказваць на любыя пытанні дзякуючы ChatGPT, прайграваць беларускія калыханкі, паведамляць пра надвор’е, ставіць таймер, іграць музыку з вашага Spotify. У бліжэйшы час плануем інтэграцыю з сэрвісам дзіцячых аўдыёкніг «Кніжны Воз». Гэтыя функцыі былі створаны як proof of concept і складаюць толькі невялікую частку ад таго, што калонка зможа рабіць у будучыні, напрыклад:
- Запамінаць факты пра вас і вашыя інтарэсы (тыя, якія вы самі папросіце запомніць), каб персаналізавана падбіраць для вас кантэнт;
- Праігрываць любы дасяжны аўдыя-кантэнт: радыё, аўдыякнігі, падкасты;
- Расказваць пра апошнія навіны і будучыя падзеі ў вашай лакацыі;
- Праактыўна расказваць пра новы кантэнт, падзеі, кнігі і г. д.;
- Прапанаваць цікавосткі для дзяцей: казкі, песні, гульні і г. д.;
- Кіраваць разумным домам;
- Дапамагаць у вывучэнні беларускай мовы ці любой іншай;
- Калі з’явіцца AGI (Artificial General Intelligence), дэвайс стане сапраўдным the smartest guy (girl) in the room. Зараз складана нават уявіць, якія мажлівасці адкрыюцца для карыстальніка;
Калонка і для дзяцей
Асобны важны накірунак праекту — дзеці. Як мы зразумелі з апытанак карыстальнікаў, сем’і хацелі б больш беларускай мовы ды кантэнту для сваіх дзетак. І мы лічым гэта адной з найважнейшых функцый дэвайса — закладваць аснову нацыянальнай ідэнтычнасці з ранняга дзяцінства.
Каб дзеткі чулі матчыну мову не толькі ад бацькоў, мелі мажліваць камунікаваць на ёй не толькі з імі, атрымлівалі разнастайную інфармацыю пра нас і нашую культуру, дзе б яны не жылі.
Даўгатэрміновы віжн для дэвайса — гэта персаналізаваны асістэнт, які ведае пра вашыя інтарэсы, аб’ядноўвае ўсё беларускае, расказвае пра новае ў беларускім свеце і не толькі, дапамагае знайсці новы кантэнт і заставацца ў агульным кантэксце з беларусамі па ўсім свеце.
Што далей?
На працягу наступных 2-3 месяцаў мы будзем фарміраваць каманду і прадумваць скоўп для рэлізу MVP. Як наладзім працэсы, то плануем за некалькі месяцаў стварыць якасны MVP і правесці закрытае бэта-тэставанне з 20-60 юзераў.
Затым збярэм неабходную аналітыку і адладзім сістэму, і потым пяройдзем да адкрытага бэта-тэставання праз краўдфандынг, дзе збяром некалькі сотняў дэвайсаў. У перспектыве — краўдфандынгавыя кампаніі ды іншыя схемы вытворчасці і распаўсюджвання. Але гэта ўжо наступная ліга, да якой яшчэ мусім дарасці.
Калі гаварыць пра манетызацыю, то мы робім праект найперш для беларусаў, каб падтрымаць нацыянальную культуру. То бок, value first, money second. Мы разумеем, што ўжо проста вывесці праект на самаакупнасць — гэта будзе поспех. Але нас гэта не спыняе, бо мы бачым надта шмат добрых сігналаў з розных бакоў адносна нашай ідэі, і гэта вельмі матывуе.
Адзначу, што ў бліжэйшай будучыні дэвайс будзе мець платную падпіску, бо пад капотам працуюць сервісы ад OpenAI (ChatGPT, галасавыя мадэлі), які пакуль яшчэ бясплатна людзям не аддалі 🙂. Ёсць верагоднасць, што мы перойдзем на ўласныя ШІ-мадэлі распазнавання/сінтэзу маўлення, што таксама будзе небясплатна, бо іх хостынг каштуе немалых грошаў (ад некалькіх сотняў да тысяч на месяц). Будзем імкнуцца разгарнуць ўсю інфраструктуру ў межах аднаго ці некалькіх кубкаў кавы з чалавека на месяц.
Запрашаем далучыцца да праекта
Зараз для работы над праектам мы збіраем невялікую паўнавартасную валанцёрскую кампанію-стартап:
- PR і маркетынг
- Інжынеры (праграмаванне, QA, машыннае навучанне)
- Прадуктовы дызайнер / Sound UX дызайнер
- Энэргічных людзей, якім неабыякава гэтая праблемная вобласць
Галоўны крытэр для ўдзелу ў праекце — ідэйнасць. Мы шукаем тых, хто падзяляе праблематыку праекта, а таксама шчыра імкнецца палепшыць становішча беларусаў у свеце. Усе астатнія матыватары на дадзены момант мы лічым другаснымі.
Таксама запрашаем беларускіх мецэнатаў і бізнэс-анёлаў.
Падрабязнасці пра каманду можна знайсці на ADAMby.ai.
Меркаванне аўтара можа не супадаць з пазіцыяй рэдакцыі.
Што яшчэ пачытаць пра беларускамоўныя праекты:
- «Айцішнік у Швейцарыі можа зарабляць 9 тысяч франкаў і болей». Гутарым з аўтаркай курса Java на беларускай;
- Энтузіясты перакладаюць Ubuntu на беларускую. Вы таксама можаце далучыцца;
- «Правяраем, ці гэта камусьці патрэбна». Георгій Качаноўскі запусціў беларускамоўнае GPT-радыё.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Комментарий скрыт за нарушение правил комментирования.
Правила тут, их всего 5