Wyznaczanie trendów w nauce: Algorytm big data znajduje kolejny bestseller na rynku wydawniczym

W swojej nowej książce "The Bestseller Code: Anatomy of a Blockbuster Novel" dwoje uczonych z Uniwersytetu Stanforda objaśnia, w jaki sposób zaprojektowany przez nich algorytm przewiduje, z dokładnością wynoszącą 80%, które spośród nowych powieści staną się bestsellerami.

Przemysł wydawniczy, jak wiele innych branż kulturalnych, na przykład film czy telewizja, opiera się na hitach. Przewidywanie, które książki staną się bestsellerami, stanowi jak dotąd sztukę niezwykle trudną, a próbując tego dokonać, wydawcy kierują się instynktem lub zgadują na podstawie swojej wiedzy oraz znajomości popularnych pozycji. Nie trzeba wyjaśniać, że takie próby często są nietrafione — niektóre bestsellery i powieści najbardziej cenione przez krytyków były wielokrotnie odrzucane, zanim znalazły wydawcę zainteresowanego ich publikacją. Tak było między innymi w przypadku "Harry''ego Pottera i Kamienia Filozoficznego" J.K. Rowling, powieści "Carrie" Stephena Kinga (odrzucanej w sumie 30 razy) oraz arcydzieła science-fiction autorstwa Franka Herberta, "Dune", by wymienić tylko kilku wybitnych pisarzy, którzy odnieśli ogromny sukces, gdy udało im się już znaleźć wydawcę.

Teraz w rozpoznawaniu bestsellerów może pomóc algorytm, nazwany przez jego twórców "bestsellerometrem". Wykorzystuje on trend, jaki pojawił się w branży wydawniczej w latach 2000. wraz z popularyzacją e-booków, polegający na sięganiu przez wydawców po big data, zamiast kierowania się wyłącznie instynktem przy wyborze pozycji. Pomysł zrodził się na Uniwersytecie Stanforda w 2008 r., kiedy doktorantka Jodie Archer i Matthew L. Jockers, profesor nadzwyczajny literatury angielskiej (który obecnie pracuje na Uniwersytecie Nebraska-Lincoln, ale pomagał w założeniu laboratorium literackiego na Uniwersytecie Stanforda) postanowili sprawdzić, czy komputery mogłyby analizować i rozumieć książki w sposób nieosiągalny dla ludzi.

Rozgryźć dane idealnej powieści

Po kilku latach współpracy uczeni przetworzyli dane z 20 000 bestsellerów New York Timesa dzięki wykorzystaniu mocy obliczeniowej tysięcy komputerów. Badacze nauczyli te komputery "czytać" — co polegało zasadniczo na przeszkoleniu ich w lokalizowaniu początków i końców zdań, rozpoznawaniu części mowy oraz analizie fabuły. Następnie przy pomocy algorytmów do tzw. klasyfikacji maszynowej wyodrębniono te cechy, które najczęściej występowały w bestsellerach. Teraz "bestsellerometr" potrafi przewidywać z dokładnością 80% prawdopodobieństwo tego, czy dana powieść okaże się hitem, czy też niewypałem.

Zatem jakie czynniki są dla algorytmu tymi, które najbardziej zwiększają szanse powieści na sukces wydawniczy? Na początek warto mieć młodą, silną, ale borykającą się z trudnościami główną bohaterkę (na przykład Katniss Everdeen z "Igrzysk śmierci" czy Lisbeth Salander z "Mężczyzn, którzy nienawidzą kobiet"). Opisy seksu nie powinny być za bardzo obrazowe, ale kłaść nacisk na "bliskość między ludźmi". Nie należy stosować zbyt wielu wykrzykników i nie warto przesadzać z przymiotnikami i przysłówkami, dobrze często używać czasownika "potrzebować", a jeżeli bohater ma zwierzaka, najlepiej żeby był to pies, a nie kot. Nie trzeba bać się kolokwializmów — czytelnicy bestsellerów wolą bardziej nieformalny język, obfitujący w wyrażenia w rodzaju "ok" czy "yhm". Ważny jest też tytuł — warto tu użyć prostego rzeczownika (przykładem nie będzie "Szczygieł" Donny Tartt czy "Wyspa" Victorii Hislop).

Najlepszy wybór algorytmu

Archers i Jockers z niecierpliwością czekali, którą spośród wielu tysięcy powieści algorytm wybierze jako swoją ulubioną. Okazał się nią być "The Circle" Dave''a Eggersa, thriller z 2013 r. Opowiada on o młodej kobiecie, która trafia po studiach do potężnej firmy technologicznej, która w swoich niecnych zamiarach dąży do tego, by zmienić świat zgodnie ze swoją filozofią zniszczenia prywatności.

Dokładniej mówiąc, algorytmowi spodobała się żeńska bohaterka powieści, fakt, że "potrzebować" i "chcieć" są najchętniej używanymi przez nią czasownikami, a także skupienie się fabuły na trzech konkretnych tematach — technologii, zatrudnieniu i warunkach pracy oraz bliskości między ludźmi, przy czym to ostatnie jest według algorytmu najczęściej występującym zagadnieniem we wszystkich bestsellerach. Co ważne, powieść "The Circle" rzeczywiście została bestsellerem i utrzymywała się na liście najlepiej sprzedających się pozycji New York Timesa przez wiele tygodni.

Jednak Archer szybko wskazuje na ironię wyboru dokonanego przez algorytm — "The Cirlce" to powieść dystopijna, opisująca zagrożenia związane z big data i coraz śmielszym wkraczaniem technologii do wszystkich dziedzin ludzkiego życia.

Choć Archer i Jockers nie mają zamiaru komercjalizować swojego algorytmu, w nieodległej przyszłości big data prawdopodobnie wywrze istotny wpływ na rynek wydawniczy, a to rodzi obawy, że z powodu pogoni wydawców za zyskiem literatura stanie się mniej różnorodna. "Istnieje ryzyko, że rynek stanie się przez to jednowymiarowy, a na to nie możemy się zgodzić", komentuje Archer. "Nasz algorytm wydaje się podpowiadać wydawcy: wybierz tego nowego autora, dzięki niemu nie ryzykujesz przekroczenia budżetu".

data ostatniej modyfikacji: 2016-10-05 20:00:02
Komentarze


Polityka Prywatności