Friday, April 29, 2005

Zoekmachines: het hoe, wat, waar en waarom

Het gebruik van zoekmachines is sterk ingeburgerd, maar het commercialiseren ervan levert de afgelopen maanden zoveel innovatie dat de bomen in het bos onzichtbaar dreigen te raken.

Wel is het goed te constateren dat de user experience centraal staat, niet a priori de winst: een goed idee levert vanzelf geld op, zo is de gedachte. Let bijvoorbeeld op het grote aantal innovaties in beta (test versie), waar in veel gevallen nog geen advertenties verschijnen.

Om te beginnen de meest recente marktaandelen van de bekendste zoekmachines (in maart in de VS, gemeten door comScore): Google 36.4% (+0.5 yoy), Yahoo! 30.6% (+0.6), MSN 16.5% (+0.8), AOL 8.9% (-4.5), Ask Jeeves 5.5% (+3.7).

Zoals gebruikelijk komt NetRatings (met een iets andere systematiek) tot een afwijkende maar vergelijkbare score: Google 47.3%, Yahoo! 20.9%, MSN 13.6%, AOL 6.0%, Ask Jeeves 5.4%.

Google en Yahoo! zijn de belangrijkste spelers omdat zij eigen zoektechnologie hebben. Zij leveren hun zoekresultaten op tal van sites (Google bijvoorbeeld op AOL). MSN heeft sinds kort eigen technologie, AOL werkt er aan. Kleinere zoekmachines zijn: Ansers.com (GuruNet), Mamma.com, FindWhat.com, Vivisimo/Clusty.

Daarnaast zijn Google en Yahoo! de belangrijkste leveranciers van paid links (zie 5). Zo levert Google aan AOL en Ask Jeeves en Yahoo! aan MSN (tot medio 2006).

Het gaat dus om innovatie (voor een betere user experience) en commercialiseren (zoekmachines zijn geen filantropische instelingen). De belangrijkste topics:


1. Technieken

1G: De gebruikte algoritmes vormen het hart van zoekmachines. De eerste zoekmachine was van Brian Pinkerton (1994) en zocht op zoektermen: de eerste generatie (1G).
2G: Essentieel is dat de zoekresultaten op relevantie gerangschikt worden. Google doet dit door te kijken naar het aantal links naar de betreffende pagina (het PageRank systeem, genoemd naar de ontwikkelaar en mede-oprichter van Google, Larry Page). Snap.com (een machine van incubator Idealab) vindt het aantal clicks relevanter dan het aantal links. MSN beweert ook te kijken naar de kwaliteit van de pagina. Ask Jeeves kijkt mede naar de freshness van de content.
3G: IBM werkt inmiddels aan derde generatie (3G) zoektechnologie, op basis van AI (zie mijn post van 27 december). Gepoogd wordt een semantische analyse van pagina's te maken. Accoona " understands the meaning of words", beweert ze, op basis van AI.



2. Niet alleen internet

  • De grote zoekmachines brengen het www in kaart. Marktleider Google heeft een database waarin van 8 miljard pagina's opgenomen zijn door middel van tags. Een zoekopdracht kijkt niet naar het www maar naar de database.
  • Zoekopdrachten kunnen ook worden losgelaten op andere databases. Bij alle grote machines kun je op de eerste pagina al meteen een keuze maken: het www of een andere database. Bijvoorbeeld: images, yellow pages, white pages, Encarta (MSN), weerinfo, aandelenmarktinfo, show times van films, etc. etc.
  • A9 van Amazon.com maakt gebruik van de Google-machine, maar zoekt ook in bepaalde databases, zoals Amazon.coms eigen Internet Movie Database en Answers.com (van GuruNet).
  • Andere variant: book search van Google.
  • Google, Yahoo! en AOL (via Singingfish) bieden via een aparte zoekmachine naar audiovisuele content te zoeken (zie post van 25 januari). Dit gebeurt doordat de content voorzien is van tekstbestanden of tags die de inhoud kort omschrijven.
  • Answers.com (van GuruNet) is een zoekmachine gewijd aan definities.
  • Het openen van databases voor zoekopdrachten vergroot de inventory voor het kunnen plaatsen van advertenties, een belangrijke reden om steeds meer database op internet te plaatsen.
  • Metasearch: deze zoeken in verschillende zoekmachines tegelijk en pretenderen de meest relevante resultaten te laten zien. Bijvoorbeeld HotBot, Mamma.com en Websbiggest.com.
  • Vertical search is een vorm van metasearch gericht op bijvoorbeeld winkelen (comparison shopping, zoals Shopping.com en Google's Froogle.com), reizen (travel search, zoals TravelZoo) en banen (job search, zoals WorkZoo).
  • Particulieren kunnen een querie loslaten op hun PC (desktop search: zoekt in word- en excel documenten, powerpoint presentaties, PDF's, e-mail berichten, opgeslagen IM-conversaties, via cookies bewaarde web-pagina's etc.) en voor bedrijven is enterprise search beschikbaar.
  • Daarnaast zijn er zoekmachines die in bewaarde telefoongesprekken (via VoIP) kunnen zoeken. Het is een beetje nep: je moet zelf je telefoongesprekken voorzien van tags (waar heb je het over gehad?), want de software zoekt niet via spraakherkenning in de conversatie zelf, maar uitsluitend in de tags.

3. Niet alleen via de PC

Zoekmachines zijn web based, dus vooral vanaf de PC toegankelijk. Door een toolbar te downloaden hoef je geen browser open te hebben staan.
Via SMS kun je ook zoeken met behulp van een mobiele telefoon. Google SMS en Yahoo! Mobile zijn voorbeelden.

4. Toeters en bellen

  • Local search: door een (Amerikaanse) zip code mee te geven, verschijnen alleen zoekresultaten in het releante gebied van de VS. Google Local is sinds kort ook in Groot-Brittannie beschikbaar (beta).
  • Personaliseren: Google Personalized stelt je in staat vooraf een persoonlijk profiel mee te geven. Dit moet de relevantie van de resultaten vergroten.
  • Persoonlijke historie: Daarnaast heeft Google recent My Search History (nog in beta) geintroduceerd. Al je queries worden bewaard (op de servers van Google, dus vanaf iedere computer te benaderen), met datum en tijdstip. Je kan vervolgens op datum opdrachten terugzoeken. Deze tool is vergelijkbaar met Google Desktop (zoekt immers ook door web pagina's), maar biedt meer functionaliteit. Omdat je moet inloggen (bijvoorbeeld met je Gmail gegevens), lijkt het erop dat Google zich hierdoor ontwikkelt van zuivere zoekmachine tot portal.
  • Al eerder kwamen Ask Jeeves (My Jeeves) en A9.com (van Amazon.com) met een dergelijke functionaliteit, en Yahoo! kon natuurlijk niet achterblijven: My Web (beta). Het lijkt erop dat de grote machines hierdoor alleen maar groter zullen worden: door nog maar één machine te gebruiken, heb je je volledige historie beschikbaar (lock-in).
  • Clusty (van Vivisimo) brengt de resultaten onder in categorieen. AOL heeft deze technologie in licentie.
  • Yahoo! laat je een vervolgopdracht geven met de dienst Y!Q (toolbar downloaden noodzakelijk; is nog in beta).
  • Ask Jeeves laat een preview zien van de zoekresulaten, zodat je de resultatenpagina niet onmiddellijk verlaat (beweeg je cursor maar naar het verrekijkertje - niet clicken!).

5. Commercialiseren

Zoekmachines zijn gratis, maar alles behalve liefdadigheid. Maar er is slechts één inkomstenbron: adverteren bij zoekresultaten. Ook hier zijn een paar innovaties te melden.

  • Volgens IAB en PwC is de US-markt voor online advertenties in 2004 met 33% gegroeid tot $9.6bn. Adverteren bij zoekresultaten (sponsored search) groeide met bijna 50% tot $3.9bn.
  • Sponsored search, paid search, paid listings: advertenties naast (of boven) zoekresultaten. Plaatsing op basis van zoektermen, waarop adverteerders in een continue veiling kunnen bieden. De hoogste bieder ziet zijn advertentie bovenaan staan. Maar hij betaalt pas wanneer iemand erop clickt. De zoekmachine ontvangt, en deelt eventueel met een distributiepartner (die de zoekmachine op zijn site heeft staan). Te betalen per click: minimaal 5 of 10 cent, maximaal ... soms wel $100 (bijvoorbeeld een term als Vioxx, gekocht door een advocatenkantoor).
  • Het zal duidelijk zijn dat dit aanleiding geeft tot click fraud: concurrenten en gefrustreerde ex-werknemers kunnen de adverteerder op onkosten jagen.
  • Contextual advertising: de zoekmachine plaatst relevante advertenties bij de pagina's van web sites, op basis van het voorkomen van bepaalde termen. Opnieuw betaalt de adverteerder pas wanneer geclickt wordt. De site en de zoekmachine delen de inkomsten (vaak in de buurt van 50/50).
  • Pay-per-call: een variant op sponsored search, speciaal voor kleine bedrijfjes zonder web site. Je kunt niet clicken op de advertenties: er staat eenvoudig een telefoonnummer. De tarieven liggen een stuk hoger dan bij pay-per-click. Immers, wie de telefoon pakt means business (de conversion rate van een click ligt veel lager). FindWhat.com en AOL bieden deze dienst aan, op basis van technologie van Ingenio.
  • En dan is er nog paid inclusion. Het is maar de vraag of de crawlers van de zoekmachine je web site opmerken (bijvoorbeeld op basis van het aantal links, zoals bij PageRank, zie boven). Is dat niet het geval, dan kan je site toch nog worden opgenomen in de database van de zoekmachine: als je er maar voor betaalt. Google biedt deze service niet, omdat het de zoekresulaten zuiver wil houden. Yahoo! doet het wel, en redeneert zo: wie naar iets zoekt, is waarschijnlijk gebaat bij het vinden van deze web site want het merendeel van de zoekopdrachten is commercieel van aard (je wil iets kopen).
  • Deze dienstverlening heeft een hele industrie doen ontstaan: adviseurs op het gebied van search engine optimisation (SEO). Hoe zorg ik ervoor dat mijn site in de database terechtkomt en bij bepaalde zoekopdrachten hoog in de resultatenlijst komt te staan? Het manipuleren gaat zover, dat zoeken op term X site Y als eerste resultaat laat zien, louter omdat Y een goede SEO in dienst heeft. Daarom verandert Google regelmatig zijn algoritmes. Site Y wil dan wel eens vele plaatsen omlaag kukelen. En dat is slecht voor de business, want de meeste zoekers kijken niet verder dan de eerste pakweg 5 resultaten.
  • SEO roept de vraag op: wat biedt een betere return: je site optimaliseren en mikken op een hoge plaats bij de algoritmische zoekresultaten (organic search is immers gratis, afgezien van eventuele kosten van SEO), of je toevlucht nemen tot sponsored search en bieden op keywords.
  • Ook betreedt Google de markt voor het invoegen van advertenties in RSS-feeds. Wie in een RSS-reader de headlines laat binnenlopen van longhornblogs.com (de eerste site waar Google experimenteert), zal zien dat de headlines afgewisseld worden door advertenties. Ook Yahoo! experimenteert hiermee.


No comments: