|
1. Introducció
Aquest article és una revisió de l'informe
publicat l'any 2003 sobre la presència de la
llengua catalana a Internet. S'ha cregut necessari, després de
més dos anys --i això és molt de temps a
Internet--, fer una revisió d'aquestes dades i actualitzar-les
amb
el màxim rigor possible.
Determinar amb exactitud la presència d'una
llengua a Internet és una tasca complexa i fora de l'abast dels
mitjans tècnics i humans de què disposem a
Softcatalà. Internet no és només la web, hi ha
multitud d'espais sensibles a les llengües, com ara el correu
electrònic, els xats, els grups de discussió o la
missatgeria instantània, que són difícils de
mesurar, quan no impossibles, sense la col·laboració dels
proveïdors d'accés a la Xarxa. En aquest article ens
centrarem en mesurar la presència del català a la web.
2. Mètode
utilitzat
Per a l'elaboració d'aquest article s'ha utilitzat la base de
dades del cercador Google.
Bàsicament, s'ha intentat interrogar amb la màxima
fiabilitat possible la quantitat de pàgines web que té
indexades per a cada llengua. S'ha utilitzat la tècnica
anomenada
"complement del conjunt buit" que es basa en cercar paraules no
existents
en una llengua per a determinar el nombre de pàgines indexades.
Aquestes dades són una mesura molt
eficaç de la presència del català a Internet. En
qualsevol cas, és important tenir presents els punts
següents:
- L'informe de l'any 2003 es va fer usant el cercador AllTheWeb, mentre que l'actual
s'ha realitzat amb el
cercador Google. Això
és un canvi força important, ja que les llengües
comparades, així com la tecnologia sobre la
que es basen els dos cercadors, són sensiblement diferents.
- El sistema utilitzat per Google per a determinar la llengua
d'una pàgina es basa principalment en la freqüència
d'aparició de determinats mots en les pàgines (term frequency). Aquests sistemes
no són totalment fiables, ja que en pàgines
petites, o
per
a llengües properes (com ara l'occità i el català),
la detecció de la llengua pot ser incorrecta.
2. Dades sobre la
presència del català a Internet (octubre 2005)
Aquestes són les dades que mostren la
presència del català a Internet segons el cercador Google el mes d'octubre de 2005.
|
Cercador Google
|
|
|
Llengua |
Pàgines
l'octubre 2005
|
Pàgines l'agost 2003
|
1
|
Anglès
|
9.200.000.000
|
1.280.041.397
|
2
|
Francès
|
202.000.000
|
99.737.704
|
3
|
Alemany
|
184.000.000
|
182.005.546
|
4
|
Japonès
|
150.000.000
|
69.730.375
|
5
|
Castellà
|
133.000.000
|
65.814.567
|
6
|
Xinès
|
74.700.000
|
65.730.212
|
7
|
Italià
|
68.400.000
|
41.849.365
|
8
|
Holandès
|
54.300.000
|
41.119.851
|
9
|
Portuguès
|
44.000.000
|
37.695.762
|
| 10 |
Rus
|
43.200.000
|
42.276.247
|
11
|
Suec
|
42.100.000
|
14.901.968
|
12
|
Noruec
|
28.700.000
|
8.123.301
|
13
|
Txec
|
26.700.000
|
15.580.583
|
14
|
Finès
|
26.200.000
|
5.678.599
|
15
|
Coreà
|
24.400.000
|
64.606.324
|
16
|
Polonès
|
23.800.000
|
22.154.325
|
17
|
Danès
|
22.200.000
|
12.107.133
|
18
|
Hongarès
|
15.100.000
|
8.540.941
|
19
|
Àrab
|
12.600.000
|
2.470.616
|
20
|
Turc
|
11.200.000
|
4.704.212
|
21
|
Hebreu
|
10.100.000
|
4.792.646
|
22
|
Grec
|
9.230.000
|
2.366.733
|
23
|
Indonesi
|
8.660.000
|
1.044.038
|
24
|
Croat
|
7.950.000
|
1.672.582
|
25
|
Romanès
|
7.250.000
|
2.052.990
|
26
|
Català
|
7.140.000
|
2.926.550
|
27
|
Eslovè
|
6.950.000
|
1.685.426
|
28
|
Estonià
|
6.510.000
|
1.464.539
|
29
|
Eslovac
|
6.130.000
|
5.077.965
|
30
|
Letó
|
5.750.000
|
559.913
|
31
|
Lituà
|
5.720.000
|
1.078.341
|
32
|
Islandès
|
5.250.000
|
1.391.302
|
33
|
Búlgar
|
3.810.000
|
1.120.713
|
34
|
Serbi
|
3.340.000
|
42.848
|
Notes
1. Les dades relatives
al xinès inclouen les pàgines escrites en xinès
tradicional i xinès simplificat.
3. Nombre relatiu de
pàgines web per parlant
La taula següent mostra, de més gran a
més petit, el nombre de pàgines per parlant, és a
dir, el seu nombre relatiu.
|
Cercador Google
|
|
Llengua |
Pàgines
Web (mostra) |
Parlants |
Pàgines
per parlant |
1
|
Anglès
|
9.200.000.000
|
341.000.000
|
26,98
|
2
|
Islandès
|
5.250.000
|
250.000
|
21,00
|
3
|
Estonià
|
6.510.000
|
1.100.000
|
5,92
|
4
|
Noruec
|
28.700.000
|
5.000.000
|
5,74
|
5
|
Suec
|
42.100.000
|
9.000.000
|
4,68
|
6
|
Finès
|
26.200.000
|
6.000.000
|
4,37
|
7
|
Danès
|
22.200.000
|
5.326.000
|
4,17
|
8
|
Letó
|
5.750.000
|
1.543.844
|
3,72
|
9
|
Eslovè
|
6.950.000
|
2.000.000
|
3,48
|
10
|
Francès
|
202.000.000
|
72.000.000
|
2,81
|
11
|
Holandès
|
54.300.000
|
20.000.000
|
2,72
|
12
|
Txec
|
26.700.000
|
12.000.000
|
2,23
|
13
|
Hebreu
|
10.100.000
|
5.150.000
|
1,96
|
14
|
Alemany
|
184.000.000
|
100.000.000
|
1,84
|
15
|
Lituà
|
572.0000
|
3.125.281
|
1,83
|
16
|
Japonès
|
150.000.000
|
126.000.000
|
1,19
|
17
|
Italià
|
68.400.000
|
62.000.000
|
1,10
|
18
|
Eslovac
|
6.130.000
|
5.606.000
|
1,09
|
19
|
Català
|
7.140.000
|
6.565.000
|
1,09
|
20
|
Hongarès
|
15.100.000
|
145.00.000
|
1,04
|
21
|
Grec
|
9.230.000
|
12.000.000
|
0,77
|
22
|
Polonès
|
23.800.000
|
44.000.000
|
0,54
|
23
|
Búlgar
|
3.810.000
|
8.954.811
|
0,43
|
24
|
Castellà
|
133.000.000
|
322.000.000
|
0,41
|
25
|
Croat
|
7.950.000
|
21.000.000
|
0,38
|
26
|
Indonesi
|
8.660.000
|
23.143.354
|
0,37
|
27
|
Coreà
|
24.400.000
|
78.000.000
|
0,31
|
28
|
Serbi
|
3.340.000
|
11.144.758
|
0,30
|
29
|
Romanès
|
7.250.000
|
26.000.000
|
0,28
|
30
|
Rus
|
43.200.000
|
167.000.000
|
0,26
|
31
|
Portuguès
|
44.000.000
|
176.000.000
|
0,25
|
32
|
Turc
|
11.200.000
|
61.000.000
|
0,18
|
33
|
Xinès
|
74.700.000
|
885.000.000
|
0,08
|
34
|
Àrab
|
12.600.000
|
213.223.637
|
0,06
|
Notes
1.
Les dades del nombre de parlants provenen d'Ethnologue
2. Les dades relatives al xinès inclouen
pàgines escrites en xinès tradicional i en xinès
simplificat.
3. Les dades sobre el nombre de parlants del català varien
segons les fonts (vegeu Generalitat
de Catalunya). S'ha decidit usar les dades provinents d'Ethnologue
per a totes les llengües i no fer cap modificació per a cap
d'elles. Cal destacar que Ethnologue considera solament el nombre de
parlants
que
tenen una llengua com a materna.
Conclusió
A tall de conclusió, podem afirmar que, en
menys de dos anys, s'ha doblat el nombre de pàgines web
indexades en català, i que el català, segons aquest
estudi, és avui dia la vint-i-sisena llengua a Internet. Cal
remarcar que l'increment de pàgines web és degut en part
a que els cercadors actuals tenen més pàgines web
indexades que l'any 2003.
El català a Internet continua amb una forta posició
respecte a altres llengües, i la popularització dels
blocs en llengua catalana ha suposat també un increment
important del nombre
de pàgines disponibles.
Bibliografia recomanada
Informe de Vilaweb sobre la presència del
català l'any 2000
http://www.vilaweb.com/especials/5anys/enquesta.html
Informe de Softcatalà sobre la presència
del català l'any 2003
http://www.softcatala.org/articles/article26.htm
Baròmetre de l'ús del català a
Internet
http://wiccac.org/hist_resums.html
Observatori de les llengües i cultures de Funredes
http://www.funredes.org/LC/
Anàlisis d'Alis de les llengües a Internet
(1997)
http://babel.alis.com/palmares.html
Les llengües del món
http://www.ethnologue.com/
Millan, José Antonio. (2001): Internet y el
español
Fundación Retevisión
|